addressing comments

kunalgosar · kunalgosar · commit 85bf8b3e7e31 · 2018-04-27T10:09:10.000-07:00
diff --git a/pandas/core/reshape/reshape.py b/pandas/core/reshape/reshape.py
@@ -825,47 +825,47 @@ def get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False,
         # determine columns being encoded
 
         if columns is None:
-            columns_to_encode = data.select_dtypes(
+            data_to_encode = data.select_dtypes(
                 include=['object', 'category'])
         else:
-            columns_to_encode = data[columns]
+            data_to_encode = data[columns]
 
         # validate prefixes and separator to avoid silently dropping cols
         def check_len(item, name):
             len_msg = ("Length of '{name}' ({len_item}) did not match the "
                        "length of the columns being encoded ({len_enc}).")
 
             if is_list_like(item):
-                if not len(item) == columns_to_encode.shape[1]:
+                if not len(item) == data_to_encode.shape[1]:
                     len_msg = \
                         len_msg.format(name=name, len_item=len(item),
-                                       len_enc=columns_to_encode.shape[1])
+                                       len_enc=data_to_encode.shape[1])
                     raise ValueError(len_msg)
 
         check_len(prefix, 'prefix')
         check_len(prefix_sep, 'prefix_sep')
         if isinstance(prefix, compat.string_types):
             prefix = cycle([prefix])
         if isinstance(prefix, dict):
-            prefix = [prefix[col] for col in columns_to_encode.columns]
+            prefix = [prefix[col] for col in data_to_encode.columns]
 
         if prefix is None:
-            prefix = columns_to_encode.columns
+            prefix = data_to_encode.columns
 
         # validate separators
         if isinstance(prefix_sep, compat.string_types):
             prefix_sep = cycle([prefix_sep])
         elif isinstance(prefix_sep, dict):
-            prefix_sep = [prefix_sep[col] for col in columns_to_encode.columns]
+            prefix_sep = [prefix_sep[col] for col in data_to_encode.columns]
 
-        if columns_to_encode.shape == data.shape:
+        if data_to_encode.shape == data.shape:
             with_dummies = []
         elif columns is not None:
             with_dummies = [data.drop(columns, axis=1)]
         else:
             with_dummies = [data.select_dtypes(exclude=['object', 'category'])]
 
-        for (col, pre, sep) in zip(columns_to_encode.iteritems(), prefix,
+        for (col, pre, sep) in zip(data_to_encode.iteritems(), prefix,
                                    prefix_sep):
 
             dummy = _get_dummies_1d(col[1], prefix=pre, prefix_sep=sep,
diff --git a/pandas/tests/frame/test_dtypes.py b/pandas/tests/frame/test_dtypes.py
@@ -288,19 +288,21 @@ def test_select_dtypes_include_exclude_mixed_scalars_lists(self):
         assert_frame_equal(ri, ei)
 
     def test_select_dtypes_duplicate_columns(self):
-        df = DataFrame({'a': list('abc'),
-                        'b': list(range(1, 4)),
-                        'c': np.arange(3, 6).astype('u1'),
-                        'd': np.arange(4.0, 7.0, dtype='float64'),
-                        'e': [True, False, True],
-                        'f': pd.date_range('now', periods=3).values})
+        # GH20839
+        odict = compat.OrderedDict
+        df = DataFrame(odict([('a', list('abc')),
+                              ('b', list(range(1, 4))),
+                              ('c', np.arange(3, 6).astype('u1')),
+                              ('d', np.arange(4.0, 7.0, dtype='float64')),
+                              ('e', [True, False, True]),
+                              ('f', pd.date_range('now', periods=3).values)]))
         df.columns = ['a', 'a', 'b', 'b', 'b', 'c']
 
-        e = DataFrame({'a': list(range(1, 4)),
-                       'b': np.arange(3, 6).astype('u1')})
+        expected = DataFrame({'a': list(range(1, 4)),
+                              'b': np.arange(3, 6).astype('u1')})
 
-        r = df.select_dtypes(include=[np.number], exclude=['floating'])
-        assert_frame_equal(r, e)
+        result = df.select_dtypes(include=[np.number], exclude=['floating'])
+        assert_frame_equal(result, expected)
 
     def test_select_dtypes_not_an_attr_but_still_valid_dtype(self):
         df = DataFrame({'a': list('abc'),
diff --git a/pandas/tests/reshape/test_reshape.py b/pandas/tests/reshape/test_reshape.py
@@ -466,6 +466,7 @@ def test_get_dummies_dont_sparsify_all_columns(self, sparse):
         tm.assert_frame_equal(df[['GDP']], df2)
 
     def test_get_dummies_duplicate_columns(self, df):
+        # GH20839
         df.columns = ["A", "A", "A"]
         result = get_dummies(df).sort_index(axis=1)