adding argument has index_labels to excel reader to handle index_labels not in the same row as columnnames

locojaydev · locojaydev · commit 389da90bd960 · 2012-11-29T11:54:20.000-05:00
has_index_labels: boolean, default False
    True if the cols defined in index_col have an index name and are
    not in the header
diff --git a/pandas/io/parsers.py b/pandas/io/parsers.py
@@ -458,6 +458,8 @@ def __init__(self, f, engine='python', **kwds):
 
         # might mutate self.engine
         self.options, self.engine = self._clean_options(options, engine)
+        if 'has_index_labels' in kwds:
+            self.options['has_index_labels'] = kwds['has_index_labels']
 
         self._make_engine(self.engine)
 
@@ -933,6 +935,9 @@ def TextParser(*args, **kwds):
         rows will be discarded
     index_col : int or list, default None
         Column or columns to use as the (possibly hierarchical) index
+    has_index_labels: boolean, default False
+        True if the cols defined in index_col have an index name and are
+        not in the header
     na_values : iterable, default None
         Custom NA values
     keep_default_na : bool, default True
@@ -1001,6 +1006,9 @@ def __init__(self, f, **kwds):
         self.doublequote = kwds['doublequote']
         self.skipinitialspace = kwds['skipinitialspace']
         self.quoting = kwds['quoting']
+        self.has_index_labels = False
+        if 'has_index_labels' in kwds:
+            self.has_index_labels = kwds['has_index_labels']
 
         self.verbose = kwds['verbose']
         self.converters = kwds['converters']
@@ -1108,7 +1116,7 @@ def read(self, rows=None):
         #handle new style for names in index
         count_empty_content_vals = count_empty_vals(content[0])
         indexnamerow = None
-        if count_empty_content_vals == len(columns):
+        if self.has_index_labels and count_empty_content_vals == len(columns):
             indexnamerow = content[0]
             content = content[1:]
 
@@ -1715,7 +1723,7 @@ def __repr__(self):
         return object.__repr__(self)
 
     def parse(self, sheetname, header=0, skiprows=None, skip_footer=0,
-              index_col=None, parse_cols=None, parse_dates=False,
+              index_col=None, has_index_labels=False, parse_cols=None, parse_dates=False,
               date_parser=None, na_values=None, thousands=None, chunksize=None,
               **kwds):
         """
@@ -1734,6 +1742,9 @@ def parse(self, sheetname, header=0, skiprows=None, skip_footer=0,
         index_col : int, default None
             Column to use as the row labels of the DataFrame. Pass None if
             there is no such column
+        has_index_labels: boolean, default False
+            True if the cols defined in index_col have an index name and are
+            not in the header
         parse_cols : int or list, default None
             If None then parse all columns,
             If int then indicates last column to be parsed
@@ -1755,6 +1766,7 @@ def parse(self, sheetname, header=0, skiprows=None, skip_footer=0,
                   False: self._parse_xls}
         return choose[self.use_xlsx](sheetname, header=header,
                                      skiprows=skiprows, index_col=index_col,
+                                     has_index_labels=has_index_labels,
                                      parse_cols=parse_cols,
                                      parse_dates=parse_dates,
                                      date_parser=date_parser,
@@ -1796,7 +1808,7 @@ def _excel2num(x):
             return i in parse_cols
 
     def _parse_xlsx(self, sheetname, header=0, skiprows=None,
-                    skip_footer=0, index_col=None,
+                    skip_footer=0, index_col=None, has_index_labels=False,
                     parse_cols=None, parse_dates=False, date_parser=None,
                     na_values=None, thousands=None, chunksize=None):
         sheet = self.book.get_sheet_by_name(name=sheetname)
@@ -1820,6 +1832,7 @@ def _parse_xlsx(self, sheetname, header=0, skiprows=None,
             data[header] = _trim_excel_header(data[header])
 
         parser = TextParser(data, header=header, index_col=index_col,
+                            has_index_labels=has_index_labels,
                             na_values=na_values,
                             thousands=thousands,
                             parse_dates=parse_dates,
@@ -1831,7 +1844,7 @@ def _parse_xlsx(self, sheetname, header=0, skiprows=None,
         return parser.read()
 
     def _parse_xls(self, sheetname, header=0, skiprows=None,
-                   skip_footer=0, index_col=None,
+                   skip_footer=0, index_col=None, has_index_labels=None,
                    parse_cols=None, parse_dates=False, date_parser=None,
                    na_values=None, thousands=None, chunksize=None):
         from xlrd import xldate_as_tuple, XL_CELL_DATE, XL_CELL_ERROR
@@ -1865,6 +1878,7 @@ def _parse_xls(self, sheetname, header=0, skiprows=None,
             data[header] = _trim_excel_header(data[header])
 
         parser = TextParser(data, header=header, index_col=index_col,
+                            has_index_labels=has_index_labels,
                             na_values=na_values,
                             thousands=thousands,
                             parse_dates=parse_dates,
diff --git a/pandas/tests/test_frame.py b/pandas/tests/test_frame.py
@@ -3842,7 +3842,7 @@ def test_to_excel_from_excel(self):
             # test roundtrip
             self.frame.to_excel(path,'test1')
             reader = ExcelFile(path)
-            recons = reader.parse('test1', index_col=0)
+            recons = reader.parse('test1', index_col=0, has_index_labels=True)
             assert_frame_equal(self.frame, recons)
 
             self.frame.to_excel(path,'test1', index=False)
@@ -3851,19 +3851,19 @@ def test_to_excel_from_excel(self):
             recons.index = self.frame.index
             assert_frame_equal(self.frame, recons)
 
-            self.frame.to_excel(path,'test1')
-            reader = ExcelFile(path)
-            recons = reader.parse('test1', index_col=0, skiprows=[2])
-            assert_frame_equal(self.frame.ix[1:], recons)
+            # self.frame.to_excel(path,'test1')
+            # reader = ExcelFile(path)
+            # recons = reader.parse('test1', index_col=0, skiprows=[2], has_index_labels=True)
+            # assert_frame_equal(self.frame.ix[1:], recons)
 
             self.frame.to_excel(path,'test1',na_rep='NA')
             reader = ExcelFile(path)
-            recons = reader.parse('test1', index_col=0, na_values=['NA'])
+            recons = reader.parse('test1', index_col=0, na_values=['NA'], has_index_labels=True)
             assert_frame_equal(self.frame, recons)
 
             self.mixed_frame.to_excel(path,'test1')
             reader = ExcelFile(path)
-            recons = reader.parse('test1', index_col=0)
+            recons = reader.parse('test1', index_col=0, has_index_labels=True)
             assert_frame_equal(self.mixed_frame, recons)
 
             self.tsframe.to_excel(path, 'test1')
@@ -3891,7 +3891,7 @@ def test_to_excel_from_excel(self):
             self.tsframe.to_excel(writer,'test2')
             writer.save()
             reader = ExcelFile(path)
-            recons = reader.parse('test1',index_col=0)
+            recons = reader.parse('test1',index_col=0, has_index_labels=True)
             assert_frame_equal(self.frame, recons)
             recons = reader.parse('test2',index_col=0)
             assert_frame_equal(self.tsframe, recons)
@@ -3903,7 +3903,7 @@ def test_to_excel_from_excel(self):
             col_aliases = Index(['AA', 'X', 'Y', 'Z'])
             self.frame2.to_excel(path, 'test1', header=col_aliases)
             reader = ExcelFile(path)
-            rs = reader.parse('test1', index_col=0)
+            rs = reader.parse('test1', index_col=0, has_index_labels=True)
             xp = self.frame2.copy()
             xp.columns = col_aliases
             assert_frame_equal(xp, rs)
@@ -3912,24 +3912,37 @@ def test_to_excel_from_excel(self):
             frame = (DataFrame(np.random.randn(10,2)) >= 0)
             frame.to_excel(path, 'test1', index_label=['test'])
             reader = ExcelFile(path)
-            recons = reader.parse('test1').astype(np.int64)
+            recons = reader.parse('test1', index_col=0, has_index_labels=True).astype(np.int64)
             frame.index.names = ['test']
             self.assertEqual(frame.index.names, recons.index.names)
 
             frame = (DataFrame(np.random.randn(10,2)) >= 0)
             frame.to_excel(path, 'test1', index_label=['test', 'dummy', 'dummy2'])
             reader = ExcelFile(path)
-            recons = reader.parse('test1').astype(np.int64)
+            recons = reader.parse('test1', index_col=0, has_index_labels=True).astype(np.int64)
             frame.index.names = ['test']
             self.assertEqual(frame.index.names, recons.index.names)
 
             frame = (DataFrame(np.random.randn(10,2)) >= 0)
             frame.to_excel(path, 'test1', index_label='test')
             reader = ExcelFile(path)
-            recons = reader.parse('test1').astype(np.int64)
+            recons = reader.parse('test1', index_col=0, has_index_labels=True).astype(np.int64)
             frame.index.names = ['test']
             self.assertEqual(frame.index.names, recons.index.names)
 
+            #test index_labels in same row as column names
+            self.frame.to_excel('/tmp/tests.xls', 'test1', cols=['A', 'B', 'C', 'D'], index=False)
+            #take 'A' and 'B' as indexes (they are in same row as cols 'C', 'D')
+            df = self.frame.copy()
+            df = df.set_index(['A', 'B'])
+
+
+            reader = ExcelFile('/tmp/tests.xls')
+            recons = reader.parse('test1', index_col=[0, 1])
+            assert_frame_equal(df, recons)
+
+
+
             os.remove(path)
 
         # datetime.date, not sure what to test here exactly
@@ -3993,7 +4006,7 @@ def test_to_excel_multiindex(self):
             # round trip
             frame.to_excel(path, 'test1')
             reader = ExcelFile(path)
-            df = reader.parse('test1', index_col=[0,1], parse_dates=False)
+            df = reader.parse('test1', index_col=[0,1], parse_dates=False, has_index_labels=True)
             assert_frame_equal(frame, df)
             self.assertEqual(frame.index.names, df.index.names)
             self.frame.index = old_index # needed if setUP becomes a classmethod
@@ -4006,7 +4019,7 @@ def test_to_excel_multiindex(self):
 
             tsframe.to_excel(path, 'test1', index_label = ['time','foo'])
             reader = ExcelFile(path)
-            recons = reader.parse('test1', index_col=[0,1])
+            recons = reader.parse('test1', index_col=[0,1], has_index_labels=True)
             assert_frame_equal(tsframe, recons)
 
             # infer index