TST: test for tupleize_cols=True,index=False

jreback · jreback · commit faf4d53c58bb · 2013-05-19T10:20:40.000-04:00
TST: better error messages on multi_index column read failure
diff --git a/pandas/io/parsers.py b/pandas/io/parsers.py
@@ -809,8 +809,8 @@ def extract(r):
         # if we find 'Unnamed' all of a single level, then our header was too long
         for n in range(len(columns[0])):
             if all([ 'Unnamed' in c[n] for c in columns ]):
-                raise Exception("Passed header=[%s] are too many rows for this "
-                                "multi_index of columns" % ','.join([ str(x) for x in self.header ]))
+                raise _parser.CParserError("Passed header=[%s] are too many rows for this "
+                                           "multi_index of columns" % ','.join([ str(x) for x in self.header ]))
 
         # clean the column names (if we have an index_col)
         if len(ic):
diff --git a/pandas/src/parser.pyx b/pandas/src/parser.pyx
@@ -244,7 +244,7 @@ cdef class TextReader:
         object na_values, true_values, false_values
         object memory_map
         object as_recarray
-        object header, names, header_start, header_end
+        object header, orig_header, names, header_start, header_end
         object low_memory
         object skiprows
         object compact_ints, use_unsigned
@@ -441,6 +441,7 @@ cdef class TextReader:
 
         # TODO: no header vs. header is not the first row
         self.has_mi_columns = 0
+        self.orig_header = header
         if header is None:
             # sentinel value
             self.parser.header_start = -1
@@ -585,8 +586,11 @@ cdef class TextReader:
 
                 # e.g., if header=3 and file only has 2 lines
                 if self.parser.lines < hr + 1:
-                    raise CParserError('Passed header=%d but only %d lines in file'
-                                       % (self.parser.header, self.parser.lines))
+                    msg = self.orig_header
+                    if isinstance(msg,list):
+                           msg = "[%s], len of %d," % (','.join([ str(m) for m in msg ]),len(msg))
+                    raise CParserError('Passed header=%s but only %d lines in file'
+                                       % (msg, self.parser.lines))
 
                 field_count = self.parser.line_fields[hr]
                 start = self.parser.line_start[hr]
diff --git a/pandas/tests/test_frame.py b/pandas/tests/test_frame.py
@@ -5037,6 +5037,13 @@ def _make_frame(names=None):
             result.columns.names = df.columns.names
             assert_frame_equal(df,result)
 
+            # tupleize_cols=True and index=False
+            df = _make_frame(True)
+            df.to_csv(path,tupleize_cols=True,index=False)
+            result = read_csv(path,header=0,tupleize_cols=True,index_col=None)
+            result.columns = df.columns
+            assert_frame_equal(df,result)
+
             # whatsnew example
             df = _make_frame()
             df.to_csv(path,tupleize_cols=False)
@@ -5060,6 +5067,18 @@ def _make_frame(names=None):
             df.to_csv(path,tupleize_cols=False)
 
             # catch invalid headers
+            try:
+                read_csv(path,tupleize_cols=False,header=range(3),index_col=0)
+            except (Exception), detail:
+                if not str(detail).startswith('Passed header=[0,1,2] are too many rows for this multi_index of columns'):
+                    raise AssertionError("failure in read_csv header=range(3)")
+
+            try:
+                read_csv(path,tupleize_cols=False,header=range(7),index_col=0)  
+            except (Exception), detail:
+                if not str(detail).startswith('Passed header=[0,1,2,3,4,5,6], len of 7, but only 6 lines in file'):
+                    raise AssertionError("failure in read_csv header=range(7)")
+
             for i in [3,4,5,6,7]: 
                  self.assertRaises(Exception, read_csv, path, tupleize_cols=False, header=range(i), index_col=0)
             self.assertRaises(Exception, read_csv, path, tupleize_cols=False, header=[0,2], index_col=0)