Do not nix rows of empty

adamhooper · adamhooper · commit 1773983447aa · 2018-06-26T11:00:15.000-04:00
... but _ignore_ empty rows when inferring columns. This changes the
behavior of test_spam_header, which previously ignored an empty row when
the user explicitly stated the row number to use as header.
diff --git a/pandas/io/html.py b/pandas/io/html.py
@@ -496,11 +496,7 @@ def _expand_colspan_rowspan(self, rows):
             all_texts.append(texts)
             remainder = next_remainder
 
-        # ignore all-empty-text rows
-        no_empty = [row for row in all_texts
-                    if any(text for text in row)]
-
-        return no_empty
+        return all_texts
 
     def _handle_hidden_tables(self, tbl_list, attr_name):
         """
@@ -785,10 +781,16 @@ def _data_to_frame(**kwargs):
     header = kwargs.pop('header')
     kwargs['skiprows'] = _get_skiprows(kwargs['skiprows'])
     if head:
-        rows = lrange(len(head))
         body = head + body
-        if header is None:  # special case when a table has <th> elements
-            header = 0 if rows == [0] else rows
+
+        # Infer header when there is a <thead> or top <th>-only rows
+        if header is None:
+            if len(head) == 1:
+                header = 0
+            else:
+                # ignore all-empty-text rows
+                header = [i for i, row in enumerate(head)
+                          if any(text for text in row)]
 
     if foot:
         body += foot
diff --git a/pandas/tests/io/test_html.py b/pandas/tests/io/test_html.py
@@ -16,6 +16,7 @@
                     date_range, Series)
 from pandas.compat import (map, zip, u, StringIO, BytesIO,
                            is_platform_windows, PY3, reload)
+from pandas.errors import ParserError
 from pandas.io.common import URLError, file_path_to_url
 import pandas.io.html
 from pandas.io.html import read_html
@@ -135,7 +136,7 @@ def test_banklist_no_match(self):
             assert isinstance(df, DataFrame)
 
     def test_spam_header(self):
-        df = self.read_html(self.spam_data, '.*Water.*', header=1)[0]
+        df = self.read_html(self.spam_data, '.*Water.*', header=2)[0]
         assert df.columns[0] == 'Proximates'
         assert not df.empty
 
@@ -411,7 +412,7 @@ def test_multiple_tbody(self):
             </tbody>
         </table>''')[0]
 
-        expected = DataFrame({'A': [1, 3], 'B': [2, 4]})
+        expected = DataFrame(data=[[1, 2], [3, 4]], columns=['A', 'B'])
 
         tm.assert_frame_equal(result, expected)
 
@@ -458,11 +459,8 @@ def test_thead_without_tr(self):
             </tbody>
         </table>''')[0]
 
-        expected = DataFrame(data={
-            'Country': ['Ukraine'],
-            'Municipality': ['Odessa'],
-            'Year': [1944],
-        })
+        expected = DataFrame(data=[['Ukraine', 'Odessa', 1944]],
+                             columns=['Country', 'Municipality', 'Year'])
 
         tm.assert_frame_equal(result, expected)
 
@@ -489,9 +487,10 @@ def test_tfoot_read(self):
             </tfoot>
         </table>'''
 
-        expected1 = DataFrame({'A': ['bodyA'], 'B': ['bodyB']})
-        expected2 = DataFrame({'A': ['bodyA', 'footA'],
-                               'B': ['bodyB', 'footB']})
+        expected1 = DataFrame(data=[['bodyA', 'bodyB']], columns=['A', 'B'])
+
+        expected2 = DataFrame(data=[['bodyA', 'bodyB'], ['footA', 'footB']],
+                              columns=['A', 'B'])
 
         data1 = data_template.format(footer="")
         data2 = data_template.format(
@@ -519,7 +518,7 @@ def test_parse_header_of_non_string_column(self):
             </table>
         ''', header=0)[0]
 
-        expected = DataFrame(data={'S': ['text'], 'I': [1944]})
+        expected = DataFrame([['text', 1944]], columns=('S', 'I'))
 
         tm.assert_frame_equal(result, expected)
 
@@ -663,11 +662,7 @@ def test_colspan_rowspan_1(self):
             </table>
         """)[0]
 
-        expected = DataFrame(data={
-            'A': ['a'],
-            'B': ['b'],
-            'C': ['c'],
-        })
+        expected = DataFrame([['a', 'b', 'c']], columns=['A', 'B', 'C'])
 
         tm.assert_frame_equal(result, expected)
 
@@ -695,13 +690,8 @@ def test_colspan_rowspan_copy_values(self):
             </table>
         """, header=0)[0]
 
-        expected = DataFrame(data={
-            'X': ['A'],
-            'X.1': ['B'],
-            'Y': ['B'],
-            'Z': ['Z'],
-            'W': ['C'],
-        })
+        expected = DataFrame(data=[['A', 'B', 'B', 'Z', 'C']],
+                             columns=['X', 'X.1', 'Y', 'Z', 'W'])
 
         tm.assert_frame_equal(result, expected)
 
@@ -726,13 +716,8 @@ def test_colspan_rowspan_both_not_1(self):
             </table>
         """, header=0)[0]
 
-        expected = DataFrame(data={
-            'A': ['A'],
-            'B': ['B'],
-            'B.1': ['B'],
-            'B.2': ['B'],
-            'C': ['D'],
-        })
+        expected = DataFrame(data=[['A', 'B', 'B', 'B', 'D']],
+                             columns=['A', 'B', 'B.1', 'B.2', 'C'])
 
         tm.assert_frame_equal(result, expected)
 
@@ -756,10 +741,7 @@ def test_rowspan_at_end_of_row(self):
             </table>
         """, header=0)[0]
 
-        expected = DataFrame(data={
-            'A': ['C'],
-            'B': ['B']
-        })
+        expected = DataFrame(data=[['C', 'B']], columns=['A', 'B'])
 
         tm.assert_frame_equal(result, expected)
 
@@ -775,14 +757,12 @@ def test_rowspan_only_rows(self):
             </table>
         """, header=0)[0]
 
-        expected = DataFrame(data={
-            'A': ['A', 'A'],
-            'B': ['B', 'B'],
-        })
+        expected = DataFrame(data=[['A', 'B'], ['A', 'B']],
+                             columns=['A', 'B'])
 
         tm.assert_frame_equal(result, expected)
 
-    def test_header_inferred_from_th_elements(self):
+    def test_header_inferred_from_rows_with_only_th(self):
         # GH17054
         result = self.read_html("""
             <table>
@@ -801,10 +781,9 @@ def test_header_inferred_from_th_elements(self):
             </table>
         """)[0]
 
-        expected = DataFrame(data={
-            ('A', 'a'): [1],
-            ('B', 'b'): [2],
-        })
+        columns = MultiIndex(levels=[['A', 'B'], ['a', 'b']],
+                             labels=[[0, 1], [0, 1]])
+        expected = DataFrame(data=[[1, 2]], columns=columns)
 
         tm.assert_frame_equal(result, expected)
 
@@ -827,11 +806,7 @@ def test_parse_dates_combine(self):
 
     def test_computer_sales_page(self):
         data = os.path.join(DATA_PATH, 'computer_sales_page.html')
-        # This table is unique because it has no <thead>, and its <th>-only
-        # rows are underneath an initial <td>-only row that has no content.
-        # After skipping the empty row, header=[0,1] picks the two <th>-only
-        # rows.
-        df = self.read_html(data, header=[0, 1])[0]
+        df = self.read_html(data, header=[1, 2])[0]
 
         three_months = u('Three months ended April\xa030')
         assert df.columns[3] == (three_months, '2013.1')
@@ -844,6 +819,23 @@ def test_wikipedia_states_table(self):
         result = self.read_html(data, 'Arizona', header=1)[0]
         assert result['sq mi'].dtype == np.dtype('float64')
 
+    def test_parser_error_on_empty_header_row(self):
+        with tm.assert_raises_regex(ParserError,
+                                    r"Passed header=\[0,1\] are "
+                                    r"too many rows for this "
+                                    r"multi_index of columns"):
+            self.read_html("""
+                <table>
+                    <thead>
+                        <tr><th></th><th></tr>
+                        <tr><th>A</th><th>B</th></tr>
+                    </thead>
+                    <tbody>
+                        <tr><td>a</td><td>b</td></tr>
+                    </tbody>
+                </table>
+            """, header=[0, 1])
+
     def test_decimal_rows(self):
         # GH 12907
         result = self.read_html('''<html>
@@ -948,6 +940,49 @@ def test_keep_default_na(self):
         html_df = self.read_html(html_data, keep_default_na=True)[0]
         tm.assert_frame_equal(expected_df, html_df)
 
+    def test_preserve_empty_rows(self):
+        result = self.read_html("""
+            <table>
+                <tr>
+                    <th>A</th>
+                    <th>B</th>
+                </tr>
+                <tr>
+                    <td>a</td>
+                    <td>b</td>
+                </tr>
+                <tr>
+                    <td></td>
+                    <td></td>
+                </tr>
+            </table>
+        """)[0]
+
+        expected = DataFrame(data=[['a', 'b'], [np.nan, np.nan]],
+                             columns=['A', 'B'])
+
+        tm.assert_frame_equal(result, expected)
+
+    def test_ignore_empty_rows_when_inferring_header(self):
+        result = self.read_html("""
+            <table>
+                <thead>
+                    <tr><th></th><th></tr>
+                    <tr><th>A</th><th>B</th></tr>
+                    <tr><th>a</th><th>b</th></tr>
+                </thead>
+                <tbody>
+                    <tr><td>1</td><td>2</td></tr>
+                </tbody>
+            </table>
+        """)[0]
+
+        columns = MultiIndex(levels=[['A', 'B'], ['a', 'b']],
+                             labels=[[0, 1], [0, 1]])
+        expected = DataFrame(data=[[1, 2]], columns=columns)
+
+        tm.assert_frame_equal(result, expected)
+
     def test_multiple_header_rows(self):
         # Issue #13434
         expected_df = DataFrame(data=[("Hillary", 68, "D"),