pandas-dev · nikoskaragiannakis · Mar 20, 2018 · Mar 20, 2018 · Mar 20, 2018 · Mar 20, 2018
diff --git a/doc/source/whatsnew/v0.23.0.txt b/doc/source/whatsnew/v0.23.0.txt
@@ -981,6 +981,8 @@ I/O
 - :class:`Timedelta` now supported in :func:`DataFrame.to_excel` for all Excel file types (:issue:`19242`, :issue:`9155`, :issue:`19900`)
 - Bug in :meth:`pandas.io.stata.StataReader.value_labels` raising an ``AttributeError`` when called on very old files. Now returns an empty dict (:issue:`19417`)
 - Bug in :func:`read_pickle` when unpickling objects with :class:`TimedeltaIndex` or :class:`Float64Index` created with pandas prior to version 0.20 (:issue:`19939`)
+- Bug in :meth:`pandas.io.json.json_normalize` where subrecords are not properly normalized if any subrecords values are NoneType (:issue:`20030`)
+- Bug in :`read_excel` where it transforms np.nan to 'nan' if dtype=str is chosen. Now keeps np.nan as they are. (:issue:`20377`)
 
 Plotting
 ^^^^^^^^

diff --git a/pandas/io/excel.py b/pandas/io/excel.py
@@ -679,6 +679,11 @@ def _parse_cell(cell_contents, cell_typ):
                                     **kwds)
 
                 output[asheetname] = parser.read(nrows=nrows)
+                dtypes = output[asheetname].dtypes
+                output[asheetname].replace('nan', np.nan, inplace=True)
+                output[asheetname] = output[asheetname].astype(dtypes,
+                                                               copy=False)
+
                 if names is not None:
                     output[asheetname].columns = names
                 if not squeeze or isinstance(output[asheetname], DataFrame):

diff --git a/pandas/tests/io/test_excel.py b/pandas/tests/io/test_excel.py
@@ -207,12 +207,29 @@ def test_excel_passes_na(self, ext):
                              columns=['Test'])
         tm.assert_frame_equal(parsed, expected)
 
+        # gh-20377 dtype=str (all 'nan' turn to np.nan)
+
+        parsed = read_excel(excel, 'Sheet1', dtype=str, keep_default_na=False,
+                            na_values=['apple'])
+        expected = DataFrame([['NA'], ['1'], ['NA'], [np.nan], ['rabbit']],
+                             columns=['Test'])
+        tm.assert_frame_equal(parsed, expected)
+
+        parsed = read_excel(excel, 'Sheet1', dtype=str, keep_default_na=True,
+                            na_values=['apple'])
+        expected = DataFrame([[np.nan], ['1'], [np.nan], [np.nan], ['rabbit']],
+                             columns=['Test'])
+        tm.assert_frame_equal(parsed, expected)
+
         # 13967
         excel = self.get_excelfile('test5', ext)
 
         parsed = read_excel(excel, 'Sheet1', keep_default_na=False,
                             na_values=['apple'])
-        expected = DataFrame([['1.#QNAN'], [1], ['nan'], [np.nan], ['rabbit']],
+        # gh-20377 'nan' was given in the spreadsheet, but turned
+        # to np.nan as well
+        expected = DataFrame([['1.#QNAN'], [1], [np.nan], [np.nan],
+                              ['rabbit']],
                              columns=['Test'])
         tm.assert_frame_equal(parsed, expected)