fix DataFrameGroupBy._transform_general

arw2019 · arw2019 · commit 16544ea5d7ec · 2020-08-21T08:05:46.000Z
diff --git a/pandas/core/groupby/generic.py b/pandas/core/groupby/generic.py
@@ -1409,7 +1409,9 @@ def _transform_general(
         else:
             fast_path, slow_path = self._define_paths(func, *args, **kwargs)
 
+        has_nan = False
         for name, group in gen:
+            has_nan = has_nan or isna(name)
             object.__setattr__(group, "name", name)
 
             if maybe_use_numba(engine):
@@ -1418,9 +1420,8 @@ def _transform_general(
                 if cache_key not in NUMBA_FUNC_CACHE:
                     NUMBA_FUNC_CACHE[cache_key] = numba_func
                 # Return the result as a DataFrame for concatenation later
-                res = self.obj._constructor(
-                    res, index=group.index, columns=group.columns
-                )
+                indexer = self._get_index(name) if self.dropna else group.index
+                res = self.obj._constructor(res, index=indexer, columns=group.columns)
             else:
                 # Try slow path and fast path.
                 try:
@@ -1459,7 +1460,12 @@ def _transform_general(
         other_axis = 1 if self.axis == 0 else 0  # switches between 0 & 1
         concatenated = concat(applied, axis=self.axis, verify_integrity=False)
         concatenated = concatenated.reindex(concat_index, axis=other_axis, copy=False)
-        return self._set_result_index_ordered(concatenated)
+        if not self.dropna or not has_nan:
+            return self._set_result_index_ordered(concatenated)
+        else:
+            concatenated.sort_index(inplace=True)
+            concatenated.index = obj.index[concatenated.index.asi8]
+            return concatenated
 
     @Substitution(klass="DataFrame")
     @Appender(_transform_template)
diff --git a/pandas/tests/groupby/test_apply.py b/pandas/tests/groupby/test_apply.py
@@ -404,7 +404,7 @@ def trans2(group):
 
 
 def test_apply_transform(ts):
-    grouped = ts.groupby(lambda x: x.month)
+    grouped = ts.groupby(lambda x: x.month, dropna=False)
     result = grouped.apply(lambda x: x * 2)
     expected = grouped.transform(lambda x: x * 2)
     tm.assert_series_equal(result, expected)
diff --git a/pandas/tests/groupby/transform/test_transform.py b/pandas/tests/groupby/transform/test_transform.py
@@ -309,11 +309,11 @@ def test_transform_multiple(ts):
 def test_dispatch_transform(tsframe):
     df = tsframe[::5].reindex(tsframe.index)
 
-    grouped = df.groupby(lambda x: x.month, dropna=False)
+    grouped = df.groupby(lambda x: x.month)
 
     filled = grouped.fillna(method="pad")
     fillit = lambda x: x.fillna(method="pad")
-    expected = df.groupby(lambda x: x.month, dropna=False).transform(fillit)
+    expected = df.groupby(lambda x: x.month).transform(fillit)
     tm.assert_frame_equal(filled, expected)
 
 
@@ -412,10 +412,10 @@ def nsum(x):
         return np.nansum(x)
 
     results = [
-        df.groupby("col1", dropna=False).transform(sum)["col2"],
-        df.groupby("col1", dropna=False)["col2"].transform(sum),
-        df.groupby("col1", dropna=False).transform(nsum)["col2"],
-        df.groupby("col1", dropna=False)["col2"].transform(nsum),
+        df.groupby("col1").transform(sum)["col2"],
+        df.groupby("col1")["col2"].transform(sum),
+        df.groupby("col1").transform(nsum)["col2"],
+        df.groupby("col1")["col2"].transform(nsum),
     ]
     for result in results:
         tm.assert_series_equal(result, expected, check_names=False)
@@ -448,9 +448,7 @@ def test_groupby_transform_with_int():
         )
     )
     with np.errstate(all="ignore"):
-        result = df.groupby("A", dropna=False).transform(
-            lambda x: (x - x.mean()) / x.std()
-        )
+        result = df.groupby("A").transform(lambda x: (x - x.mean()) / x.std())
     expected = DataFrame(
         dict(B=np.nan, C=Series([-1, 0, 1, -1, 0, 1], dtype="float64"))
     )
@@ -614,7 +612,8 @@ def test_cython_transform_series(op, args, targop):
 
     # series
     for data in [s, s_missing]:
-        expected = data.groupby(labels, dropna=False).transform(targop)
+        # print(data.head())
+        expected = data.groupby(labels).transform(targop)
 
         tm.assert_series_equal(expected, data.groupby(labels).transform(op, *args))
         tm.assert_series_equal(expected, getattr(data.groupby(labels), op)(*args))