Added tests for multiple groups

WillAyd · WillAyd · commit 62b9b286fac3 · 2018-02-05T12:33:58.000-08:00
diff --git a/pandas/tests/groupby/test_groupby.py b/pandas/tests/groupby/test_groupby.py
@@ -1895,61 +1895,49 @@ def test_rank_apply(self):
         expected = expected.reindex(result.index)
         assert_series_equal(result, expected)
 
+    @pytest.mark.parametrize("grps", [
+        ['qux'], ['qux', 'quux']])
     @pytest.mark.parametrize("vals", [
         [2, 2, 8, 2, 6], ['bar', 'bar', 'foo', 'bar', 'baz'],
         [pd.Timestamp('2018-01-02'), pd.Timestamp('2018-01-02'),
          pd.Timestamp('2018-01-08'), pd.Timestamp('2018-01-02'),
          pd.Timestamp('2018-01-06')]])
     @pytest.mark.parametrize("ties_method,ascending,pct,exp", [
-        ('average', True, False, DataFrame(
-            [2., 2., 5., 2., 4.], columns=['val'])),
-        ('average', True, True, DataFrame(
-            [0.4, 0.4, 1.0, 0.4, 0.8], columns=['val'])),
-        ('average', False, False, DataFrame(
-            [4., 4., 1., 4., 2.], columns=['val'])),
-        ('average', False, True, DataFrame(
-            [.8, .8, .2, .8, .4], columns=['val'])),
-        ('min', True, False, DataFrame(
-            [1., 1., 5., 1., 4.], columns=['val'])),
-        ('min', True, True, DataFrame(
-            [0.2, 0.2, 1.0, 0.2, 0.8], columns=['val'])),
-        ('min', False, False, DataFrame(
-            [3., 3., 1., 3., 2.], columns=['val'])),
-        ('min', False, True, DataFrame(
-            [.6, .6, .2, .6, .4], columns=['val'])),
-        ('max', True, False, DataFrame(
-            [3., 3., 5., 3., 4.], columns=['val'])),
-        ('max', True, True, DataFrame(
-            [0.6, 0.6, 1.0, 0.6, 0.8], columns=['val'])),
-        ('max', False, False, DataFrame(
-            [5., 5., 1., 5., 2.], columns=['val'])),
-        ('max', False, True, DataFrame(
-            [1., 1., .2, 1., .4], columns=['val'])),
-        ('first', True, False, DataFrame(
-            [1., 2., 5., 3., 4.], columns=['val'])),
-        ('first', True, True, DataFrame(
-            [0.2, 0.4, 1.0, 0.6, 0.8], columns=['val'])),
-        ('first', False, False, DataFrame(
-            [3., 4., 1., 5., 2.], columns=['val'])),
-        ('first', False, True, DataFrame(
-            [.6, .8, .2, 1., .4], columns=['val'])),
-        ('dense', True, False, DataFrame(
-            [1., 1., 3., 1., 2.], columns=['val'])),
-        ('dense', True, True, DataFrame(
-            [0.2, 0.2, 0.6, 0.2, 0.4], columns=['val'])),
-        ('dense', False, False, DataFrame(
-            [3., 3., 1., 3., 2.], columns=['val'])),
-        ('dense', False, True, DataFrame(
-            [.6, .6, .2, .6, .4], columns=['val'])),
+        ('average', True, False, [2., 2., 5., 2., 4.]),
+        ('average', True, True, [0.4, 0.4, 1.0, 0.4, 0.8]),
+        ('average', False, False, [4., 4., 1., 4., 2.]),
+        ('average', False, True, [.8, .8, .2, .8, .4]),
+        ('min', True, False, [1., 1., 5., 1., 4.]),
+        ('min', True, True, [0.2, 0.2, 1.0, 0.2, 0.8]),
+        ('min', False, False, [3., 3., 1., 3., 2.]),
+        ('min', False, True, [.6, .6, .2, .6, .4]),
+        ('max', True, False, [3., 3., 5., 3., 4.]),
+        ('max', True, True, [0.6, 0.6, 1.0, 0.6, 0.8]),
+        ('max', False, False, [5., 5., 1., 5., 2.]),
+        ('max', False, True, [1., 1., .2, 1., .4]),
+        ('first', True, False, [1., 2., 5., 3., 4.]),
+        ('first', True, True, [0.2, 0.4, 1.0, 0.6, 0.8]),
+        ('first', False, False, [3., 4., 1., 5., 2.]),
+        ('first', False, True, [.6, .8, .2, 1., .4]),
+        ('dense', True, False, [1., 1., 3., 1., 2.]),
+        ('dense', True, True, [0.2, 0.2, 0.6, 0.2, 0.4]),
+        ('dense', False, False, [3., 3., 1., 3., 2.]),
+        ('dense', False, True, [.6, .6, .2, .6, .4]),
     ])
-    def test_rank_args(self, vals, ties_method, ascending, pct, exp):
+    def test_rank_args(self, grps, vals, ties_method, ascending, pct, exp):
         if ties_method == 'first' and vals[0] == 'bar':
             pytest.xfail("See GH 19482")
-        df = DataFrame({'key': ['foo']*5, 'val': vals})
+        key = np.repeat(grps, len(vals))
+        vals = vals * len(grps)
+        df = DataFrame({'key': key, 'val': vals})
         result = df.groupby('key').rank(method=ties_method, ascending=ascending,
                                         pct=pct)
-        assert_frame_equal(result, exp)
 
+        exp_df = DataFrame(exp * len(grps), columns=['val'])
+        assert_frame_equal(result, exp_df)
+
+    @pytest.mark.parametrize("grps", [
+        ['qux'], ['qux', 'quux']])
     @pytest.mark.parametrize("vals", [
         [2, 2, np.nan, 8, 2, 6, np.nan, np.nan],  # floats
         ['bar', 'bar', np.nan, 'foo', 'bar', 'baz', np.nan, np.nan],  # objects
@@ -1958,110 +1946,89 @@ def test_rank_args(self, vals, ties_method, ascending, pct, exp):
          pd.Timestamp('2018-01-06'), np.nan, np.nan]
     ])
     @pytest.mark.parametrize("ties_method,ascending,na_option,pct,exp", [
-        ('average', True, 'keep', False, DataFrame(
-            [2., 2., np.nan, 5., 2., 4., np.nan, np.nan], columns=['val'])),
-        ('average', True, 'keep', True, DataFrame(
-            [0.4, 0.4, np.nan, 1.0, 0.4, 0.8, np.nan, np.nan],
-            columns=['val'])),
-        ('average', False, 'keep', False, DataFrame(
-            [4., 4., np.nan, 1., 4., 2., np.nan, np.nan], columns=['val'])),
-        ('average', False, 'keep', True, DataFrame(
-            [.8, 0.8, np.nan, 0.2, 0.8, 0.4, np.nan, np.nan], columns=['val'])),
-        ('min', True, 'keep', False, DataFrame(
-            [1., 1., np.nan, 5., 1., 4., np.nan, np.nan], columns=['val'])),
-        ('min', True, 'keep', True, DataFrame(
-            [0.2, 0.2, np.nan, 1.0, 0.2, 0.8, np.nan, np.nan],
-            columns=['val'])),
-        ('min', False, 'keep', False, DataFrame(
-            [3., 3., np.nan, 1., 3., 2., np.nan, np.nan], columns=['val'])),
-        ('min', False, 'keep', True, DataFrame(
-            [.6, 0.6, np.nan, 0.2, 0.6, 0.4, np.nan, np.nan], columns=['val'])),
-        ('max', True, 'keep', False, DataFrame(
-            [3., 3., np.nan, 5., 3., 4., np.nan, np.nan], columns=['val'])),
-        ('max', True, 'keep', True, DataFrame(
-            [0.6, 0.6, np.nan, 1.0, 0.6, 0.8, np.nan, np.nan],
-            columns=['val'])),
-        ('max', False, 'keep', False, DataFrame(
-            [5., 5., np.nan, 1., 5., 2., np.nan, np.nan], columns=['val'])),
-        ('max', False, 'keep', True, DataFrame(
-            [1., 1., np.nan, 0.2, 1., 0.4, np.nan, np.nan], columns=['val'])),
-        ('first', True, 'keep', False, DataFrame(
-            [1., 2., np.nan, 5., 3., 4., np.nan, np.nan], columns=['val'])),
-        ('first', True, 'keep', True, DataFrame(
-            [0.2, 0.4, np.nan, 1.0, 0.6, 0.8, np.nan, np.nan],
-            columns=['val'])),
-        ('first', False, 'keep', False, DataFrame(
-            [3., 4., np.nan, 1., 5., 2., np.nan, np.nan], columns=['val'])),
-        ('first', False, 'keep', True, DataFrame(
-            [.6, 0.8, np.nan, 0.2, 1., 0.4, np.nan, np.nan], columns=['val'])),
-        ('dense', True, 'keep', False, DataFrame(
-            [1., 1., np.nan, 3., 1., 2., np.nan, np.nan], columns=['val'])),
-        ('dense', True, 'keep', True, DataFrame(
-            [0.2, 0.2, np.nan, 0.6, 0.2, 0.4, np.nan, np.nan],
-            columns=['val'])),
-        ('dense', False, 'keep', False, DataFrame(
-            [3., 3., np.nan, 1., 3., 2., np.nan, np.nan], columns=['val'])),
-        ('dense', False, 'keep', True, DataFrame(
-            [.6, 0.6, np.nan, 0.2, 0.6, 0.4, np.nan, np.nan], columns=['val'])),
-        ('average', True, 'no_na', False, DataFrame(
-            [2., 2., 7., 5., 2., 4., 7., 7.], columns=['val'])),
-        ('average', True, 'no_na', True, DataFrame(
-            [0.25, 0.25, 0.875, 0.625, 0.25, 0.5, 0.875, 0.875],
-            columns=['val'])),
-        ('average', False, 'no_na', False, DataFrame(
-            [4., 4., 7.0, 1., 4., 2., 7.0, 7.0], columns=['val'])),
-        ('average', False, 'no_na', True, DataFrame(
-            [0.5, 0.5, 0.875, 0.125, 0.5, 0.25, 0.875, 0.875],
-            columns=['val'])),
-        ('min', True, 'no_na', False, DataFrame(
-            [1., 1., 6., 5., 1., 4., 6., 6.], columns=['val'])),
-        ('min', True, 'no_na', True, DataFrame(
-            [0.125, 0.125, 0.75, 0.625, 0.125, 0.5, 0.75, 0.75],
-            columns=['val'])),
-        ('min', False, 'no_na', False, DataFrame(
-            [3., 3., 6., 1., 3., 2., 6., 6.], columns=['val'])),
-        ('min', False, 'no_na', True, DataFrame(
-            [0.375, 0.375, 0.75, 0.125, 0.375, 0.25, 0.75, 0.75],
-            columns=['val'])),
-        ('max', True, 'no_na', False, DataFrame(
-            [3., 3., 8., 5., 3., 4., 8., 8.], columns=['val'])),
-        ('max', True, 'no_na', True, DataFrame(
-            [0.375, 0.375, 1., 0.625, 0.375, 0.5, 1., 1.], columns=['val'])),
-        ('max', False, 'no_na', False, DataFrame(
-            [5., 5., 8., 1., 5., 2., 8., 8.], columns=['val'])),
-        ('max', False, 'no_na', True, DataFrame(
-            [0.625, 0.625, 1., 0.125, 0.625, 0.25, 1., 1.], columns=['val'])),
-        ('first', True, 'no_na', False, DataFrame(
-            [1., 2., 6., 5., 3., 4., 7., 8.], columns=['val'])),
-        ('first', True, 'no_na', True, DataFrame(
-            [0.125, 0.25, 0.75, 0.625, 0.375, 0.5, 0.875, 1.],
-            columns=['val'])),
-        ('first', False, 'no_na', False, DataFrame(
-            [3., 4., 6., 1., 5., 2., 7., 8.], columns=['val'])),
-        ('first', False, 'no_na', True, DataFrame(
-            [0.375, 0.5, 0.75, 0.125, 0.625, 0.25, 0.875, 1.],
-            columns=['val'])),
-        ('dense', True, 'no_na', False, DataFrame(
-            [1., 1., 4., 3., 1., 2., 4., 4.], columns=['val'])),
-        ('dense', True, 'no_na', True, DataFrame(
-            [0.125, 0.125, 0.5, 0.375, 0.125, 0.25, 0.5, 0.5],
-            columns=['val'])),
-        ('dense', False, 'no_na', False, DataFrame(
-            [3., 3., 4., 1., 3., 2., 4., 4.], columns=['val'])),
-        ('dense', False, 'no_na', True, DataFrame(
-            [0.375, 0.375, 0.5, 0.125, 0.375, 0.25, 0.5, 0.5],
-            columns=['val'])),
+        ('average', True, 'keep', False,
+            [2., 2., np.nan, 5., 2., 4., np.nan, np.nan]),
+        ('average', True, 'keep', True,
+            [0.4, 0.4, np.nan, 1.0, 0.4, 0.8, np.nan, np.nan]),
+        ('average', False, 'keep', False,
+            [4., 4., np.nan, 1., 4., 2., np.nan, np.nan]),
+        ('average', False, 'keep', True,
+            [.8, 0.8, np.nan, 0.2, 0.8, 0.4, np.nan, np.nan]),
+        ('min', True, 'keep', False,
+            [1., 1., np.nan, 5., 1., 4., np.nan, np.nan]),
+        ('min', True, 'keep', True,
+            [0.2, 0.2, np.nan, 1.0, 0.2, 0.8, np.nan, np.nan]),
+        ('min', False, 'keep', False,
+            [3., 3., np.nan, 1., 3., 2., np.nan, np.nan]),
+        ('min', False, 'keep', True,
+            [.6, 0.6, np.nan, 0.2, 0.6, 0.4, np.nan, np.nan]),
+        ('max', True, 'keep', False,
+            [3., 3., np.nan, 5., 3., 4., np.nan, np.nan]),
+        ('max', True, 'keep', True,
+            [0.6, 0.6, np.nan, 1.0, 0.6, 0.8, np.nan, np.nan]),
+        ('max', False, 'keep', False,
+            [5., 5., np.nan, 1., 5., 2., np.nan, np.nan]),
+        ('max', False, 'keep', True,
+            [1., 1., np.nan, 0.2, 1., 0.4, np.nan, np.nan]),
+        ('first', True, 'keep', False,
+            [1., 2., np.nan, 5., 3., 4., np.nan, np.nan]),
+        ('first', True, 'keep', True,
+            [0.2, 0.4, np.nan, 1.0, 0.6, 0.8, np.nan, np.nan]),
+        ('first', False, 'keep', False,
+            [3., 4., np.nan, 1., 5., 2., np.nan, np.nan]),
+        ('first', False, 'keep', True,
+            [.6, 0.8, np.nan, 0.2, 1., 0.4, np.nan, np.nan]),
+        ('dense', True, 'keep', False,
+            [1., 1., np.nan, 3., 1., 2., np.nan, np.nan]),
+        ('dense', True, 'keep', True,
+            [0.2, 0.2, np.nan, 0.6, 0.2, 0.4, np.nan, np.nan]),
+        ('dense', False, 'keep', False,
+            [3., 3., np.nan, 1., 3., 2., np.nan, np.nan]),
+        ('dense', False, 'keep', True,
+            [.6, 0.6, np.nan, 0.2, 0.6, 0.4, np.nan, np.nan]),
+        ('average', True, 'no_na', False, [2., 2., 7., 5., 2., 4., 7., 7.]),
+        ('average', True, 'no_na', True,
+            [0.25, 0.25, 0.875, 0.625, 0.25, 0.5, 0.875, 0.875]),
+        ('average', False, 'no_na', False, [4., 4., 7., 1., 4., 2., 7., 7.]),
+        ('average', False, 'no_na', True,
+            [0.5, 0.5, 0.875, 0.125, 0.5, 0.25, 0.875, 0.875]),
+        ('min', True, 'no_na', False, [1., 1., 6., 5., 1., 4., 6., 6.]),
+        ('min', True, 'no_na', True,
+            [0.125, 0.125, 0.75, 0.625, 0.125, 0.5, 0.75, 0.75]),
+        ('min', False, 'no_na', False, [3., 3., 6., 1., 3., 2., 6., 6.]),
+        ('min', False, 'no_na', True,
+            [0.375, 0.375, 0.75, 0.125, 0.375, 0.25, 0.75, 0.75]),
+        ('max', True, 'no_na', False, [3., 3., 8., 5., 3., 4., 8., 8.]),
+        ('max', True, 'no_na', True,
+            [0.375, 0.375, 1., 0.625, 0.375, 0.5, 1., 1.]),
+        ('max', False, 'no_na', False, [5., 5., 8., 1., 5., 2., 8., 8.]),
+        ('max', False, 'no_na', True,
+            [0.625, 0.625, 1., 0.125, 0.625, 0.25, 1., 1.]),
+        ('first', True, 'no_na', False, [1., 2., 6., 5., 3., 4., 7., 8.]),
+        ('first', True, 'no_na', True,
+            [0.125, 0.25, 0.75, 0.625, 0.375, 0.5, 0.875, 1.]),
+        ('first', False, 'no_na', False, [3., 4., 6., 1., 5., 2., 7., 8.]),
+        ('first', False, 'no_na', True,
+            [0.375, 0.5, 0.75, 0.125, 0.625, 0.25, 0.875, 1.]),
+        ('dense', True, 'no_na', False, [1., 1., 4., 3., 1., 2., 4., 4.]),
+        ('dense', True, 'no_na', True,
+            [0.125, 0.125, 0.5, 0.375, 0.125, 0.25, 0.5, 0.5]),
+        ('dense', False, 'no_na', False, [3., 3., 4., 1., 3., 2., 4., 4.]),
+        ('dense', False, 'no_na', True,
+            [0.375, 0.375, 0.5, 0.125, 0.375, 0.25, 0.5, 0.5])
     ])
-    def test_rank_args_missing(self, vals, ties_method, ascending, na_option,
-                               pct, exp):
+    def test_rank_args_missing(self, grps, vals, ties_method, ascending,
+                               na_option, pct, exp):
         if ties_method == 'first' and vals[0] == 'bar':
             pytest.xfail("See GH 19482")
-
-        df = DataFrame({'key': ['foo']*8, 'val': vals})
+        key = np.repeat(grps, len(vals))
+        vals = vals * len(grps)
+        df = DataFrame({'key': key, 'val': vals})
         result = df.groupby('key').rank(method=ties_method, ascending=ascending,
                                         na_option=na_option, pct=pct)
 
-        assert_frame_equal(result, exp)
+        exp_df = DataFrame(exp * len(grps), columns=['val'])
+        assert_frame_equal(result, exp_df)
 
     def test_dont_clobber_name_column(self):
         df = DataFrame({'key': ['a', 'a', 'a', 'b', 'b', 'b'],