Fix nsmallest/nlargest With Identical Values

Roger Thomas · Roger Thomas · commit 1a8043f48c4d · 2017-03-31T11:41:51.000+01:00
diff --git a/doc/source/whatsnew/v0.20.0.txt b/doc/source/whatsnew/v0.20.0.txt
@@ -1057,3 +1057,4 @@ Bug Fixes
 - Bug in ``pd.melt()`` where passing a tuple value for ``value_vars`` caused a ``TypeError`` (:issue:`15348`)
 - Bug in ``.eval()`` which caused multiline evals to fail with local variables not on the first line (:issue:`15342`)
 - Bug in ``pd.read_msgpack()`` which did not allow to load dataframe with an index of type ``CategoricalIndex`` (:issue:`15487`)
+- Bug in ``DataFrame.nsmallest`` and ``DataFrame.nlargest`` where identical values resulted in duplicated rows (:issue:`15297`)
diff --git a/pandas/core/algorithms.py b/pandas/core/algorithms.py
@@ -948,10 +948,36 @@ def select_n_frame(frame, columns, n, method, keep):
     if not is_list_like(columns):
         columns = [columns]
     columns = list(columns)
-    ser = getattr(frame[columns[0]], method)(n, keep=keep)
-    if isinstance(ser, Series):
-        ser = ser.to_frame()
-    return ser.merge(frame, on=columns[0], left_index=True)[frame.columns]
+    ascending = method == 'nsmallest'
+    index_is_unique = frame.index.is_unique
+    if not index_is_unique:
+        # If index not unique we must reset index to allow re-indexing below
+        # We must save frame's index to tmp
+        tmp = Series(np.arange(len(frame)), index=frame.index)
+        frame = frame.reset_index(drop=True)
+    for i, column in enumerate(columns):
+        series = frame[column]
+        values = getattr(series, method)(n, keep=keep)
+        if i + 1 == len(columns):
+            frame = frame.reindex(values.index)
+        else:
+            filtered_frame = frame[series.isin(values)]
+            if len(filtered_frame) == len(values):
+                # Values are unique in series => reindex and break
+                frame = frame.reindex(values.index)
+                break
+            frame = filtered_frame.sort_values(
+                column, ascending=ascending
+            )
+    if not index_is_unique:
+        # This below line of code is a little obfuscated. We are setting the
+        # index of the frame back to it's original index using saved original
+        # index stored in tmp. Because we reset the index on frame (above)
+        # frame's index is now purely a unique integer index (as is tmp) =>
+        # to restore the index to frame we can index tmp's index with frame's
+        # index...
+        frame.index = tmp.index[frame.index]
+    return frame
 
 
 def _finalize_nsmallest(arr, kth_val, n, keep, narr):
diff --git a/pandas/tests/frame/test_analytics.py b/pandas/tests/frame/test_analytics.py
@@ -1140,6 +1140,20 @@ def test_nlargest_multiple_columns(self):
         expected = df.sort_values(['a', 'b'], ascending=False).head(5)
         tm.assert_frame_equal(result, expected)
 
+    def test_nlargest_nsmallest_identical_values(self):
+        # GH15297
+        df = pd.DataFrame({'a': [1] * 5, 'b': [1, 2, 3, 4, 5]})
+
+        result = df.nlargest(3, 'a')
+        expected = pd.DataFrame(
+            {'a': [1] * 3, 'b': [1, 2, 3]}, index=[0, 1, 2]
+        )
+        tm.assert_frame_equal(result, expected)
+
+        result = df.nsmallest(3, 'a')
+        expected = pd.DataFrame({'a': [1] * 3, 'b': [1, 2, 3]})
+        tm.assert_frame_equal(result, expected)
+
     def test_nsmallest(self):
         from string import ascii_lowercase
         df = pd.DataFrame({'a': np.random.permutation(10),
@@ -1159,33 +1173,41 @@ def test_nsmallest_multiple_columns(self):
 
     def test_nsmallest_nlargest_duplicate_index(self):
         # GH 13412
-        df = pd.DataFrame({'a': [1, 2, 3, 4],
-                           'b': [4, 3, 2, 1],
-                           'c': [0, 1, 2, 3]},
-                          index=[0, 0, 1, 1])
-        result = df.nsmallest(4, 'a')
-        expected = df.sort_values('a').head(4)
+        df = pd.DataFrame({'a': [1, 2, 3, 4, 4],
+                           'b': [1, 1, 1, 1, 1],
+                           'c': [0, 1, 2, 5, 4]},
+                          index=[0, 0, 1, 1, 1])
+
+        result = df.nsmallest(4, ['a', 'b', 'c'])
+        expected = df.sort_values(['a', 'b', 'c']).head(4)
         tm.assert_frame_equal(result, expected)
 
-        result = df.nlargest(4, 'a')
-        expected = df.sort_values('a', ascending=False).head(4)
+        result = df.nlargest(4, ['a', 'b', 'c'])
+        expected = df.sort_values(['a', 'b', 'c'], ascending=False).head(4)
         tm.assert_frame_equal(result, expected)
 
-        result = df.nsmallest(4, ['a', 'c'])
-        expected = df.sort_values(['a', 'c']).head(4)
+        result = df.nlargest(4, ['c', 'b', 'a'])
+        expected = df.sort_values(['c', 'b', 'a'], ascending=False).head(4)
         tm.assert_frame_equal(result, expected)
 
-        result = df.nsmallest(4, ['c', 'a'])
-        expected = df.sort_values(['c', 'a']).head(4)
+        result = df.nsmallest(4, ['c', 'b', 'a'])
+        expected = df.sort_values(['c', 'b', 'a']).head(4)
         tm.assert_frame_equal(result, expected)
 
-        result = df.nlargest(4, ['a', 'c'])
-        expected = df.sort_values(['a', 'c'], ascending=False).head(4)
+        # Test all duplicates still returns df of size n
+        result = df.nsmallest(2, 'b')
+        expected = df.sort_values('b').head(2)
         tm.assert_frame_equal(result, expected)
 
-        result = df.nlargest(4, ['c', 'a'])
-        expected = df.sort_values(['c', 'a'], ascending=False).head(4)
+    def test_nsmallest_nlargest_duplicate_multi_index(self):
+        df = pd.DataFrame({'a': [1, 2, 3, 3, 3],
+                           'b': [1, 1, 1, 1, 1],
+                           'c': [0, 1, 2, 5, 4]},
+                          index=[[0, 0, 0, 0, 0], [1, 1, 1, 1, 1]])
+        result = df.nsmallest(4, ['a', 'b', 'c'])
+        expected = df.sort_values(['a', 'b', 'c']).head(4)
         tm.assert_frame_equal(result, expected)
+
     # ----------------------------------------------------------------------
     # Isin
 
diff --git a/pandas/tests/series/test_analytics.py b/pandas/tests/series/test_analytics.py
@@ -1455,6 +1455,23 @@ def test_nsmallest_nlargest(self):
         expected = s.sort_values().head(3)
         assert_series_equal(result, expected)
 
+        # GH 15297
+        s = Series([1] * 5, index=[1, 2, 3, 4, 5])
+        expected_first = Series([1] * 3, index=[1, 2, 3])
+        expected_last = Series([1] * 3, index=[5, 4, 3])
+
+        result = s.nsmallest(3)
+        assert_series_equal(result, expected_first)
+
+        result = s.nsmallest(3, keep='last')
+        assert_series_equal(result, expected_last)
+
+        result = s.nlargest(3)
+        assert_series_equal(result, expected_first)
+
+        result = s.nlargest(3, keep='last')
+        assert_series_equal(result, expected_last)
+
     def test_sort_index_level(self):
         mi = MultiIndex.from_tuples([[1, 1, 3], [1, 1, 1]], names=list('ABC'))
         s = Series([1, 2], mi)