Update Algorithm and add error checking

Roger Thomas · Roger Thomas · commit d08a60e6dda9 · 2017-04-03T14:53:42.000+01:00
diff --git a/pandas/core/algorithms.py b/pandas/core/algorithms.py
@@ -944,46 +944,63 @@ def select_n_frame(frame, columns, n, method, keep):
     -------
     nordered : DataFrame
     """
+    from pandas import Int64Index
     if not is_list_like(columns):
         columns = [columns]
     columns = list(columns)
-    ascending = method == 'nsmallest'
-
-    # Below we save and reset the index
-    # in case index contains duplicates
+    for column in columns:
+        dtype = frame[column].dtype
+        if not issubclass(dtype.type, (np.integer, np.floating, np.datetime64,
+                                       np.timedelta64)):
+            msg = (
+                "{column!r} has dtype: {dtype}, cannot use method {method!r} "
+                "with this dtype"
+            ).format(column=column, dtype=dtype, method=method)
+            raise TypeError(msg)
+
+    # Below we save and reset the index in case index contains duplicates
     original_index = frame.index
-    frame = frame.reset_index(drop=True)
-
+    cur_frame = frame = frame.reset_index(drop=True)
+    cur_n = n
+    indexer = Int64Index([])
     for i, column in enumerate(columns):
 
-        # For each column in columns we peform ``method`` on this frame
-        # To guard against the possibility column has duplicate values that
-        # must be considered for futher columns (# GH15297) we filter using
-        # frame[isin] on the values returned by ``method``. If there are no
-        # duplicated values, we simply take the values returned by
-        # ``method``, otherwise we sort the isin filtered frame and continue
-        series = frame[column]
-        values = getattr(series, method)(n, keep=keep)
-        indexer = values.index
-        if i + 1 == len(columns):
-
-            # This is the last column => duplicates here don't matter
-            frame = frame.take(indexer)
+        # For each column we apply method to cur_frame[column]. If it is the
+        # last column in columns, or if the values returned are unique in
+        # frame[column] we save this index and break
+        # Otherwise we must save the index of the non duplicated values
+        # and set the next cur_frame to cur_frame filtered on all duplcicated
+        # values (#GH15297)
+        series = cur_frame[column]
+        values = getattr(series, method)(cur_n, keep=keep)
+        is_last_column = len(columns) - 1 == i
+        if is_last_column or len(values.unique()) == sum(series.isin(values)):
+
+            # Last column in columns or values are unique in series => values
+            # is all that matters
+            if method == 'nsmallest':
+                indexer = indexer.append(values.index)
+            else:
+                indexer = values.index.append(indexer)
+            break
+        duplicated_filter = series.duplicated(keep=False)
+        non_duplicated = values[~duplicated_filter]
+        duplicated = values[duplicated_filter]
+        if method == 'nsmallest':
+            indexer = indexer.append(non_duplicated.index)
         else:
-            filtered_frame = frame[series.isin(values)]
-            if len(filtered_frame) == len(values):
+            indexer = non_duplicated.index.append(indexer)
 
-                # Values are unique in series => take and break
-                frame = frame.take(indexer)
-                break
+        # Must set cur frame to include all duplicated values to consider for
+        # the next column, we also can reduce cur_n by the current length of
+        # the indexer
+        cur_frame = cur_frame[series.isin(duplicated)]
+        cur_n = n - len(indexer)
 
-            # Values are not unique in series => sort and continue
-            frame = filtered_frame.sort_values(
-                column, ascending=ascending
-            )
+    frame = frame.take(indexer)
 
-    # Below we set the index of the returning frame to the original index
-    frame.index = original_index.take(frame.index)
+    # Restore the index on frame
+    frame.index = original_index.take(indexer)
     return frame
 
 
diff --git a/pandas/tests/frame/test_analytics.py b/pandas/tests/frame/test_analytics.py
@@ -1942,13 +1942,28 @@ class TestNLargestNSmallest(object):
     def test_n(self, df_strings, n, order):
         # GH10393
         df = df_strings
-        result = df.nsmallest(n, order)
-        expected = df.sort_values(order).head(n)
-        tm.assert_frame_equal(result, expected)
 
-        result = df.nlargest(n, order)
-        expected = df.sort_values(order, ascending=False).head(n)
-        tm.assert_frame_equal(result, expected)
+        error_msg = (
+            "'b' has dtype: object, cannot use method 'nsmallest' "
+            "with this dtype"
+        )
+        if 'b' in order:
+            with pytest.raises(TypeError) as exception:
+                df.nsmallest(n, order)
+            assert exception.value, error_msg
+        else:
+            result = df.nsmallest(n, order)
+            expected = df.sort_values(order).head(n)
+            tm.assert_frame_equal(result, expected)
+
+        if 'b' in order:
+            with pytest.raises(TypeError) as exception:
+                df.nsmallest(n, order)
+            assert exception.value, error_msg
+        else:
+            result = df.nlargest(n, order)
+            expected = df.sort_values(order, ascending=False).head(n)
+            tm.assert_frame_equal(result, expected)
 
     def test_n_error(self, df_strings):
         # b alone raises a TypeError