PERF: do not instantiate IndexEngine for standard lookup over RangeIndex

toobaz · toobaz · commit bc404ba36a13 · 2019-06-29T14:40:16.000+02:00
closes #16685
diff --git a/doc/source/whatsnew/v0.25.0.rst b/doc/source/whatsnew/v0.25.0.rst
@@ -641,6 +641,7 @@ Performance improvements
 - Restored performance of :meth:`DatetimeIndex.__iter__` by re-enabling specialized code path (:issue:`26702`)
 - Improved performance when building :class:`MultiIndex` with at least one :class:`CategoricalIndex` level (:issue:`22044`)
 - Improved performance by removing the need for a garbage collect when checking for ``SettingWithCopyWarning`` (:issue:`27031`)
+- RangeIndex now performs standard lookup without instantiating an actual hashtable, hence saving memory (:issue:`16685`)
 
 .. _whatsnew_0250.bug_fixes:
 
diff --git a/pandas/core/indexes/range.py b/pandas/core/indexes/range.py
@@ -14,7 +14,7 @@
 from pandas.core.dtypes import concat as _concat
 from pandas.core.dtypes.common import (
     ensure_python_int, is_int64_dtype, is_integer, is_scalar,
-    is_timedelta64_dtype)
+    is_timedelta64_dtype, is_list_like, ensure_platform_int)
 from pandas.core.dtypes.generic import (
     ABCDataFrame, ABCSeries, ABCTimedeltaIndex)
 
@@ -348,6 +348,34 @@ def get_loc(self, key, method=None, tolerance=None):
                 raise KeyError(key)
         return super().get_loc(key, method=method, tolerance=tolerance)
 
+    @Appender(_index_shared_docs['get_indexer'])
+    def get_indexer(self, target, method=None, limit=None, tolerance=None):
+        if method is None and tolerance is None and is_list_like(target):
+            if self.step > 0:
+                start, stop, step = self.start, self.stop, self.step
+            else:
+                # Work on reversed range for simplicity:
+                start, stop, step = (self.stop - self.step,
+                                     self.start + 1,
+                                     - self.step)
+
+            target_array = np.asarray(target)
+            if target_array.dtype != int:
+                # checks/conversions/roundings are delegated to general method
+                return super().get_indexer(target, method=method,
+                                           tolerance=tolerance)
+
+            locs = ensure_platform_int(target_array) - start
+            valid = (locs % step == 0) & (locs >= 0) & (target_array < stop)
+            locs[~valid] = -1
+            locs[valid] = locs[valid] / step
+
+            if step != self.step:
+                # We reversed this range: transform to original locs
+                locs[valid] = len(self) - locs[valid] - 1
+            return np.array(locs, dtype=int)
+        return super().get_indexer(target, method=method, tolerance=tolerance)
+
     def tolist(self):
         return list(self._range)
 
diff --git a/pandas/tests/indexes/test_range.py b/pandas/tests/indexes/test_range.py
@@ -965,3 +965,30 @@ def test_append(self, appends):
             # Append single item rather than list
             result2 = indices[0].append(indices[1])
             tm.assert_index_equal(result2, expected, exact=True)
+
+    def test_engineless_lookup(self):
+        # GH 16685
+        # Standard lookup on RangeIndex should not require the engine to be
+        # created
+        idx = RangeIndex(2, 10, 3)
+        idx._engine_type = lambda *args, **kwargs: 'dummy_engine'
+        assert idx.get_loc(5) == 1
+        tm.assert_numpy_array_equal(idx.get_indexer([2, 8]),
+                                    np.array([0, 2]))
+        with pytest.raises(KeyError):
+            idx.get_loc(3)
+
+        msg = "'str' object has no attribute "
+        # The engine is still required for lookup of a different dtype scalar:
+        with pytest.raises(AttributeError, match=msg):
+            idx.get_loc('a')
+        # ... or for non-standard lookup methods:
+        for method in 'backfill', 'nearest':
+            with pytest.raises(AttributeError, match=msg):
+                idx.get_indexer([4, 8], method=method)
+
+        # Array with different dtype follows the object codepath, and works:
+        tm.assert_numpy_array_equal(idx.get_indexer(['a', 8]),
+                                    np.array([-1, 2]))
+        tm.assert_numpy_array_equal(idx.get_indexer([5., 8]),
+                                    np.array([1, 2]))