New engine for MultiIndex? #18519

toobaz · 2017-11-27T14:46:22Z

Currently, MultiIndex.get_loc() and MultiIndex.get_indexer() both rely on an _engine which is either a MultiIndexObjectEngine or a MultiIndexHashEngine: but both of these are thin layers over the flat ObjectEngine. This means that the actual structure of labels and levels is completely discarded (except e.g. for partial indexing, see _get_level_indexer()).

In principle, a completely different scheme could be used:

first look for the key elements in levels, and find the corresponding code
then look for the code in the levels

In most cases, the second part should be the computationally expensive one. It would consist in running nlevels searches in arrays of dtype=int (the .labels) rather than (as it is now) one search in an object array in which each element is actually a tuple of nlevels elements. My guess is that thanks to vectorization the former should be much faster than the latter.

Moreover (and maybe more importantly), with the current engine fixing a bug such as #18485 is a nightmare. And the same applies to

In [2]: (4, True) in pd.MultiIndex.from_tuples([(4, 1)])
Out[2]: True

and probably others. This is because even though levels are not mixed, the elements are compared as objects.

One caveat is that the single levels would be very often non-unique, and I'm not sure what is the impact of this with the current implementation of hash tables.

The text was updated successfully, but these errors were encountered:

chris-b1 · 2017-11-27T15:22:49Z

See also previous discussion in #1752.

toobaz · 2017-11-27T15:45:20Z

Aha, and #16324, which was a response to #16319, which was a reaction to #15245, which was a response to #13904, which was a follow-up to the issue @chris-b1 mentioned.

And while the MultiIndexHashEngine is not what I described above (it's probably better), indeed only now I see that

In [2]: mi = pd.MultiIndex.from_product([[True, False], range(1, 10000)])

In [3]: (1, 3) in mi
Out[3]: False

In [4]: mi = pd.MultiIndex.from_product([[1, np.nan], range(1, 10000)])

In [5]: (np.nan, 3) in mi
Out[5]: True

In [6]: mi = pd.MultiIndex.from_product([[1, np.nan], range(1, 10)])

In [7]: (np.nan, 3) in mi
Out[7]: False

that is, large indexes are free from #18485 and friends.

toobaz · 2017-11-27T20:48:38Z

OK, after reviewing this evidence, I guess we probably don't need a new engine: but I think we should (be able to) improve the MultiIndexEngine to the point that we can stop relying on the ObjectEngine for small MI, by having it hash codes rather than values.

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

qiuwei · 2021-04-21T03:20:22Z

The new engine seems to cause performance issues for get_indexer.
See #34531
and #23735

chris-b1 added MultiIndex Performance Memory or execution speed performance labels Nov 27, 2017

toobaz mentioned this issue Nov 27, 2017

MultiIndex.get_loc misbehaves on NaNs #18485

Closed

This was referenced Dec 18, 2017

No automatic type casting in complete indexing of a large MultiIndex #18818

Closed

MultiIndex.is_unique is inconsistent with Index.is_unique #18913

Closed

toobaz added a commit to toobaz/pandas that referenced this issue Jan 4, 2018

BUG: implement new engine for codes-based MultiIndex indexing

cf02b08

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994

toobaz added a commit to toobaz/pandas that referenced this issue Jan 4, 2018

BUG: implement new engine for codes-based MultiIndex indexing

abe0552

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994

toobaz added a commit to toobaz/pandas that referenced this issue Jan 4, 2018

BUG: implement new engine for codes-based MultiIndex indexing

6e4beb7

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994

toobaz mentioned this issue Jan 4, 2018

REF: codes-based MultiIndex engine #19074

Merged

3 tasks

toobaz added a commit to toobaz/pandas that referenced this issue Jan 4, 2018

BUG: implement new engine for codes-based MultiIndex indexing

9d52a1e

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994

toobaz added a commit to toobaz/pandas that referenced this issue Jan 4, 2018

BUG: implement new engine for codes-based MultiIndex indexing

71adac3

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994

toobaz added a commit to toobaz/pandas that referenced this issue Jan 4, 2018

BUG: implement new engine for codes-based MultiIndex indexing

4c2dbfe

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994

toobaz mentioned this issue Jan 4, 2018

MultiIndex (and not flat Index) casts bool to int #19086

Closed

toobaz added a commit to toobaz/pandas that referenced this issue Jan 4, 2018

BUG: implement new engine for codes-based MultiIndex indexing

085a1fe

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

toobaz added a commit to toobaz/pandas that referenced this issue Jan 4, 2018

BUG: implement new engine for codes-based MultiIndex indexing

a9c32c6

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

toobaz added a commit to toobaz/pandas that referenced this issue Jan 4, 2018

BUG: implement new engine for codes-based MultiIndex indexing

cfe5cb9

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

toobaz added a commit to toobaz/pandas that referenced this issue Jan 10, 2018

BUG: implement new engine for codes-based MultiIndex indexing

2eabba5

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

toobaz added a commit to toobaz/pandas that referenced this issue Jan 11, 2018

BUG: implement new engine for codes-based MultiIndex indexing

5e44452

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

toobaz added a commit to toobaz/pandas that referenced this issue Jan 16, 2018

BUG: implement new engine for codes-based MultiIndex indexing

11627cd

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

jreback added this to the 0.23.0 milestone Jan 17, 2018

toobaz added a commit to toobaz/pandas that referenced this issue Jan 25, 2018

BUG: implement new engine for codes-based MultiIndex indexing

f409ebc

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

toobaz added a commit to toobaz/pandas that referenced this issue Jan 26, 2018

BUG: implement new engine for codes-based MultiIndex indexing

2b22c96

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

toobaz added a commit to toobaz/pandas that referenced this issue Jan 26, 2018

BUG: implement new engine for codes-based MultiIndex indexing

371b594

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

toobaz added a commit to toobaz/pandas that referenced this issue Jan 27, 2018

BUG: implement new engine for codes-based MultiIndex indexing

034ba25

closes pandas-dev#18519 closes pandas-dev#18818 closes pandas-dev#18520 closes pandas-dev#18485 closes pandas-dev#15994 closes pandas-dev#19086

jorisvandenbossche closed this as completed in #19074 Jan 28, 2018

bluecoconut mentioned this issue Jun 3, 2019

Groupby NUnique is slow and possibly buggy dask/dask#4869

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

New engine for MultiIndex? #18519

New engine for MultiIndex? #18519

toobaz commented Nov 27, 2017

chris-b1 commented Nov 27, 2017

toobaz commented Nov 27, 2017

toobaz commented Nov 27, 2017

qiuwei commented Apr 21, 2021

New engine for MultiIndex? #18519

New engine for MultiIndex? #18519

Comments

toobaz commented Nov 27, 2017

chris-b1 commented Nov 27, 2017

toobaz commented Nov 27, 2017

toobaz commented Nov 27, 2017

qiuwei commented Apr 21, 2021