ENH: preserve RangeIndex in factorize #38034

jbrockmendel · 2020-11-24T05:17:15Z

jreback · 2020-11-26T16:16:25Z

minor comment, any perf implications?

pandas/core/algorithms.py

…h-range-factorize

jbrockmendel · 2020-11-26T19:06:33Z

any perf implications?

In [2]: ri = pd.Index(range(10**5))

In [3]: %timeit ri.factorize()
2.28 ms ± 120 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)   # <-- master
33.2 µs ± 199 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)  # <-- PR

In [5]: %timeit mi = pd.MultiIndex.from_arrays([ri, ri, ri])
18.2 ms ± 1.26 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)  # <-- master
308 µs ± 5.21 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)  # <-- PR

In [6]: mi = pd.MultiIndex.from_arrays([ri, ri, ri])

In [7]: %timeit mi.get_loc((10, 10, 10))
13.1 µs ± 65.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)  # <-- master
11 µs ± 116 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)  # <-- PR

jreback · 2020-11-26T19:19:03Z

any perf implications?

In [2]: ri = pd.Index(range(10**5))

In [3]: %timeit ri.factorize()
2.28 ms ± 120 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)   # <-- master
33.2 µs ± 199 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)  # <-- PR

In [5]: %timeit mi = pd.MultiIndex.from_arrays([ri, ri, ri])
18.2 ms ± 1.26 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)  # <-- master
308 µs ± 5.21 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)  # <-- PR

In [6]: mi = pd.MultiIndex.from_arrays([ri, ri, ri])

In [7]: %timeit mi.get_loc((10, 10, 10))
13.1 µs ± 65.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)  # <-- master
11 µs ± 116 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)  # <-- PR

nice ok, imagine these progate to other things in a + way.

jbrockmendel · 2020-11-26T22:18:48Z

rebased+green

jbrockmendel added 4 commits November 23, 2020 21:14

ENH: preserve RangeIndex in factorize

fd09de4

dedoc

13cb696

ensure np.intp

d4003f2

32bit compat

231702a

jbrockmendel mentioned this pull request Nov 26, 2020

TST: tighten assert_index_equal calls #38054

Merged

jreback added the Index Related to the Index class or subclasses label Nov 26, 2020

jreback requested changes Nov 26, 2020

View reviewed changes

pandas/core/algorithms.py Show resolved Hide resolved

jbrockmendel added 2 commits November 26, 2020 11:01

Merge branch 'master' of https://github.com/pandas-dev/pandas into en…

f3081a5

…h-range-factorize

if->elif

bb2ffc0

jreback added this to the 1.2 milestone Nov 26, 2020

jreback approved these changes Nov 26, 2020

View reviewed changes

jreback added the Performance Memory or execution speed performance label Nov 26, 2020

jreback merged commit 090d6a1 into pandas-dev:master Nov 26, 2020

jbrockmendel deleted the enh-range-factorize branch November 26, 2020 22:30

simonjayhawkins mentioned this pull request Nov 29, 2020

test backportability of #38120 #38137

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ENH: preserve RangeIndex in factorize #38034

ENH: preserve RangeIndex in factorize #38034

jbrockmendel commented Nov 24, 2020

jreback commented Nov 26, 2020

jbrockmendel commented Nov 26, 2020

jreback commented Nov 26, 2020

jbrockmendel commented Nov 26, 2020

ENH: preserve RangeIndex in factorize #38034

ENH: preserve RangeIndex in factorize #38034

Conversation

jbrockmendel commented Nov 24, 2020

jreback commented Nov 26, 2020

jbrockmendel commented Nov 26, 2020

jreback commented Nov 26, 2020

jbrockmendel commented Nov 26, 2020