Add factorization vb suite

immerrr · immerrr · commit d4ccf3704f14 · 2014-10-30T08:16:51.000+03:00
diff --git a/vb_suite/factorize.py b/vb_suite/factorize.py
@@ -0,0 +1,36 @@
+from vbench.api import Benchmark
+from datetime import datetime
+
+START_DATE = datetime(2014, 10, 13)
+
+# GH 8524
+
+setup = """from pandas_vb_common import *
+from pandas import factorize
+SIZE = 1000000
+
+int_values_uniq = np.arange(SIZE) * 100
+str_values_uniq = tm.makeStringIndex(SIZE)
+float_values_uniq = np.linspace(0., 1., num=SIZE) * 100
+
+indices = np.random.randint(100, size=SIZE)
+int_values_dup = int_values_uniq.take(indices)
+str_values_dup = str_values_uniq.take(indices)
+float_values_dup = float_values_uniq.take(indices)
+"""
+
+
+factorize_int_dup = Benchmark("factorize(int_values_dup)", setup,
+                              start_date=START_DATE)
+factorize_int_uniq = Benchmark("factorize(int_values_uniq)", setup,
+                               start_date=START_DATE)
+
+factorize_str_dup = Benchmark("factorize(str_values_dup)", setup,
+                              start_date=START_DATE)
+factorize_str_uniq = Benchmark("factorize(str_values_uniq)", setup,
+                               start_date=START_DATE)
+
+factorize_float_dup = Benchmark("factorize(float_values_dup)", setup,
+                                start_date=START_DATE)
+factorize_float_uniq = Benchmark("factorize(float_values_uniq)", setup,
+                                 start_date=START_DATE)
diff --git a/vb_suite/suite.py b/vb_suite/suite.py
@@ -6,6 +6,7 @@
 modules = ['attrs_caching',
            'binary_ops',
            'ctors',
+           'factorize',
            'frame_ctor',
            'frame_methods',
            'groupby',