Merge pull request #7008 from immerrr/fix-failing-vb-suites

jreback · jreback · commit 1827abdd3b99 · 2014-04-30T08:48:54.000-04:00
BLD: fix failing vbench cases
diff --git a/vb_suite/eval.py b/vb_suite/eval.py
@@ -78,7 +78,6 @@
               name='eval_frame_and_one_thread',
               start_date=datetime(2013, 7, 26))
 
-setup = common_setup
 eval_frame_and_python = \
     Benchmark("pd.eval('(df > 0) & (df2 > 0) & (df3 > 0) & (df4 > 0)', engine='python')",
               common_setup, name='eval_frame_and_python',
@@ -102,7 +101,6 @@
               name='eval_frame_chained_cmp_one_thread',
               start_date=datetime(2013, 7, 26))
 
-# setup = common_setup
 eval_frame_chained_cmp_python = \
     Benchmark("pd.eval('df < df2 < df3 < df4', engine='python')",
               common_setup, name='eval_frame_chained_cmp_python',
@@ -129,15 +127,15 @@
 df = DataFrame({'dates': s.values})
 """
 
-query_datetime_series = Benchmark("df.query('dates < ts')",
+query_datetime_series = Benchmark("df.query('dates < @ts')",
                                   series_setup,
                                   start_date=datetime(2013, 9, 27))
 
 index_setup = setup + """
 df = DataFrame({'a': np.random.randn(N)}, index=index)
 """
 
-query_datetime_index = Benchmark("df.query('index < ts')",
+query_datetime_index = Benchmark("df.query('index < @ts')",
                                  index_setup, start_date=datetime(2013, 9, 27))
 
 setup = setup + """
@@ -147,6 +145,6 @@
 max_val = df['a'].max()
 """
 
-query_with_boolean_selection = Benchmark("df.query('(a >= min_val) & (a <= max_val)')",
-                                         index_setup, start_date=datetime(2013, 9, 27))
+query_with_boolean_selection = Benchmark("df.query('(a >= @min_val) & (a <= @max_val)')",
+                                         setup, start_date=datetime(2013, 9, 27))
 
diff --git a/vb_suite/frame_ctor.py b/vb_suite/frame_ctor.py
@@ -45,15 +45,35 @@
 frame_ctor_nested_dict_int64 = Benchmark("DataFrame(data)", setup)
 
 # dynamically generate benchmarks for every offset
+#
+# get_period_count & get_index_for_offset are there because blindly taking each
+# offset times 1000 can easily go out of Timestamp bounds and raise errors.
 dynamic_benchmarks = {}
 n_steps = [1, 2]
 for offset in offsets.__all__:
     for n in n_steps:
         setup = common_setup + """
-df = DataFrame(np.random.randn(1000,10),index=date_range('1/1/1900',periods=1000,freq={}({})))
+
+def get_period_count(start_date, off):
+    ten_offsets_in_days = ((start_date + off * 10) - start_date).days
+    if ten_offsets_in_days == 0:
+        return 1000
+    else:
+        return min(9 * ((Timestamp.max - start_date).days //
+                        ten_offsets_in_days),
+                   1000)
+
+def get_index_for_offset(off):
+    start_date = Timestamp('1/1/1900')
+    return date_range(start_date,
+                      periods=min(1000, get_period_count(start_date, off)),
+                      freq=off)
+
+idx = get_index_for_offset({}({}))
+df = DataFrame(np.random.randn(len(idx),10), index=idx)
 d = dict([ (col,df[col]) for col in df.columns ])
 """.format(offset, n)
-        key = 'frame_ctor_dtindex_{}({})'.format(offset, n)
+        key = 'frame_ctor_dtindex_{}x{}'.format(offset, n)
         dynamic_benchmarks[key] = Benchmark("DataFrame(d)", setup, name=key)
 
 # Have to stuff them in globals() so vbench detects them
diff --git a/vb_suite/groupby.py b/vb_suite/groupby.py
@@ -267,22 +267,22 @@ def f(g):
                                          start_date=datetime(2011, 10, 1))
 
 groupby_frame_apply = Benchmark("df.groupby(['key', 'key2']).apply(f)", setup,
-                                 start_date=datetime(2011, 10, 1))
+                                start_date=datetime(2011, 10, 1))
 
 
 #----------------------------------------------------------------------
 # DataFrame nth
 
 setup = common_setup + """
-df = pd.DataFrame(np.random.randint(1, 100, (10000, 2)))
+df = DataFrame(np.random.randint(1, 100, (10000, 2)))
 """
 
 # Not really a fair test as behaviour has changed!
 groupby_frame_nth = Benchmark("df.groupby(0).nth(0)", setup,
-                                start_date=datetime(2014, 3, 1))
+                              start_date=datetime(2014, 3, 1))
 
 groupby_series_nth = Benchmark("df[1].groupby(df[0]).nth(0)", setup,
-                                 start_date=datetime(2014, 3, 1))
+                               start_date=datetime(2014, 3, 1))
 
 
 #----------------------------------------------------------------------
diff --git a/vb_suite/index_object.py b/vb_suite/index_object.py
@@ -11,7 +11,7 @@
 # intersection, union
 
 setup = common_setup + """
-rng = DatetimeIndex('1/1/2000', periods=10000, offset=datetools.Minute())
+rng = DatetimeIndex(start='1/1/2000', periods=10000, freq=datetools.Minute())
 if rng.dtype == object:
     rng = rng.view(Index)
 else:
diff --git a/vb_suite/join_merge.py b/vb_suite/join_merge.py
@@ -223,15 +223,15 @@ def sample(values, k):
 # GH 6329
 
 setup = common_setup + """
-date_index = pd.date_range('01-Jan-2013', '23-Jan-2013', freq='T')
+date_index = date_range('01-Jan-2013', '23-Jan-2013', freq='T')
 daily_dates = date_index.to_period('D').to_timestamp('S','S')
 fracofday = date_index.view(np.ndarray) - daily_dates.view(np.ndarray)
 fracofday = fracofday.astype('timedelta64[ns]').astype(np.float64)/864e11
-fracofday = pd.TimeSeries(fracofday, daily_dates)
-index = pd.date_range(date_index.min().to_period('A').to_timestamp('D','S'),
+fracofday = TimeSeries(fracofday, daily_dates)
+index = date_range(date_index.min().to_period('A').to_timestamp('D','S'),
                       date_index.max().to_period('A').to_timestamp('D','E'),
                       freq='D')
-temp = pd.TimeSeries(1.0, index)
+temp = TimeSeries(1.0, index)
 """
 
 join_non_unique_equal = Benchmark('fracofday * temp[fracofday.index]', setup,
diff --git a/vb_suite/packers.py b/vb_suite/packers.py
@@ -106,7 +106,7 @@ def remove(f):
 
 setup_int_index = """
 import numpy as np
-df.index = np.arange(50000)
+df.index = np.arange(N)
 """
 
 setup = common_setup + """
diff --git a/vb_suite/panel_ctor.py b/vb_suite/panel_ctor.py
@@ -11,7 +11,8 @@
 
 setup_same_index = common_setup + """
 # create 100 dataframes with the same index
-dr = np.asarray(DatetimeIndex(datetime(1990,1,1), datetime(2012,1,1)))
+dr = np.asarray(DatetimeIndex(start=datetime(1990,1,1), end=datetime(2012,1,1),
+                              freq=datetools.Day(1)))
 data_frames = {}
 for x in xrange(100):
    df = DataFrame({"a": [0]*len(dr), "b": [1]*len(dr),
@@ -27,7 +28,8 @@
 setup_equiv_indexes = common_setup + """
 data_frames = {}
 for x in xrange(100):
-   dr = np.asarray(DatetimeIndex(datetime(1990,1,1), datetime(2012,1,1)))
+   dr = np.asarray(DatetimeIndex(start=datetime(1990,1,1), end=datetime(2012,1,1),
+                                 freq=datetools.Day(1)))
    df = DataFrame({"a": [0]*len(dr), "b": [1]*len(dr),
                    "c": [2]*len(dr)}, index=dr)
    data_frames[x] = df
@@ -44,7 +46,7 @@
 end = datetime(2012,1,1)
 for x in xrange(100):
    end += timedelta(days=1)
-   dr = np.asarray(DateRange(start, end))
+   dr = np.asarray(date_range(start, end))
    df = DataFrame({"a": [0]*len(dr), "b": [1]*len(dr),
                    "c": [2]*len(dr)}, index=dr)
    data_frames[x] = df
@@ -62,7 +64,7 @@
 for x in xrange(100):
    if x == 50:
        end += timedelta(days=1)
-   dr = np.asarray(DateRange(start, end))
+   dr = np.asarray(date_range(start, end))
    df = DataFrame({"a": [0]*len(dr), "b": [1]*len(dr),
                    "c": [2]*len(dr)}, index=dr)
    data_frames[x] = df
diff --git a/vb_suite/panel_methods.py b/vb_suite/panel_methods.py
@@ -15,7 +15,7 @@
 panel_shift = Benchmark('panel.shift(1)', setup,
                                start_date=datetime(2012, 1, 12))
 
-panel_shift_minor = Benchmark('panel.shift(1, axis=minor)', setup,
+panel_shift_minor = Benchmark('panel.shift(1, axis="minor")', setup,
                                start_date=datetime(2012, 1, 12))
 
 panel_pct_change_major = Benchmark('panel.pct_change(1, axis="major")', setup,
diff --git a/vb_suite/reindex.py b/vb_suite/reindex.py
@@ -18,7 +18,7 @@
 #----------------------------------------------------------------------
 
 setup = common_setup + """
-rng = DatetimeIndex('1/1/1970', periods=10000, offset=datetools.Minute())
+rng = DatetimeIndex(start='1/1/1970', periods=10000, freq=datetools.Minute())
 df = DataFrame(np.random.rand(10000, 10), index=rng,
                columns=range(10))
 df['foo'] = 'bar'
@@ -51,7 +51,7 @@
 # Pad / backfill
 
 setup = common_setup + """
-rng = DateRange('1/1/2000', periods=100000, offset=datetools.Minute())
+rng = date_range('1/1/2000', periods=100000, freq=datetools.Minute())
 
 ts = Series(np.random.randn(len(rng)), index=rng)
 ts2 = ts[::2]
diff --git a/vb_suite/stat_ops.py b/vb_suite/stat_ops.py
@@ -87,7 +87,7 @@
 
 stats_rank_pct_average = Benchmark('s.rank(pct=True)', setup,
                                    start_date=datetime(2014, 01, 16))
-stats_rank_pct_average_old = Benchmark('s.rank() / s.size()', setup,
+stats_rank_pct_average_old = Benchmark('s.rank() / len(s)', setup,
                                        start_date=datetime(2014, 01, 16))
 setup = common_setup + """
 values = np.random.randint(0, 100000, size=200000)
diff --git a/vb_suite/strings.py b/vb_suite/strings.py
@@ -46,13 +46,13 @@ def make_series(letters, strlen, size):
 strings_get = Benchmark("many.str.get(0)", setup)
 
 setup = setup + """
-make_series(string.uppercase, strlen=10, size=10000).str.join('|')
+s = make_series(string.uppercase, strlen=10, size=10000).str.join('|')
 """
 strings_get_dummies = Benchmark("s.str.get_dummies('|')", setup)
 
 setup = common_setup + """
 import pandas.util.testing as testing
-ser = pd.Series(testing.makeUnicodeIndex())
+ser = Series(testing.makeUnicodeIndex())
 """
 
 strings_encode_decode = Benchmark("ser.str.encode('utf-8').str.decode('utf-8')", setup)