Fixes for vb_suite

qwhelan · qwhelan · commit 703f418b9b07 · 2015-07-26T19:30:12.000-07:00
diff --git a/vb_suite/binary_ops.py b/vb_suite/binary_ops.py
@@ -88,7 +88,7 @@
     Benchmark("df // 0", setup, name='frame_float_floor_by_zero')
 
 setup = common_setup + """
-df  = DataFrame(np.random.random_integers((1000, 1000)))
+df  = DataFrame(np.random.random_integers(np.iinfo(np.int16).min, np.iinfo(np.int16).max, size=(1000, 1000)))
 """
 frame_int_div_by_zero = \
     Benchmark("df / 0", setup, name='frame_int_div_by_zero')
@@ -111,8 +111,8 @@
     Benchmark("df / df2", setup, name='frame_float_mod')
 
 setup = common_setup + """
-df  = DataFrame(np.random.random_integers((1000, 1000)))
-df2 = DataFrame(np.random.random_integers((1000, 1000)))
+df  = DataFrame(np.random.random_integers(np.iinfo(np.int16).min, np.iinfo(np.int16).max, size=(1000, 1000)))
+df2 = DataFrame(np.random.random_integers(np.iinfo(np.int16).min, np.iinfo(np.int16).max, size=(1000, 1000)))
 """
 frame_int_mod = \
     Benchmark("df / df2", setup, name='frame_int_mod')
diff --git a/vb_suite/frame_ctor.py b/vb_suite/frame_ctor.py
@@ -50,9 +50,30 @@
 # offset times 1000 can easily go out of Timestamp bounds and raise errors.
 dynamic_benchmarks = {}
 n_steps = [1, 2]
+offset_kwargs = {'WeekOfMonth': {'weekday': 1, 'week': 1},
+                 'LastWeekOfMonth': {'weekday': 1, 'week': 1},
+                 'FY5253': {'startingMonth': 1, 'weekday': 1},
+                 'FY5253Quarter': {'qtr_with_extra_week': 1, 'startingMonth': 1, 'weekday': 1}}
+
+offset_extra_cases = {'FY5253': {'variation': ['nearest', 'last']},
+                      'FY5253Quarter': {'variation': ['nearest', 'last']}}
+
 for offset in offsets.__all__:
     for n in n_steps:
-        setup = common_setup + """
+        kwargs = {}
+        if offset in offset_kwargs:
+            kwargs = offset_kwargs[offset]
+
+        if offset in offset_extra_cases:
+            extras = offset_extra_cases[offset]
+        else:
+            extras = {'': ['']}
+
+        for extra_arg in extras:
+            for extra in extras[extra_arg]:
+                if extra:
+                    kwargs[extra_arg] = extra
+                setup = common_setup + """
 
 def get_period_count(start_date, off):
     ten_offsets_in_days = ((start_date + off * 10) - start_date).days
@@ -69,12 +90,14 @@ def get_index_for_offset(off):
                       periods=min(1000, get_period_count(start_date, off)),
                       freq=off)
 
-idx = get_index_for_offset({}({}))
+idx = get_index_for_offset({}({}, **{}))
 df = DataFrame(np.random.randn(len(idx),10), index=idx)
 d = dict([ (col,df[col]) for col in df.columns ])
-""".format(offset, n)
-        key = 'frame_ctor_dtindex_{}x{}'.format(offset, n)
-        dynamic_benchmarks[key] = Benchmark("DataFrame(d)", setup, name=key)
+""".format(offset, n, kwargs)
+                key = 'frame_ctor_dtindex_{}x{}'.format(offset, n)
+                if extra:
+                    key += '__{}_{}'.format(extra_arg, extra)
+                dynamic_benchmarks[key] = Benchmark("DataFrame(d)", setup, name=key)
 
 # Have to stuff them in globals() so vbench detects them
 globals().update(dynamic_benchmarks)
diff --git a/vb_suite/frame_methods.py b/vb_suite/frame_methods.py
@@ -418,8 +418,8 @@ def f(K=100):
 #----------------------------------------------------------------------
 # equals
 setup = common_setup + """
-def make_pair(name):
-    df = globals()[name]
+def make_pair(frame):
+    df = frame
     df2 = df.copy()
     df2.ix[-1,-1] = np.nan
     return df, df2
@@ -437,8 +437,8 @@ def test_unequal(name):
 nonunique_cols = object_df.copy()
 nonunique_cols.columns = ['A']*len(nonunique_cols.columns)
 
-pairs = dict([(name,make_pair(name))
-         for name in ('float_df', 'object_df', 'nonunique_cols')])
+pairs = dict([(name, make_pair(frame))
+         for name, frame in (('float_df', float_df), ('object_df', object_df), ('nonunique_cols', nonunique_cols))])
 """
 frame_float_equal = Benchmark('test_equal("float_df")', setup)
 frame_object_equal = Benchmark('test_equal("object_df")', setup)
diff --git a/vb_suite/gil.py b/vb_suite/gil.py
@@ -94,5 +94,5 @@ def take_1d_pg2_float64():
 
 """
 
-nogil_take1d_float64 = Benchmark('take_1d_pg2()_int64', setup, start_date=datetime(2015, 1, 1))
-nogil_take1d_int64 = Benchmark('take_1d_pg2()_float64', setup, start_date=datetime(2015, 1, 1))
+nogil_take1d_float64 = Benchmark('take_1d_pg2_int64()', setup, start_date=datetime(2015, 1, 1))
+nogil_take1d_int64 = Benchmark('take_1d_pg2_float64()', setup, start_date=datetime(2015, 1, 1))
diff --git a/vb_suite/groupby.py b/vb_suite/groupby.py
@@ -212,7 +212,7 @@ def f():
 'value3' : np.random.randn(100000)})
 """
 
-stmt = "df.pivot_table(rows='key1', cols=['key2', 'key3'])"
+stmt = "df.pivot_table(index='key1', columns=['key2', 'key3'])"
 groupby_pivot_table = Benchmark(stmt, setup, start_date=datetime(2011, 12, 15))
 
 
@@ -243,13 +243,13 @@ def f():
 """
 
 groupby_first_float64 = Benchmark('data.groupby(labels).first()', setup,
-                          start_date=datetime(2012, 5, 1))
+                                  start_date=datetime(2012, 5, 1))
 
 groupby_first_float32 = Benchmark('data2.groupby(labels).first()', setup,
                                   start_date=datetime(2013, 1, 1))
 
 groupby_last_float64 = Benchmark('data.groupby(labels).last()', setup,
-                         start_date=datetime(2012, 5, 1))
+                                 start_date=datetime(2012, 5, 1))
 
 groupby_last_float32 = Benchmark('data2.groupby(labels).last()', setup,
                                  start_date=datetime(2013, 1, 1))
@@ -259,7 +259,7 @@ def f():
 groupby_nth_float32_none = Benchmark('data2.groupby(labels).nth(0)', setup,
                                      start_date=datetime(2013, 1, 1))
 groupby_nth_float64_any = Benchmark('data.groupby(labels).nth(0,dropna="all")', setup,
-                                     start_date=datetime(2012, 5, 1))
+                                    start_date=datetime(2012, 5, 1))
 groupby_nth_float32_any = Benchmark('data2.groupby(labels).nth(0,dropna="all")', setup,
                                     start_date=datetime(2013, 1, 1))
 
@@ -269,9 +269,9 @@ def f():
 """
 
 groupby_first_datetimes = Benchmark('df.groupby("b").first()', setup,
-                                 start_date=datetime(2013, 5, 1))
+                                    start_date=datetime(2013, 5, 1))
 groupby_last_datetimes = Benchmark('df.groupby("b").last()', setup,
-                                 start_date=datetime(2013, 5, 1))
+                                   start_date=datetime(2013, 5, 1))
 groupby_nth_datetimes_none = Benchmark('df.groupby("b").nth(0)', setup,
                                        start_date=datetime(2013, 5, 1))
 groupby_nth_datetimes_any = Benchmark('df.groupby("b").nth(0,dropna="all")', setup,
diff --git a/vb_suite/io_bench.py b/vb_suite/io_bench.py
@@ -2,6 +2,7 @@
 from datetime import datetime
 
 common_setup = """from pandas_vb_common import *
+from StringIO import StringIO
 """
 
 #----------------------------------------------------------------------
diff --git a/vb_suite/join_merge.py b/vb_suite/join_merge.py
@@ -31,15 +31,15 @@
 except:
     pass
 
-df = DataFrame({'data1' : np.random.randn(100000),
+df = pd.DataFrame({'data1' : np.random.randn(100000),
                 'data2' : np.random.randn(100000),
                 'key1' : key1,
                 'key2' : key2})
 
 
-df_key1 = DataFrame(np.random.randn(len(level1), 4), index=level1,
+df_key1 = pd.DataFrame(np.random.randn(len(level1), 4), index=level1,
                     columns=['A', 'B', 'C', 'D'])
-df_key2 = DataFrame(np.random.randn(len(level2), 4), index=level2,
+df_key2 = pd.DataFrame(np.random.randn(len(level2), 4), index=level2,
                     columns=['A', 'B', 'C', 'D'])
 
 df_shuf = df.reindex(df.index[shuf])
@@ -69,10 +69,10 @@
 #----------------------------------------------------------------------
 # Joins on integer keys
 setup = common_setup + """
-df = DataFrame({'key1': np.tile(np.arange(500).repeat(10), 2),
+df = pd.DataFrame({'key1': np.tile(np.arange(500).repeat(10), 2),
                 'key2': np.tile(np.arange(250).repeat(10), 4),
                 'value': np.random.randn(10000)})
-df2 = DataFrame({'key1': np.arange(500), 'value2': randn(500)})
+df2 = pd.DataFrame({'key1': np.arange(500), 'value2': randn(500)})
 df3 = df[:5000]
 """
 
@@ -96,9 +96,9 @@
 key = np.tile(indices[:8000], 10)
 key2 = np.tile(indices2[:8000], 10)
 
-left = DataFrame({'key' : key, 'key2':key2,
+left = pd.DataFrame({'key' : key, 'key2':key2,
                   'value' : np.random.randn(80000)})
-right = DataFrame({'key': indices[2000:], 'key2':indices2[2000:],
+right = pd.DataFrame({'key': indices[2000:], 'key2':indices2[2000:],
                    'value2' : np.random.randn(8000)})
 """
 
@@ -112,7 +112,7 @@
 # Appending DataFrames
 
 setup = common_setup + """
-df1 = DataFrame(np.random.randn(10000, 4), columns=['A', 'B', 'C', 'D'])
+df1 = pd.DataFrame(np.random.randn(10000, 4), columns=['A', 'B', 'C', 'D'])
 df2 = df1.copy()
 df2.index = np.arange(10000, 20000)
 mdf1 = df1.copy()
@@ -180,7 +180,7 @@ def sample(values, k):
                                 start_date=datetime(2012, 2, 27))
 
 setup = common_setup + """
-df = DataFrame(randn(5, 4))
+df = pd.DataFrame(randn(5, 4))
 """
 
 concat_small_frames = Benchmark('concat([df] * 1000)', setup,
@@ -191,8 +191,8 @@ def sample(values, k):
 # Concat empty
 
 setup = common_setup + """
-df = DataFrame(dict(A = range(10000)),index=date_range('20130101',periods=10000,freq='s'))
-empty = DataFrame()
+df = pd.DataFrame(dict(A = range(10000)),index=date_range('20130101',periods=10000,freq='s'))
+empty = pd.DataFrame()
 """
 
 concat_empty_frames1 = Benchmark('concat([df,empty])', setup,
@@ -207,11 +207,11 @@ def sample(values, k):
 setup = common_setup + """
 groups = tm.makeStringIndex(10).values
 
-left = DataFrame({'group': groups.repeat(5000),
+left = pd.DataFrame({'group': groups.repeat(5000),
                   'key' : np.tile(np.arange(0, 10000, 2), 10),
                   'lvalue': np.random.randn(50000)})
 
-right = DataFrame({'key' : np.arange(10000),
+right = pd.DataFrame({'key' : np.arange(10000),
                    'rvalue' : np.random.randn(10000)})
 
 """
@@ -242,10 +242,10 @@ def sample(values, k):
 np.random.seed(2718281)
 n = 50000
 
-left = DataFrame(np.random.randint(1, n/500, (n, 2)),
+left = pd.DataFrame(np.random.randint(1, n/500, (n, 2)),
         columns=['jim', 'joe'])
 
-right = DataFrame(np.random.randint(1, n/500, (n, 2)),
+right = pd.DataFrame(np.random.randint(1, n/500, (n, 2)),
         columns=['jolie', 'jolia']).set_index('jolie')
 '''
 
@@ -255,7 +255,7 @@ def sample(values, k):
 
 setup = common_setup + """
 low, high, n = -1 << 10, 1 << 10, 1 << 20
-left = DataFrame(np.random.randint(low, high, (n, 7)),
+left = pd.DataFrame(np.random.randint(low, high, (n, 7)),
                     columns=list('ABCDEFG'))
 left['left'] = left.sum(axis=1)
 
diff --git a/vb_suite/packers.py b/vb_suite/packers.py
@@ -92,7 +92,7 @@ def remove(f):
 # hdf table
 
 setup = common_setup + """
-df2.to_hdf(f,'df',table=True)
+df2.to_hdf(f,'df',format='table')
 """
 
 packers_read_hdf_table = Benchmark("pd.read_hdf(f,'df')", setup, start_date=start_date)
diff --git a/vb_suite/pandas_vb_common.py b/vb_suite/pandas_vb_common.py
@@ -1,4 +1,5 @@
 from pandas import *
+import pandas as pd
 from datetime import timedelta
 from numpy.random import randn
 from numpy.random import randint
@@ -7,6 +8,7 @@
 import random
 import numpy as np
 
+np.random.seed(1234)
 try:
     import pandas._tseries as lib
 except:
diff --git a/vb_suite/reindex.py b/vb_suite/reindex.py
@@ -49,6 +49,18 @@
 #----------------------------------------------------------------------
 # Pad / backfill
 
+def pad(source_series, target_index):
+    try:
+        source_series.reindex(target_index, method='pad')
+    except:
+        source_series.reindex(target_index, fillMethod='pad')
+
+def backfill(source_series, target_index):
+    try:
+        source_series.reindex(target_index, method='backfill')
+    except:
+        source_series.reindex(target_index, fillMethod='backfill')
+
 setup = common_setup + """
 rng = date_range('1/1/2000', periods=100000, freq=datetools.Minute())
 
@@ -57,23 +69,23 @@
 ts3 = ts2.reindex(ts.index)
 ts4 = ts3.astype('float32')
 
-def pad():
+def pad(source_series, target_index):
     try:
-        ts2.reindex(ts.index, method='pad')
+        source_series.reindex(target_index, method='pad')
     except:
-        ts2.reindex(ts.index, fillMethod='pad')
-def backfill():
+        source_series.reindex(target_index, fillMethod='pad')
+def backfill(source_series, target_index):
     try:
-        ts2.reindex(ts.index, method='backfill')
+        source_series.reindex(target_index, method='backfill')
     except:
-        ts2.reindex(ts.index, fillMethod='backfill')
+        source_series.reindex(target_index, fillMethod='backfill')
 """
 
-statement = "pad()"
+statement = "pad(ts2, ts.index)"
 reindex_daterange_pad = Benchmark(statement, setup,
                                   name="reindex_daterange_pad")
 
-statement = "backfill()"
+statement = "backfill(ts2, ts.index)"
 reindex_daterange_backfill = Benchmark(statement, setup,
                                        name="reindex_daterange_backfill")
 
diff --git a/vb_suite/sparse.py b/vb_suite/sparse.py
@@ -40,7 +40,7 @@
 
 
 setup = common_setup + """
-s = pd.Series([nan] * 10000)
+s = pd.Series([np.nan] * 10000)
 s[0] = 3.0
 s[100] = -1.0
 s[999] = 12.1
@@ -59,7 +59,7 @@
 A = scipy.sparse.coo_matrix(([3.0, 1.0, 2.0], ([1, 0, 0], [0, 2, 3])), shape=(100, 100))
 """
 
-stmt = "ss = pandas.sparse.series.from_coo(A)"
+stmt = "ss = pandas.sparse.series.SparseSeries.from_coo(A)"
 
 sparse_series_from_coo = Benchmark(stmt, setup, name="sparse_series_from_coo",
                                start_date=datetime(2015, 1, 3))
diff --git a/vb_suite/timeseries.py b/vb_suite/timeseries.py