Make canonical analysis faster by minimising extending pandas objects.

James Spencer · James Spencer · commit 2db8b6d5e876 · 2017-02-26T22:56:13.000Z
diff --git a/tools/dmqmc/analyse_canonical.py b/tools/dmqmc/analyse_canonical.py
@@ -72,10 +72,10 @@ def main(args):
                 warnings.warn('Beta values in input files not consistent.')
 
     if args.multi_sim:
-        results = pd.concat([pyhande.canonical.estimates(m, d) for (m, d)
-                             in zip(metadata, data)])
+        results = pd.DataFrame([pyhande.canonical.estimates(m, d) for (m, d)
+                                in zip(metadata, data)])
     else:
-        results = pyhande.canonical.estimates(metadata[0], data)
+        results = pd.DataFrame(pyhande.canonical.estimates(metadata[0], data)).T
 
     try:
         float_fmt = '{0:-#.8e}'.format
diff --git a/tools/pyhande/pyhande/canonical.py b/tools/pyhande/pyhande/canonical.py
@@ -21,7 +21,7 @@ def analyse_hf_observables(means, covariances, nsamples):
 
 Returns
 -------
-results : :class:`pandas.DataFrame`
+results : :class:`pandas.Series`
     Averaged Hartree-Fock estimates along with error estimates.
 '''
 
@@ -31,24 +31,24 @@ def analyse_hf_observables(means, covariances, nsamples):
         ('U_HF', r'Tr(H\rho_HF)'),
     ])
 
-    num = pd.DataFrame()
-    trace = pd.DataFrame()
-    results = pd.DataFrame()
-    trace['mean'] = [means[r'Tr(\rho_HF)']]
-    trace['standard error'] = (
-            [np.sqrt(covariances[r'Tr(\rho_HF)'][r'Tr(\rho_HF)']/nsamples)])
+    num = pd.Series({'mean': 0.0, 'standard error': 0.0})
+    trace = pd.Series({
+        'mean': means[r'Tr(\rho_HF)'],
+        'standard error': np.sqrt(covariances[r'Tr(\rho_HF)'][r'Tr(\rho_HF)']/nsamples)
+    })
+    results = {}
 
     for (k, v) in observables.items():
-        num['mean'] = [means[v]]
-        num['standard error'] = [np.sqrt(covariances[v][v]/nsamples)]
+        num['mean'] = means[v]
+        num['standard error'] = np.sqrt(covariances[v][v]/nsamples)
         cov_ab = covariances[v][r'Tr(\rho_HF)']
 
         stats = pyblock.error.ratio(num, trace, cov_ab, nsamples)
 
         results[k] = stats['mean']
         results[k+'_error'] = stats['standard error']
 
-    return results
+    return pd.Series(results)
 
 
 def estimates(metadata, data):
@@ -64,7 +64,7 @@ def estimates(metadata, data):
 
 Returns
 -------
-results : :class:`pandas.DataFrame`
+results : :class:`pandas.Series`
     Averaged estimates.
 '''
 
@@ -95,31 +95,35 @@ def estimates(metadata, data):
     xm = data.sub(means, axis=1)
     covariances = 1.0/(1.0-w2) * xm.mul(w, axis=0).T.dot(xm)
 
-    results = pd.DataFrame()
     if 'beta' in metadata:
         # New, richer JSON-based metadata.
-        results['Beta'] = [metadata['beta']]
+        beta = metadata['beta']
     else:
         # Hope to find it in the input file...
-        results['Beta'] = pyhande.legacy.extract_input(metadata, 'beta')
-    # Free estimates contain no denominator so the error is
-    # just the standard error.
-    results['U_0'] = [means['U_0']]
-    results['U_0_error'] = [np.sqrt(covariances['U_0']['U_0']/ncycles)]
-    results['T_0'] = [means['<T>_0']]
-    results['T_0_error'] = [np.sqrt(covariances['<T>_0']['<T>_0']/ncycles)]
-    results['V_0'] = [means['<V>_0']]
-    results['V_0_error'] = [np.sqrt(covariances['<V>_0']['<V>_0']/ncycles)]
+        beta = pyhande.legacy.extract_input(metadata, 'beta')
+    results = {
+        'Beta': beta,
+        # Free estimates contain no denominator so the error is
+        # just the standard error.
+        'U_0': means['U_0'],
+        'U_0_error': np.sqrt(covariances['U_0']['U_0']/ncycles),
+        'T_0': means['<T>_0'],
+        'T_0_error': np.sqrt(covariances['<T>_0']['<T>_0']/ncycles),
+        'V_0': means['<V>_0'],
+        'V_0_error': np.sqrt(covariances['<V>_0']['<V>_0']/ncycles),
+    }
     if 'N_ACC/N_ATT' in data.columns:
-        results['N_ACC/N_ATT'] = [means['N_ACC/N_ATT']]
-        results['N_ACC/N_ATT_error'] = (
-                [np.sqrt(covariances['N_ACC/N_ATT']['N_ACC/N_ATT']/ncycles)]
-        )
         if metadata['fermi_temperature']:
-            beta = results['Beta'][0] / metadata['system']['ueg']['E_fermi']
+            beta = results['Beta'] / metadata['system']['ueg']['E_fermi']
         else:
-            beta = results['Beta'][0]
-        correction = [metadata['free_energy_corr']]
+            beta = results['Beta']
+        correction = metadata['free_energy_corr']
+        results.update({
+            'N_ACC/N_ATT': means['N_ACC/N_ATT'],
+            'N_ACC/N_ATT_error': (
+                np.sqrt(covariances['N_ACC/N_ATT']['N_ACC/N_ATT']/ncycles)
+            ),
+        })
         results['F_0'] = (
                 (-1.0/beta)*np.log(results['N_ACC/N_ATT']) + correction
         )
@@ -135,11 +139,10 @@ def estimates(metadata, data):
                                 results['F_0_error']**2.0 -
                                 2.0*covariances['N_ACC/N_ATT']['<T>_0'] /
                                 (ncycles*results['N_ACC/N_ATT']*beta)))
+    results = pd.Series(results)
 
     # Take care of the correlation between numerator and denominator
     # in Hartree-Fock estimates.
-    results = (
-            results.join(analyse_hf_observables(means, covariances, ncycles))
-    )
+    results = results.append(analyse_hf_observables(means, covariances, ncycles))
 
     return results