Merge pull request #113 from JohnnyC08/issue-109-smoothing-min-sample

janmotl · web-flow · commit f80764293361 · 2018-08-28T20:11:13.000+02:00
Issue 109 smoothing min sample
diff --git a/category_encoders/target_encoder.py b/category_encoders/target_encoder.py
@@ -80,7 +80,8 @@ def __init__(self, verbose=0, cols=None, drop_invariant=False, return_df=True, i
         self.verbose = verbose
         self.cols = cols
         self.min_samples_leaf = min_samples_leaf
-        self.smoothing = smoothing
+        # Make smoothing a float so that python 2 does not treat as integer division
+        self.smoothing = float(smoothing)
         self._dim = None
         self.mapping = None
         self.impute_missing = impute_missing
@@ -119,7 +120,9 @@ def fit(self, X, y, **kwargs):
             mapping=self.mapping,
             cols=self.cols,
             impute_missing=self.impute_missing,
-            handle_unknown=self.handle_unknown
+            handle_unknown=self.handle_unknown,
+            smoothing_in=self.smoothing,
+            min_samples_leaf=self.min_samples_leaf
         )
         self.mapping = categories
 
@@ -163,8 +166,6 @@ def transform(self, X, y=None):
             cols=self.cols,
             impute_missing=self.impute_missing,
             handle_unknown=self.handle_unknown, 
-            min_samples_leaf=self.min_samples_leaf,
-            smoothing_in=self.smoothing
         )
 
         if self.drop_invariant:
@@ -215,7 +216,6 @@ def target_encode(self, X_in, y, mapping=None, cols=None, impute_missing=True,
 
                 X[str(col) + '_tmp'] = np.nan
                 for val in tmp:
-                    tmp[val]['mean'] = tmp[val]['sum']/tmp[val]['count']
                     if tmp[val]['count'] == 1:
                         X.loc[X[col] == val, str(col) + '_tmp'] = self._mean
                     else:
diff --git a/category_encoders/tests/test_encoders.py b/category_encoders/tests/test_encoders.py
@@ -627,3 +627,42 @@ def test_target_encode_out(self):
         enc.fit(X, y)
         self.verify_numeric(enc.transform(X_t))
         self.verify_numeric(enc.transform(X_t, y_t))
+
+    def test_fit_HaveConstructorSetSmoothingAndMinSamplesLeaf_ExpectUsedInFit(self):
+        """
+
+        :return:
+        """
+        k = 2
+        f = 10
+        binary_cat_example = pd.DataFrame(
+            {'Trend': ['UP', 'UP', 'DOWN', 'FLAT', 'DOWN', 'UP', 'DOWN', 'FLAT', 'FLAT', 'FLAT'],
+             'target': [1, 1, 0, 0, 1, 0, 0, 0, 1, 1]})
+        encoder = encoders.TargetEncoder(cols=['Trend'], min_samples_leaf=k, smoothing=f)
+
+        encoder.fit(binary_cat_example, binary_cat_example['target'])
+        trend_mapping = encoder.mapping[0]['mapping']
+
+        self.assertAlmostEquals(0.4125, trend_mapping['DOWN']['smoothing'], delta=1e-4)
+        self.assertEqual(0.5, trend_mapping['FLAT']['smoothing'])
+        self.assertAlmostEquals(0.5874, trend_mapping['UP']['smoothing'], delta=1e-4)
+
+    def test_fit_transform_HaveConstructorSetSmoothingAndMinSamplesLeaf_ExpectCorrectValueInResult(self):
+        """
+
+        :return:
+        """
+        k = 2
+        f = 10
+        binary_cat_example = pd.DataFrame(
+            {'Trend': ['UP', 'UP', 'DOWN', 'FLAT', 'DOWN', 'UP', 'DOWN', 'FLAT', 'FLAT', 'FLAT'],
+             'target': [1, 1, 0, 0, 1, 0, 0, 0, 1, 1]})
+        encoder = encoders.TargetEncoder(cols=['Trend'], min_samples_leaf=k, smoothing=f)
+
+        result = encoder.fit_transform(binary_cat_example, binary_cat_example['target'])
+        values = result['Trend'].values
+
+        self.assertAlmostEquals(0.5874, values[0], delta=1e-4)
+        self.assertAlmostEquals(0.5874, values[1], delta=1e-4)
+        self.assertAlmostEquals(0.4125, values[2], delta=1e-4)
+        self.assertEqual(0.5, values[3])