Add code examples in preprocessing and wrappers modules' docstrings (feature-engine#643)

datacubeR · datacubeR · solegalli · web-flow · commit 9d4db3ea974d · 2023-03-23T08:46:06.000+01:00
* Adding code examples for SkWrapper, MatchCategories, and MatchVariables

* Fixing details in the examples

* modify sparse parameter in ohe

---------

Co-authored-by: datacubeR &lt;datacuber@pop-os.localdomain&gt;
Co-authored-by: Soledad Galli &lt;solegalli@protonmail.com&gt;
diff --git a/feature_engine/preprocessing/match_categories.py b/feature_engine/preprocessing/match_categories.py
@@ -88,6 +88,27 @@ class MatchCategories(
 
     transform:
         Enforce the type of categorical variables as dtype `categorical`.
+
+    Examples
+    --------
+
+    >>> import pandas as pd
+    >>> from feature_engine.preprocessing import MatchCategories
+    >>> X_train = pd.DataFrame(dict(x1 = ["a","b","c"], x2 = [4,5,6]))
+    >>> X_test = pd.DataFrame(dict(x1 = ["c","b","a","d"], x2 = [5,6,4,7]))
+    >>> mc = MatchCategories(missing_values="ignore")
+    >>> mc.fit(X_train)
+    >>> mc.transform(X_train)
+      x1  x2
+    0  a   4
+    1  b   5
+    2  c   6
+    >>> mc.transform(X_test)
+        x1  x2
+    0    c   5
+    1    b   6
+    2    a   4
+    3  NaN   7
     """
 
     def __init__(
diff --git a/feature_engine/preprocessing/match_columns.py b/feature_engine/preprocessing/match_columns.py
@@ -100,6 +100,50 @@ class MatchVariables(BaseEstimator, TransformerMixin, GetFeatureNamesOutMixin):
 
     transform:
         Add or delete variables to match those observed in the train set.
+
+    Examples
+    --------
+
+    >>> import pandas as pd
+    >>> from feature_engine.preprocessing import MatchVariables
+    >>> X_train = pd.DataFrame(dict(x1 = ["a","b","c"], x2 = [4,5,6]))
+    >>> X_test = pd.DataFrame(dict(x1 = ["c","b","a","d"],
+    >>>                             x2 = [5,6,4,7],
+    >>>                             x3 = [1,1,1,1]))
+    >>> mv = MatchVariables(missing_values="ignore")
+    >>> mv.fit(X_train)
+    >>> mv.transform(X_train)
+    x1  x2
+    0  a   4
+    1  b   5
+    2  c   6
+    >>> mv.transform(X_test)
+    The following variables are dropped from the DataFrame: ['x3']
+      x1  x2
+    0  c   5
+    1  b   6
+    2  a   4
+    3  d   7
+
+    >>> import pandas as pd
+    >>> from feature_engine.preprocessing import MatchVariables
+    >>> X_train = pd.DataFrame(dict(x1 = ["a","b","c"],
+    >>>                             x2 = [4,5,6], x3 = [1,1,1]))
+    >>> X_test = pd.DataFrame(dict(x1 = ["c","b","a","d"], x2 = [5,6,4,7]))
+    >>> mv = MatchVariables(missing_values="ignore")
+    >>> mv.fit(X_train)
+    >>> mv.transform(X_train)
+      x1  x2  x3
+    0  a   4   1
+    1  b   5   1
+    2  c   6   1
+    >>> mv.transform(X_test)
+    The following variables are added to the DataFrame: ['x3']
+      x1  x2  x3
+    0  c   5 NaN
+    1  b   6 NaN
+    2  a   4 NaN
+    3  d   7 NaN
     """
 
     def __init__(
diff --git a/feature_engine/wrappers/wrappers.py b/feature_engine/wrappers/wrappers.py
@@ -144,6 +144,46 @@ class SklearnTransformerWrapper(BaseEstimator, TransformerMixin):
     See Also
     --------
     sklearn.compose.ColumnTransformer
+
+    Examples
+    --------
+
+    >>> import pandas as pd
+    >>> from feature_engine.wrappers import SklearnTransformerWrapper
+    >>> from sklearn.preprocessing import StandardScaler
+    >>> X = pd.DataFrame(dict(x1 = ["a","b","c"], x2 = [1,2,3], x3 = [4,5,6]))
+    >>> skw = SklearnTransformerWrapper(StandardScaler())
+    >>> skw.fit(X)
+    >>> skw.transform(X)
+      x1        x2        x3
+    0  a -1.224745 -1.224745
+    1  b  0.000000  0.000000
+    2  c  1.224745  1.224745
+
+    >>> import pandas as pd
+    >>> from feature_engine.wrappers import SklearnTransformerWrapper
+    >>> from sklearn.preprocessing import OneHotEncoder
+    >>> X = pd.DataFrame(dict(x1 = ["a","b","c"], x2 = [1,2,3], x3 = [4,5,6]))
+    >>> skw = SklearnTransformerWrapper(
+    >>>     OneHotEncoder(sparse_output = False), variables = "x1")
+    >>> skw.fit(X)
+    >>> skw.transform(X)
+       x2  x3  x1_a  x1_b  x1_c
+    0   1   4   1.0   0.0   0.0
+    1   2   5   0.0   1.0   0.0
+    2   3   6   0.0   0.0   1.0
+
+    >>> import pandas as pd
+    >>> from feature_engine.wrappers import SklearnTransformerWrapper
+    >>> from sklearn.preprocessing import PolynomialFeatures
+    >>> X = pd.DataFrame(dict(x1 = ["a","b","c"], x2 = [1,2,3], x3 = [4,5,6]))
+    >>> skw = SklearnTransformerWrapper(PolynomialFeatures(include_bias = False))
+    >>> skw.fit(X)
+    >>> skw.transform(X)
+      x1   x2   x3  x2^2  x2 x3  x3^2
+    0  a  1.0  4.0   1.0    4.0  16.0
+    1  b  2.0  5.0   4.0   10.0  25.0
+    2  c  3.0  6.0   9.0   18.0  36.0
     """
 
     def __init__(