Fix melt for multi-index columns support. (#920)

rising-star92 · rising-star92 · commit eace01cf3506 · 2019-10-15T14:49:35.000+02:00
diff --git a/databricks/koalas/frame.py b/databricks/koalas/frame.py
@@ -6684,7 +6684,7 @@ def _reindex_columns(self, columns):
 
         return self._internal.copy(sdf=sdf, data_columns=columns, column_index=idx)
 
-    def melt(self, id_vars=None, value_vars=None, var_name='variable',
+    def melt(self, id_vars=None, value_vars=None, var_name=None,
              value_name='value'):
         """
         Unpivot a DataFrame from wide format to long format, optionally
@@ -6705,7 +6705,8 @@ def melt(self, id_vars=None, value_vars=None, var_name='variable',
             Column(s) to unpivot. If not specified, uses all columns that
             are not set as `id_vars`.
         var_name : scalar, default 'variable'
-            Name to use for the 'variable' column.
+            Name to use for the 'variable' column. If None it uses `frame.columns.name` or
+            ‘variable’.
         value_name : scalar, default 'value'
             Name to use for the 'value' column.
 
@@ -6718,7 +6719,8 @@ def melt(self, id_vars=None, value_vars=None, var_name='variable',
         --------
         >>> df = ks.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
         ...                    'B': {0: 1, 1: 3, 2: 5},
-        ...                    'C': {0: 2, 1: 4, 2: 6}})
+        ...                    'C': {0: 2, 1: 4, 2: 6}},
+        ...                   columns=['A', 'B', 'C'])
         >>> df
            A  B  C
         0  a  1  2
@@ -6769,29 +6771,55 @@ def melt(self, id_vars=None, value_vars=None, var_name='variable',
         """
         if id_vars is None:
             id_vars = []
-        if not isinstance(id_vars, (list, tuple, np.ndarray)):
-            id_vars = list(id_vars)
+        elif isinstance(id_vars, str):
+            id_vars = [(id_vars,)]
+        elif isinstance(id_vars, tuple):
+            if self._internal.column_index_level == 1:
+                id_vars = [idv if isinstance(idv, tuple) else (idv,) for idv in id_vars]
+            else:
+                raise ValueError('id_vars must be a list of tuples when columns are a MultiIndex')
+        else:
+            id_vars = [idv if isinstance(idv, tuple) else (idv,) for idv in id_vars]
 
-        data_columns = self._internal.data_columns
+        column_index = self._internal.column_index
 
         if value_vars is None:
             value_vars = []
-        if not isinstance(value_vars, (list, tuple, np.ndarray)):
-            value_vars = list(value_vars)
+        elif isinstance(value_vars, str):
+            value_vars = [(value_vars,)]
+        elif isinstance(value_vars, tuple):
+            value_vars = [value_vars]
+        else:
+            value_vars = [valv if isinstance(valv, tuple) else (valv,) for valv in value_vars]
         if len(value_vars) == 0:
-            value_vars = data_columns
+            value_vars = column_index
+
+        column_index = [idx for idx in column_index if idx not in id_vars]
 
-        data_columns = [data_column for data_column in data_columns if data_column not in id_vars]
         sdf = self._sdf
 
+        if var_name is None:
+            if self._internal.column_index_names is not None:
+                var_name = self._internal.column_index_names
+            elif self._internal.column_index_level == 1:
+                var_name = ['variable']
+            else:
+                var_name = ['variable_{}'.format(i)
+                            for i in range(self._internal.column_index_level)]
+        elif isinstance(var_name, str):
+            var_name = [var_name]
+
         pairs = F.explode(F.array(*[
             F.struct(*(
-                [F.lit(column).alias(var_name)] +
-                [self._internal.scol_for(column).alias(value_name)])
-            ) for column in data_columns if column in value_vars]))
-
-        columns = (id_vars +
-                   [F.col("pairs.%s" % var_name), F.col("pairs.%s" % value_name)])
+                [F.lit(c).alias(name) for c, name in zip(idx, var_name)] +
+                [self._internal.scol_for(idx).alias(value_name)])
+            ) for idx in column_index if idx in value_vars]))
+
+        columns = ([self._internal.scol_for(idx).alias(str(idx) if len(idx) > 1 else idx[0])
+                    for idx in id_vars] +
+                   [F.col("pairs.%s" % name)
+                    for name in var_name[:self._internal.column_index_level]] +
+                   [F.col("pairs.%s" % value_name)])
         exploded_df = sdf.withColumn("pairs", pairs).select(columns)
 
         return DataFrame(exploded_df)
diff --git a/databricks/koalas/namespace.py b/databricks/koalas/namespace.py
@@ -1544,7 +1544,7 @@ def concat(objs, axis=0, join='outer', ignore_index=False):
         return result_kdf
 
 
-def melt(frame, id_vars=None, value_vars=None, var_name='variable',
+def melt(frame, id_vars=None, value_vars=None, var_name=None,
          value_name='value'):
     return DataFrame.melt(frame, id_vars, value_vars, var_name, value_name)
 
diff --git a/databricks/koalas/tests/test_dataframe.py b/databricks/koalas/tests/test_dataframe.py
@@ -1755,6 +1755,67 @@ def test_reindex(self):
         self.assertRaises(TypeError, lambda: kdf.reindex(columns=['X']))
         self.assertRaises(ValueError, lambda: kdf.reindex(columns=[('X',)]))
 
+    def test_melt(self):
+        pdf = pd.DataFrame({'A': [1, 3, 5],
+                            'B': [2, 4, 6],
+                            'C': [7, 8, 9]})
+        kdf = ks.from_pandas(pdf)
+
+        self.assert_eq(kdf.melt().sort_values(['variable', 'value'])
+                       .reset_index(drop=True),
+                       pdf.melt().sort_values(['variable', 'value']))
+        self.assert_eq(kdf.melt(id_vars='A').sort_values(['variable', 'value'])
+                       .reset_index(drop=True),
+                       pdf.melt(id_vars='A').sort_values(['variable', 'value']))
+        self.assert_eq(kdf.melt(id_vars=['A', 'B']).sort_values(['variable', 'value'])
+                       .reset_index(drop=True),
+                       pdf.melt(id_vars=['A', 'B']).sort_values(['variable', 'value']))
+        self.assert_eq(kdf.melt(id_vars=('A', 'B')).sort_values(['variable', 'value'])
+                       .reset_index(drop=True),
+                       pdf.melt(id_vars=('A', 'B')).sort_values(['variable', 'value']))
+        self.assert_eq(kdf.melt(id_vars=['A'], value_vars=['C']).sort_values(['variable', 'value'])
+                       .reset_index(drop=True),
+                       pdf.melt(id_vars=['A'], value_vars=['C']).sort_values(['variable', 'value']))
+        self.assert_eq(kdf.melt(id_vars=['A'], value_vars=['B'],
+                                var_name='myVarname', value_name='myValname')
+                       .sort_values(['myVarname', 'myValname']).reset_index(drop=True),
+                       pdf.melt(id_vars=['A'], value_vars=['B'],
+                                var_name='myVarname', value_name='myValname')
+                       .sort_values(['myVarname', 'myValname']))
+
+        # multi-index columns
+        columns = pd.MultiIndex.from_tuples([('X', 'A'), ('X', 'B'), ('Y', 'C')])
+        pdf.columns = columns
+        kdf.columns = columns
+
+        self.assert_eq(kdf.melt().sort_values(['variable_0', 'variable_1', 'value'])
+                       .reset_index(drop=True),
+                       pdf.melt().sort_values(['variable_0', 'variable_1', 'value']))
+        self.assert_eq(kdf.melt(id_vars=[('X', 'A')])
+                       .sort_values(['variable_0', 'variable_1', 'value']).reset_index(drop=True),
+                       pdf.melt(id_vars=[('X', 'A')])
+                       .sort_values(['variable_0', 'variable_1', 'value']), almost=True)
+        self.assert_eq(kdf.melt(id_vars=[('X', 'A')], value_vars=[('Y', 'C')])
+                       .sort_values(['variable_0', 'variable_1', 'value']).reset_index(drop=True),
+                       pdf.melt(id_vars=[('X', 'A')], value_vars=[('Y', 'C')])
+                       .sort_values(['variable_0', 'variable_1', 'value']), almost=True)
+        self.assert_eq(kdf.melt(id_vars=[('X', 'A')], value_vars=[('X', 'B')],
+                                var_name=['myV1', 'myV2'], value_name='myValname')
+                       .sort_values(['myV1', 'myV2', 'myValname']).reset_index(drop=True),
+                       pdf.melt(id_vars=[('X', 'A')], value_vars=[('X', 'B')],
+                                var_name=['myV1', 'myV2'], value_name='myValname')
+                       .sort_values(['myV1', 'myV2', 'myValname']), almost=True)
+
+        columns.names = ['v0', 'v1']
+        pdf.columns = columns
+        kdf.columns = columns
+
+        self.assert_eq(kdf.melt().sort_values(['v0', 'v1', 'value'])
+                       .reset_index(drop=True),
+                       pdf.melt().sort_values(['v0', 'v1', 'value']))
+
+        self.assertRaises(ValueError, lambda: kdf.melt(id_vars=('X', 'A')))
+
     def test_all(self):
         pdf = pd.DataFrame({
             'col1': [False, False, False],