pandas-dev · jreback · Oct 18, 2018 · Oct 3, 2018 · Sep 27, 2018 · Sep 30, 2018
diff --git a/pandas/_libs/hashtable_class_helper.pxi.in b/pandas/_libs/hashtable_class_helper.pxi.in
@@ -355,19 +355,15 @@ cdef class {{name}}HashTable(HashTable):
 
         return np.asarray(locs)
 
-    def factorize(self, {{dtype}}_t values):
-        uniques = {{name}}Vector()
-        labels = self.get_labels(values, uniques, 0, 0)
-        return uniques.to_array(), labels
-
     @cython.boundscheck(False)
-    def get_labels(self, const {{dtype}}_t[:] values, {{name}}Vector uniques,
-                   Py_ssize_t count_prior, Py_ssize_t na_sentinel,
-                   object na_value=None):
+    @cython.wraparound(False)
+    def _unique_with_inverse(self, const {{dtype}}_t[:] values,
+                             {{name}}Vector uniques, bint ignore_na=False,
+                             Py_ssize_t count_prior=0,
+                             Py_ssize_t na_sentinel=-1, object na_value=None):
         cdef:
-            Py_ssize_t i, n = len(values)
+            Py_ssize_t i, idx, count = count_prior, n = len(values)
             int64_t[:] labels
-            Py_ssize_t idx, count = count_prior
             int ret = 0
             {{dtype}}_t val, na_value2
             khiter_t k
@@ -392,16 +388,19 @@ cdef class {{name}}HashTable(HashTable):
             for i in range(n):
                 val = values[i]
 
-                if val != val or (use_na_value and val == na_value2):
+                if ignore_na and (val != val
+                                  or (use_na_value and val == na_value2)):
                     labels[i] = na_sentinel
                     continue
 
                 k = kh_get_{{dtype}}(self.table, val)
 
                 if k != self.table.n_buckets:
+                    # k falls into a previous bucket
                     idx = self.table.vals[k]
                     labels[i] = idx
                 else:
+                    # k hasn't been seen yet
                     k = kh_put_{{dtype}}(self.table, val, &ret)
                     self.table.vals[k] = count
 
@@ -416,7 +415,26 @@ cdef class {{name}}HashTable(HashTable):
                     labels[i] = count
                     count += 1
 
-        return np.asarray(labels)
+        return uniques.to_array(), np.asarray(labels)
+
+    def unique(self, const {{dtype}}_t[:] values, bint return_inverse=False):
+        if return_inverse:
+            return self._unique_with_inverse(values, uniques={{name}}Vector(),
+                                             ignore_na=False)
+        return self._unique_no_inverse(values)
+
+    def factorize(self, {{dtype}}_t[:] values):
+        return self._unique_with_inverse(values, uniques={{name}}Vector(),
+                                         ignore_na=True)
+
+    def get_labels(self, const {{dtype}}_t[:] values, {{name}}Vector uniques,
+                   Py_ssize_t count_prior=0, Py_ssize_t na_sentinel=-1,
+                   object na_value=None):
+        _, labels = self._unique_with_inverse(values, uniques, ignore_na=True,
+                                              count_prior=count_prior,
+                                              na_sentinel=na_sentinel,
+                                              na_value=na_value)
 labels = table.get_labels(values, uniques, 0, na_sentinel, 
 labels = table.get_labels(values, uniques, 0, na_sentinel, 
+        return labels
 
     @cython.boundscheck(False)
     def get_labels_groupby(self, const {{dtype}}_t[:] values):
@@ -464,7 +482,9 @@ cdef class {{name}}HashTable(HashTable):
         return np.asarray(labels), arr_uniques
 
     @cython.boundscheck(False)
-    def unique(self, const {{dtype}}_t[:] values):
+    @cython.wraparound(False)
+    def _unique_no_inverse(self, const {{dtype}}_t[:] values):
+        # define separate functions without inverse for performance
         cdef:
            Py_ssize_t i, n = len(values)
            int ret = 0
@@ -567,7 +587,9 @@ cdef class StringHashTable(HashTable):
         return labels
 
     @cython.boundscheck(False)
-    def unique(self, ndarray[object] values):
+    @cython.wraparound(False)
+    def _unique_no_inverse(self, ndarray[object] values):
+        # define separate functions without inverse for performance
         cdef:
             Py_ssize_t i, count, n = len(values)
             int64_t[:] uindexer
@@ -602,11 +624,6 @@ cdef class StringHashTable(HashTable):
             uniques.append(values[uindexer[i]])
         return uniques.to_array()
 
-    def factorize(self, ndarray[object] values):
-        uniques = ObjectVector()
-        labels = self.get_labels(values, uniques, 0, 0)
-        return uniques.to_array(), labels
-
     @cython.boundscheck(False)
     def lookup(self, ndarray[object] values):
         cdef:
@@ -669,34 +686,34 @@ cdef class StringHashTable(HashTable):
         free(vecs)
 
     @cython.boundscheck(False)
-    def get_labels(self, ndarray[object] values, ObjectVector uniques,
-                   Py_ssize_t count_prior, int64_t na_sentinel,
-                   object na_value=None):
+    @cython.wraparound(False)
+    def _unique_with_inverse(self, ndarray[object] values,
+                             ObjectVector uniques, bint ignore_na=False,
+                             Py_ssize_t count_prior=0,
+                             Py_ssize_t na_sentinel=-1, object na_value=None):
         cdef:
-            Py_ssize_t i, n = len(values)
+            Py_ssize_t i, idx, count = count_prior, n = len(values)
             int64_t[:] labels
             int64_t[:] uindexer
-            Py_ssize_t idx, count = count_prior
             int ret = 0
             object val
             const char *v
             const char **vecs
             khiter_t k
             bint use_na_value
 
-        # these by-definition *must* be strings
         labels = np.zeros(n, dtype=np.int64)
         uindexer = np.empty(n, dtype=np.int64)
         use_na_value = na_value is not None
 
-        # pre-filter out missing
-        # and assign pointers
+        # assign pointers and pre-filter out missing (if ignore_na)
         vecs = <const char **> malloc(n * sizeof(char *))
         for i in range(n):
             val = values[i]
 
-            if ((PyUnicode_Check(val) or PyString_Check(val)) and
-                    not (use_na_value and val == na_value)):
+            if not ignore_na or ((PyUnicode_Check(val) or PyString_Check(val))
+                                 and not (use_na_value and val == na_value)):
+                # if ignore_na is False, we also stringify NaN/None/etc.
                 v = util.get_c_string(val)
                 vecs[i] = v
             else:
@@ -705,15 +722,17 @@ cdef class StringHashTable(HashTable):
         # compute
         with nogil:
             for i in range(n):
-                if labels[i] == na_sentinel:
+                if ignore_na and labels[i] == na_sentinel:
                     continue
 
                 v = vecs[i]
                 k = kh_get_str(self.table, v)
                 if k != self.table.n_buckets:
+                    # k falls into a previous bucket
                     idx = self.table.vals[k]
                     labels[i] = <int64_t>idx
                 else:
+                    # k hasn't been seen yet
                     k = kh_put_str(self.table, v, &ret)
                     self.table.vals[k] = count
                     uindexer[count] = i
@@ -726,7 +745,26 @@ cdef class StringHashTable(HashTable):
         for i in range(count):
             uniques.append(values[uindexer[i]])
 
-        return np.asarray(labels)
+        return uniques.to_array(), np.asarray(labels)
+
+    def unique(self, ndarray[object] values, bint return_inverse=False):
+        if return_inverse:
+            return self._unique_with_inverse(values, uniques=ObjectVector(),
+                                             ignore_na=False)
+        return self._unique_no_inverse(values)
+
+    def factorize(self, ndarray[object] values):
+        return self._unique_with_inverse(values, uniques=ObjectVector(),
+                                         ignore_na=True)
+
+    def get_labels(self, ndarray[object] values, ObjectVector uniques,
+                   Py_ssize_t count_prior=0, Py_ssize_t na_sentinel=-1,
+                   object na_value=None):
+        _, labels = self._unique_with_inverse(values, uniques, ignore_na=True,
+                                              count_prior=count_prior,
+                                              na_sentinel=na_sentinel,
+                                              na_value=na_value)
+        return labels
 
 
 cdef class PyObjectHashTable(HashTable):
@@ -814,7 +852,10 @@ cdef class PyObjectHashTable(HashTable):
 
         return np.asarray(locs)
 
-    def unique(self, ndarray[object] values):
+    @cython.boundscheck(False)
+    @cython.wraparound(False)
+    def _unique_no_inverse(self, ndarray[object] values):
+        # define separate functions without inverse for performance
         cdef:
             Py_ssize_t i, n = len(values)
             int ret = 0
@@ -832,13 +873,15 @@ cdef class PyObjectHashTable(HashTable):
 
         return uniques.to_array()
 
-    def get_labels(self, ndarray[object] values, ObjectVector uniques,
-                   Py_ssize_t count_prior, int64_t na_sentinel,
-                   object na_value=None):
+    @cython.boundscheck(False)
+    @cython.wraparound(False)
+    def _unique_with_inverse(self, ndarray[object] values,
+                             ObjectVector uniques, bint ignore_na=False,
+                             Py_ssize_t count_prior=0,
+                             Py_ssize_t na_sentinel=-1, object na_value=None):
         cdef:
-            Py_ssize_t i, n = len(values)
+            Py_ssize_t i, idx, count = count_prior, n = len(values)
             int64_t[:] labels
-            Py_ssize_t idx, count = count_prior
             int ret = 0
             object val
             khiter_t k
@@ -851,20 +894,40 @@ cdef class PyObjectHashTable(HashTable):
             val = values[i]
             hash(val)
 
-            if ((val != val or val is None) or
-                    (use_na_value and val == na_value)):
+            if ignore_na and ((val != val or val is None)
+                              or (use_na_value and val == na_value)):
                 labels[i] = na_sentinel
                 continue
 
             k = kh_get_pymap(self.table, <PyObject*>val)
             if k != self.table.n_buckets:
+                # k falls into a previous bucket
                 idx = self.table.vals[k]
                 labels[i] = idx
             else:
+                # k hasn't been seen yet
                 k = kh_put_pymap(self.table, <PyObject*>val, &ret)
                 self.table.vals[k] = count
                 uniques.append(val)
                 labels[i] = count
                 count += 1
 
-        return np.asarray(labels)
+        return uniques.to_array(), np.asarray(labels)
+
+    def unique(self, ndarray[object] values, bint return_inverse=False):
+        if return_inverse:
+            return self._unique_with_inverse(values, uniques=ObjectVector(),
+                                             ignore_na=False)
+        return self._unique_no_inverse(values)
+
+    def factorize(self, ndarray[object] values):
+        return self._unique_with_inverse(values, uniques=ObjectVector(), ignore_na=True)
+
+    def get_labels(self, ndarray[object] values, ObjectVector uniques,
+                   Py_ssize_t count_prior=0, Py_ssize_t na_sentinel=-1,
+                   object na_value=None):
+        _, labels = self._unique_with_inverse(values, uniques, ignore_na=True,
+                                              count_prior=count_prior,
+                                              na_sentinel=na_sentinel,
+                                              na_value=na_value)
+        return labels