pandas-dev · mroeschke · Apr 9, 2024 · Apr 5, 2024 · Apr 5, 2024 · Apr 5, 2024
diff --git a/doc/source/whatsnew/v3.0.0.rst b/doc/source/whatsnew/v3.0.0.rst
@@ -33,6 +33,7 @@ Other enhancements
 - :meth:`Styler.set_tooltips` provides alternative method to storing tooltips by using title attribute of td elements. (:issue:`56981`)
 - Allow dictionaries to be passed to :meth:`pandas.Series.str.replace` via ``pat`` parameter (:issue:`51748`)
 - Support passing a :class:`Series` input to :func:`json_normalize` that retains the :class:`Series` :class:`Index` (:issue:`51452`)
+- Support reading value labels from Stata 108-format (Stata 6) and earlier files (:issue:`58154`)
 - Users can globally disable any ``PerformanceWarning`` by setting the option ``mode.performance_warnings`` to ``False`` (:issue:`56920`)
 - :meth:`Styler.format_index_names` can now be used to format the index and column names (:issue:`48936` and :issue:`47489`)
 -

diff --git a/pandas/io/stata.py b/pandas/io/stata.py
@@ -1507,11 +1507,6 @@ def _read_value_labels(self) -> None:
         if self._value_labels_read:
             # Don't read twice
             return
-        if self._format_version <= 108:
-            # Value labels are not supported in version 108 and earlier.
-            self._value_labels_read = True
-            self._value_label_dict: dict[str, dict[float, str]] = {}
-            return
 
         if self._format_version >= 117:
             self._path_or_buf.seek(self._seek_value_labels)
@@ -1521,42 +1516,64 @@ def _read_value_labels(self) -> None:
             self._path_or_buf.seek(self._data_location + offset)
 
         self._value_labels_read = True
-        self._value_label_dict = {}
+        self._value_label_dict: dict[str, dict[int, str]] = {}
 
         while True:
             if self._format_version >= 117:
                 if self._path_or_buf.read(5) == b"</val":  # <lbl>
                     break  # end of value label table
 
-            slength = self._path_or_buf.read(4)
-            if not slength:
-                break  # end of value label table (format < 117)
-            if self._format_version <= 117:
-                labname = self._decode(self._path_or_buf.read(33))
+            if self._format_version >= 108:
+                slength = self._path_or_buf.read(4)
+                if not slength:
+                    break  # end of value label table (format < 117)
+                if self._format_version <= 108:
+                    labname = self._decode(self._path_or_buf.read(9))
+                elif self._format_version <= 117:
+                    labname = self._decode(self._path_or_buf.read(33))
+                else:
+                    labname = self._decode(self._path_or_buf.read(129))
+                self._path_or_buf.read(3)  # padding
+
+                n = self._read_uint32()
+                txtlen = self._read_uint32()
+                off = np.frombuffer(
+                    self._path_or_buf.read(4 * n), dtype=f"{self._byteorder}i4", count=n
+                )
+                val = np.frombuffer(
+                    self._path_or_buf.read(4 * n), dtype=f"{self._byteorder}i4", count=n
+                )
+                ii = np.argsort(off)
+                off = off[ii]
+                val = val[ii]
+                txt = self._path_or_buf.read(txtlen)
+                self._value_label_dict[labname] = {}
+                for i in range(n):
+                    end = off[i + 1] if i < n - 1 else txtlen
+                    self._value_label_dict[labname][val[i]] = self._decode(
+                        txt[off[i] : end]
+                    )
+                if self._format_version >= 117:
+                    self._path_or_buf.read(6)  # </lbl>
             else:
-                labname = self._decode(self._path_or_buf.read(129))
-            self._path_or_buf.read(3)  # padding
+                if not self._path_or_buf.read(2):
+                    # end-of-file may have been reached, if so stop here
+                    break
 
-            n = self._read_uint32()
-            txtlen = self._read_uint32()
-            off = np.frombuffer(
-                self._path_or_buf.read(4 * n), dtype=f"{self._byteorder}i4", count=n
-            )
-            val = np.frombuffer(
-                self._path_or_buf.read(4 * n), dtype=f"{self._byteorder}i4", count=n
-            )
-            ii = np.argsort(off)
-            off = off[ii]
-            val = val[ii]
-            txt = self._path_or_buf.read(txtlen)
-            self._value_label_dict[labname] = {}
-            for i in range(n):
-                end = off[i + 1] if i < n - 1 else txtlen
-                self._value_label_dict[labname][val[i]] = self._decode(
-                    txt[off[i] : end]
+                # otherwise back up and read again, taking byteorder into account
+                self._path_or_buf.seek(-2, os.SEEK_CUR)
+                n = self._read_uint16()
+                labname = self._decode(self._path_or_buf.read(9))
+                self._path_or_buf.read(1)  # padding
+                codes = np.frombuffer(
+                    self._path_or_buf.read(2 * n), dtype=f"{self._byteorder}i2", count=n
                 )
-            if self._format_version >= 117:
-                self._path_or_buf.read(6)  # </lbl>
+                self._value_label_dict[labname] = {}
+                for i in range(n):
+                    self._value_label_dict[labname][codes[i]] = self._decode(
+                        self._path_or_buf.read(8)
+                    )
+
         self._value_labels_read = True
 
     def _read_strls(self) -> None:
@@ -1729,7 +1746,7 @@ def read(
                         i, _stata_elapsed_date_to_datetime_vec(data.iloc[:, i], fmt)
                     )
 
-        if convert_categoricals and self._format_version > 108:
+        if convert_categoricals:
             data = self._do_convert_categoricals(
                 data, self._value_label_dict, self._lbllist, order_categoricals
             )

diff --git a/pandas/tests/io/data/stata/stata4_105.dta b/pandas/tests/io/data/stata/stata4_105.dta
diff --git a/pandas/tests/io/data/stata/stata4_108.dta b/pandas/tests/io/data/stata/stata4_108.dta
diff --git a/pandas/tests/io/data/stata/stata4_111.dta b/pandas/tests/io/data/stata/stata4_111.dta
diff --git a/pandas/tests/io/test_stata.py b/pandas/tests/io/test_stata.py
@@ -225,7 +225,7 @@ def test_read_dta3(self, file, datapath):
         tm.assert_frame_equal(parsed, expected)
 
     @pytest.mark.parametrize(
-        "file", ["stata4_113", "stata4_114", "stata4_115", "stata4_117"]
+        "file", ["stata4_111", "stata4_113", "stata4_114", "stata4_115", "stata4_117"]
     )
     def test_read_dta4(self, file, datapath):
         file = datapath("io", "data", "stata", f"{file}.dta")
@@ -270,6 +270,52 @@ def test_read_dta4(self, file, datapath):
         # stata doesn't save .category metadata
         tm.assert_frame_equal(parsed, expected)
 
+    @pytest.mark.parametrize("file", ["stata4_105", "stata4_108"])
+    def test_readold_dta4(self, file, datapath):
+        # This test is the same as test_read_dta4 above except that the columns
+        # had to be renamed to match the restrictions in older file format
+        file = datapath("io", "data", "stata", f"{file}.dta")
+        parsed = self.read_dta(file)
+
+        expected = DataFrame.from_records(
+            [
+                ["one", "ten", "one", "one", "one"],
+                ["two", "nine", "two", "two", "two"],
+                ["three", "eight", "three", "three", "three"],
+                ["four", "seven", 4, "four", "four"],
+                ["five", "six", 5, np.nan, "five"],
+                ["six", "five", 6, np.nan, "six"],
+                ["seven", "four", 7, np.nan, "seven"],
+                ["eight", "three", 8, np.nan, "eight"],
+                ["nine", "two", 9, np.nan, "nine"],
+                ["ten", "one", "ten", np.nan, "ten"],
+            ],
+            columns=[
+                "fulllab",
+                "fulllab2",
+                "incmplab",
+                "misslab",
+                "floatlab",
+            ],
+        )
+
+        # these are all categoricals
+        for col in expected:
+            orig = expected[col].copy()
+
+            categories = np.asarray(expected["fulllab"][orig.notna()])
+            if col == "incmplab":
+                categories = orig
+
+            cat = orig.astype("category")._values
+            cat = cat.set_categories(categories, ordered=True)
+            cat.categories.rename(None, inplace=True)
+
+            expected[col] = cat
+
+        # stata doesn't save .category metadata
+        tm.assert_frame_equal(parsed, expected)
+
     # File containing strls
     def test_read_dta12(self, datapath):
         parsed_117 = self.read_dta(datapath("io", "data", "stata", "stata12_117.dta"))