pandas-dev · simonjayhawkins · May 5, 2021 · May 5, 2021 · May 5, 2021 · May 5, 2021
diff --git a/pandas/compat/__init__.py b/pandas/compat/__init__.py
@@ -7,6 +7,7 @@
 Other items:
 * platform checker
 """
+from distutils.version import LooseVersion
 import platform
 import sys
 import warnings
@@ -129,11 +130,31 @@ def get_lzma_file(lzma):
     return lzma.LZMAFile
 
 
+# pyarrow versioning
+try:
+    import pyarrow as pa
+
+    _pa_version = pa.__version__
+    _palv = LooseVersion(_pa_version)
+    pa_version_under1p0 = _palv < LooseVersion("1.0.0")
+    pa_version_under2p0 = _palv < LooseVersion("2.0.0")
+    pa_version_under3p0 = _palv < LooseVersion("3.0.0")
+    pa_version_under4p0 = _palv < LooseVersion("4.0.0")
+except ImportError:
+    pa_version_under1p0 = True
+    pa_version_under2p0 = True
+    pa_version_under3p0 = True
+    pa_version_under4p0 = True
+
 __all__ = [
     "is_numpy_dev",
     "np_array_datetime64_compat",
     "np_datetime64_compat",
     "np_version_under1p18",
     "np_version_under1p19",
     "np_version_under1p20",
+    "pa_version_under1p0",
+    "pa_version_under2p0",
+    "pa_version_under3p0",
+    "pa_version_under4p0",
 ]
diff --git a/pandas/core/arrays/string_arrow.py b/pandas/core/arrays/string_arrow.py
@@ -21,6 +21,10 @@
     PositionalIndexer,
     type_t,
 )
+from pandas.compat import (
+    pa_version_under2p0,
+    pa_version_under4p0,
+)
 from pandas.util._decorators import doc
 from pandas.util._validators import validate_fillna_kwargs
 
@@ -773,11 +777,10 @@ def _str_contains(self, pat, case=True, flags=0, na=np.nan, regex: bool = True):
             return super()._str_contains(pat, case, flags, na, regex)
 
         if regex:
-            # match_substring_regex added in pyarrow 4.0.0
-            if hasattr(pc, "match_substring_regex") and case:
-                result = pc.match_substring_regex(self._data, pat)
-            else:
+            if pa_version_under4p0 or case is False:
                 return super()._str_contains(pat, case, flags, na, regex)
+            else:
+                result = pc.match_substring_regex(self._data, pat)
         else:
             if case:
                 result = pc.match_substring(self._data, pat)
@@ -789,27 +792,25 @@ def _str_contains(self, pat, case=True, flags=0, na=np.nan, regex: bool = True):
         return result
 
     def _str_startswith(self, pat, na=None):
-        # match_substring_regex added in pyarrow 4.0.0
-        if hasattr(pc, "match_substring_regex"):
-            result = pc.match_substring_regex(self._data, "^" + re.escape(pat))
-            result = BooleanDtype().__from_arrow__(result)
-            if not isna(na):
-                result[isna(result)] = bool(na)
-            return result
-        else:
+        if pa_version_under4p0:
             return super()._str_startswith(pat, na)
 
+        result = pc.match_substring_regex(self._data, "^" + re.escape(pat))
+        result = BooleanDtype().__from_arrow__(result)
+        if not isna(na):
+            result[isna(result)] = bool(na)
+        return result
+
     def _str_endswith(self, pat, na=None):
-        # match_substring_regex added in pyarrow 4.0.0
-        if hasattr(pc, "match_substring_regex"):
-            result = pc.match_substring_regex(self._data, re.escape(pat) + "$")
-            result = BooleanDtype().__from_arrow__(result)
-            if not isna(na):
-                result[isna(result)] = bool(na)
-            return result
-        else:
+        if pa_version_under4p0:
             return super()._str_endswith(pat, na)
 
+        result = pc.match_substring_regex(self._data, re.escape(pat) + "$")
+        result = BooleanDtype().__from_arrow__(result)
+        if not isna(na):
+            result[isna(result)] = bool(na)
+        return result
+
     def _str_isalnum(self):
         result = pc.utf8_is_alnum(self._data)
         return BooleanDtype().__from_arrow__(result)
@@ -835,13 +836,12 @@ def _str_isnumeric(self):
         return BooleanDtype().__from_arrow__(result)
 
     def _str_isspace(self):
-        # utf8_is_space added in pyarrow 2.0.0
-        if hasattr(pc, "utf8_is_space"):
-            result = pc.utf8_is_space(self._data)
-            return BooleanDtype().__from_arrow__(result)
-        else:
+        if pa_version_under2p0:
             return super()._str_isspace()
 
+        result = pc.utf8_is_space(self._data)
+        return BooleanDtype().__from_arrow__(result)
+
     def _str_istitle(self):
         result = pc.utf8_is_title(self._data)
         return BooleanDtype().__from_arrow__(result)
@@ -851,48 +851,44 @@ def _str_isupper(self):
         return BooleanDtype().__from_arrow__(result)
 
     def _str_len(self):
-        # utf8_length added in pyarrow 4.0.0
-        if hasattr(pc, "utf8_length"):
-            result = pc.utf8_length(self._data)
-            return Int64Dtype().__from_arrow__(result)
-        else:
+        if pa_version_under4p0:
             return super()._str_len()
 
+        result = pc.utf8_length(self._data)
+        return Int64Dtype().__from_arrow__(result)
+
     def _str_lower(self):
         return type(self)(pc.utf8_lower(self._data))
 
     def _str_upper(self):
         return type(self)(pc.utf8_upper(self._data))
 
     def _str_strip(self, to_strip=None):
+        if pa_version_under4p0:
+            return super()._str_strip(to_strip)
+
         if to_strip is None:
-            # utf8_trim_whitespace added in pyarrow 4.0.0
-            if hasattr(pc, "utf8_trim_whitespace"):
-                return type(self)(pc.utf8_trim_whitespace(self._data))
+            result = pc.utf8_trim_whitespace(self._data)
         else:
-            # utf8_trim added in pyarrow 4.0.0
-            if hasattr(pc, "utf8_trim"):
-                return type(self)(pc.utf8_trim(self._data, characters=to_strip))
-        return super()._str_strip(to_strip)
+            result = pc.utf8_trim(self._data, characters=to_strip)
+        return type(self)(result)
 
     def _str_lstrip(self, to_strip=None):
+        if pa_version_under4p0:
+            return super()._str_lstrip(to_strip)
+
         if to_strip is None:
-            # utf8_ltrim_whitespace added in pyarrow 4.0.0
-            if hasattr(pc, "utf8_ltrim_whitespace"):
-                return type(self)(pc.utf8_ltrim_whitespace(self._data))
+            result = pc.utf8_ltrim_whitespace(self._data)
         else:
-            # utf8_ltrim added in pyarrow 4.0.0
-            if hasattr(pc, "utf8_ltrim"):
-                return type(self)(pc.utf8_ltrim(self._data, characters=to_strip))
-        return super()._str_lstrip(to_strip)
+            result = pc.utf8_ltrim(self._data, characters=to_strip)
+        return type(self)(result)
 
     def _str_rstrip(self, to_strip=None):
+        if pa_version_under4p0:
+            return super()._str_rstrip(to_strip)
+
         if to_strip is None:
-            # utf8_rtrim_whitespace added in pyarrow 4.0.0
-            if hasattr(pc, "utf8_rtrim_whitespace"):
-                return type(self)(pc.utf8_rtrim_whitespace(self._data))
+            result = pc.utf8_rtrim_whitespace(self._data)
         else:
-            # utf8_rtrim added in pyarrow 4.0.0
-            if hasattr(pc, "utf8_rtrim"):
-                return type(self)(pc.utf8_rtrim(self._data, characters=to_strip))
-        return super()._str_rstrip(to_strip)
+            result = pc.utf8_rtrim(self._data, characters=to_strip)
+        return type(self)(result)