Merge remote-tracking branch 'upstream/master' into integer-quantile

dsaxton · dsaxton · commit fd103dc5513b · 2020-03-30T12:09:01.000-05:00
diff --git a/doc/source/getting_started/intro_tutorials/01_table_oriented.rst b/doc/source/getting_started/intro_tutorials/01_table_oriented.rst
@@ -26,7 +26,7 @@ documentation.
         </li>
     </ul>
 
-Pandas data table representation
+pandas data table representation
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
 .. image:: ../../_static/schemas/01_table_dataframe.svg
diff --git a/doc/source/getting_started/tutorials.rst b/doc/source/getting_started/tutorials.rst
@@ -3,12 +3,12 @@
 {{ header }}
 
 *******************
-Community Tutorials
+Community tutorials
 *******************
 
 This is a guide to many pandas tutorials by the community, geared mainly for new users.
 
-pandas Cookbook by Julia Evans
+pandas cookbook by Julia Evans
 ------------------------------
 
 The goal of this 2015 cookbook (by `Julia Evans <https://jvns.ca>`_) is to
@@ -18,7 +18,7 @@ entails.
 For the table of contents, see the `pandas-cookbook GitHub
 repository <https://github.com/jvns/pandas-cookbook>`_.
 
-Learn Pandas by Hernan Rojas
+Learn pandas by Hernan Rojas
 ----------------------------
 
 A set of lesson for new pandas users: https://bitbucket.org/hrojas/learn-pandas
diff --git a/doc/source/reference/arrays.rst b/doc/source/reference/arrays.rst
@@ -3,7 +3,7 @@
 .. _api.arrays:
 
 =============
-Pandas arrays
+pandas arrays
 =============
 
 .. currentmodule:: pandas
diff --git a/doc/source/reference/window.rst b/doc/source/reference/window.rst
@@ -75,7 +75,7 @@ Exponentially-weighted moving window functions
    EWM.corr
    EWM.cov
 
-Window Indexer
+Window indexer
 --------------
 .. currentmodule:: pandas
 
diff --git a/doc/source/user_guide/boolean.rst b/doc/source/user_guide/boolean.rst
@@ -39,7 +39,7 @@ If you would prefer to keep the ``NA`` values you can manually fill them with ``
 
 .. _boolean.kleene:
 
-Kleene Logical Operations
+Kleene logical operations
 -------------------------
 
 :class:`arrays.BooleanArray` implements `Kleene Logic`_ (sometimes called three-value logic) for
diff --git a/doc/source/whatsnew/v1.1.0.rst b/doc/source/whatsnew/v1.1.0.rst
@@ -405,7 +405,7 @@ I/O
 - Bug in :meth:`read_csv` was causing a segfault when there were blank lines between the header and data rows (:issue:`28071`)
 - Bug in :meth:`read_csv` was raising a misleading exception on a permissions issue (:issue:`23784`)
 - Bug in :meth:`read_csv` was raising an ``IndexError`` when header=None and 2 extra data columns
-
+- Bug in :meth:`DataFrame.to_sql` where an ``AttributeError`` was raised when saving an out of bounds date (:issue:`26761`)
 
 Plotting
 ^^^^^^^^
diff --git a/pandas/_libs/parsers.pyx b/pandas/_libs/parsers.pyx
@@ -267,7 +267,7 @@ cdef class TextReader:
 
     cdef:
         parser_t *parser
-        object file_handle, na_fvalues
+        object na_fvalues
         object true_values, false_values
         object handle
         bint na_filter, keep_default_na, verbose, has_usecols, has_mi_columns
@@ -601,7 +601,6 @@ cdef class TextReader:
 
     cdef _setup_parser_source(self, source):
         cdef:
-            int status
             void *ptr
 
         self.parser.cb_io = NULL
@@ -687,7 +686,6 @@ cdef class TextReader:
             Py_ssize_t i, start, field_count, passed_count, unnamed_count
             char *word
             object name, old_name
-            int status
             uint64_t hr, data_line = 0
             char *errors = "strict"
             StringPath path = _string_path(self.c_encoding)
@@ -837,9 +835,6 @@ cdef class TextReader:
         """
         rows=None --> read all rows
         """
-        cdef:
-            int status
-
         if self.low_memory:
             # Conserve intermediate space
             columns = self._read_low_memory(rows)
@@ -888,7 +883,9 @@ cdef class TextReader:
         return _concatenate_chunks(chunks)
 
     cdef _tokenize_rows(self, size_t nrows):
-        cdef int status
+        cdef:
+            int status
+
         with nogil:
             status = tokenize_nrows(self.parser, nrows)
 
@@ -1331,7 +1328,8 @@ cdef:
 
 
 def _ensure_encoded(list lst):
-    cdef list result = []
+    cdef:
+        list result = []
     for x in lst:
         if isinstance(x, str):
             x = PyUnicode_AsUTF8String(x)
@@ -1458,7 +1456,7 @@ cdef _string_box_decode(parser_t *parser, int64_t col,
                         bint na_filter, kh_str_starts_t *na_hashset,
                         char *encoding):
     cdef:
-        int error, na_count = 0
+        int na_count = 0
         Py_ssize_t i, size, lines
         coliter_t it
         const char *word = NULL
@@ -1517,7 +1515,7 @@ cdef _categorical_convert(parser_t *parser, int64_t col,
                           char *encoding):
     "Convert column data into codes, categories"
     cdef:
-        int error, na_count = 0
+        int na_count = 0
         Py_ssize_t i, size, lines
         coliter_t it
         const char *word = NULL
@@ -1581,7 +1579,6 @@ cdef _categorical_convert(parser_t *parser, int64_t col,
 cdef _to_fw_string(parser_t *parser, int64_t col, int64_t line_start,
                    int64_t line_end, int64_t width):
     cdef:
-        const char *word = NULL
         char *data
         ndarray result
 
@@ -1767,7 +1764,6 @@ cdef inline int _try_uint64_nogil(parser_t *parser, int64_t col,
         Py_ssize_t i, lines = line_end - line_start
         coliter_t it
         const char *word = NULL
-        khiter_t k
 
     coliter_setup(&it, parser, col, line_start)
 
@@ -1870,9 +1866,7 @@ cdef _try_bool_flex(parser_t *parser, int64_t col,
         Py_ssize_t lines
         uint8_t *data
         ndarray result
-
         uint8_t NA = na_values[np.bool_]
-        khiter_t k
 
     lines = line_end - line_start
     result = np.empty(lines, dtype=np.uint8)
diff --git a/pandas/core/groupby/generic.py b/pandas/core/groupby/generic.py
@@ -31,7 +31,7 @@
 
 from pandas._libs import Timestamp, lib
 from pandas._typing import FrameOrSeries
-from pandas.util._decorators import Appender, Substitution
+from pandas.util._decorators import Appender, Substitution, doc
 
 from pandas.core.dtypes.cast import (
     maybe_cast_result,
@@ -633,7 +633,7 @@ def nunique(self, dropna: bool = True) -> Series:
         result = Series(res, index=ri, name=self._selection_name)
         return self._reindex_output(result, fill_value=0)
 
-    @Appender(Series.describe.__doc__)
+    @doc(Series.describe)
     def describe(self, **kwargs):
         result = self.apply(lambda x: x.describe(**kwargs))
         if self.axis == 1:
diff --git a/pandas/core/groupby/groupby.py b/pandas/core/groupby/groupby.py
@@ -37,7 +37,7 @@ class providing the base-class of operations.
 from pandas.compat import set_function_name
 from pandas.compat.numpy import function as nv
 from pandas.errors import AbstractMethodError
-from pandas.util._decorators import Appender, Substitution, cache_readonly
+from pandas.util._decorators import Appender, Substitution, cache_readonly, doc
 
 from pandas.core.dtypes.cast import maybe_cast_result
 from pandas.core.dtypes.common import (
@@ -1421,7 +1421,7 @@ def ohlc(self) -> DataFrame:
         """
         return self._apply_to_column_groupbys(lambda x: x._cython_agg_general("ohlc"))
 
-    @Appender(DataFrame.describe.__doc__)
+    @doc(DataFrame.describe)
     def describe(self, **kwargs):
         with _group_selection_context(self):
             result = self.apply(lambda x: x.describe(**kwargs))
@@ -2514,7 +2514,7 @@ def _reindex_output(
 GroupBy._add_numeric_operations()
 
 
-@Appender(GroupBy.__doc__)
+@doc(GroupBy)
 def get_groupby(
     obj: NDFrame,
     by: Optional[_KeysArgType] = None,
diff --git a/pandas/core/indexes/base.py b/pandas/core/indexes/base.py
@@ -15,7 +15,7 @@
 from pandas._typing import Label
 from pandas.compat import set_function_name
 from pandas.compat.numpy import function as nv
-from pandas.util._decorators import Appender, Substitution, cache_readonly
+from pandas.util._decorators import Appender, Substitution, cache_readonly, doc
 
 from pandas.core.dtypes import concat as _concat
 from pandas.core.dtypes.cast import (
@@ -3835,7 +3835,7 @@ def values(self) -> np.ndarray:
         return self._data.view(np.ndarray)
 
     @cache_readonly
-    @Appender(IndexOpsMixin.array.__doc__)  # type: ignore
+    @doc(IndexOpsMixin.array)  # type: ignore
     def array(self) -> ExtensionArray:
         array = self._data
         if isinstance(array, np.ndarray):
@@ -3876,7 +3876,7 @@ def _get_engine_target(self) -> np.ndarray:
         """
         return self._values
 
-    @Appender(IndexOpsMixin.memory_usage.__doc__)
+    @doc(IndexOpsMixin.memory_usage)
     def memory_usage(self, deep: bool = False) -> int:
         result = super().memory_usage(deep=deep)
 
diff --git a/pandas/core/indexes/category.py b/pandas/core/indexes/category.py
@@ -9,7 +9,7 @@
 from pandas._libs.hashtable import duplicated_int64
 from pandas._libs.lib import no_default
 from pandas._typing import Label
-from pandas.util._decorators import Appender, cache_readonly
+from pandas.util._decorators import Appender, cache_readonly, doc
 
 from pandas.core.dtypes.common import (
     ensure_platform_int,
@@ -241,7 +241,7 @@ def _simple_new(cls, values: Categorical, name: Label = None):
 
     # --------------------------------------------------------------------
 
-    @Appender(Index._shallow_copy.__doc__)
+    @doc(Index._shallow_copy)
     def _shallow_copy(self, values=None, name: Label = no_default):
         name = self.name if name is no_default else name
 
@@ -354,7 +354,7 @@ def _has_complex_internals(self) -> bool:
         # used to avoid libreduction code paths, which raise or require conversion
         return True
 
-    @Appender(Index.__contains__.__doc__)
+    @doc(Index.__contains__)
     def __contains__(self, key: Any) -> bool:
         # if key is a NaN, check if any NaN is in self.
         if is_scalar(key) and isna(key):
@@ -363,7 +363,7 @@ def __contains__(self, key: Any) -> bool:
         hash(key)
         return contains(self, key, container=self._engine)
 
-    @Appender(Index.astype.__doc__)
+    @doc(Index.astype)
     def astype(self, dtype, copy=True):
         if is_interval_dtype(dtype):
             from pandas import IntervalIndex
@@ -382,7 +382,7 @@ def _isnan(self):
         """ return if each value is nan"""
         return self._data.codes == -1
 
-    @Appender(Index.fillna.__doc__)
+    @doc(Index.fillna)
     def fillna(self, value, downcast=None):
         self._assert_can_do_op(value)
         return CategoricalIndex(self._data.fillna(value), name=self.name)
@@ -395,7 +395,7 @@ def _engine(self):
         codes = self.codes
         return self._engine_type(lambda: codes, len(self))
 
-    @Appender(Index.unique.__doc__)
+    @doc(Index.unique)
     def unique(self, level=None):
         if level is not None:
             self._validate_index_level(level)
@@ -404,7 +404,7 @@ def unique(self, level=None):
         #  of result, not self.
         return type(self)._simple_new(result, name=self.name)
 
-    @Appender(Index.duplicated.__doc__)
+    @doc(Index.duplicated)
     def duplicated(self, keep="first"):
         codes = self.codes.astype("i8")
         return duplicated_int64(codes, keep)
@@ -418,7 +418,7 @@ def _maybe_cast_indexer(self, key):
         code = self.codes.dtype.type(code)
         return code
 
-    @Appender(Index.where.__doc__)
+    @doc(Index.where)
     def where(self, cond, other=None):
         # TODO: Investigate an alternative implementation with
         # 1. copy the underlying Categorical
@@ -569,7 +569,7 @@ def get_indexer_non_unique(self, target):
         indexer, missing = self._engine.get_indexer_non_unique(codes)
         return ensure_platform_int(indexer), missing
 
-    @Appender(Index._convert_list_indexer.__doc__)
+    @doc(Index._convert_list_indexer)
     def _convert_list_indexer(self, keyarr):
         # Return our indexer or raise if all of the values are not included in
         # the categories
@@ -586,7 +586,7 @@ def _convert_list_indexer(self, keyarr):
 
         return self.get_indexer(keyarr)
 
-    @Appender(Index._convert_arr_indexer.__doc__)
+    @doc(Index._convert_arr_indexer)
     def _convert_arr_indexer(self, keyarr):
         keyarr = com.asarray_tuplesafe(keyarr)
 
@@ -595,7 +595,7 @@ def _convert_arr_indexer(self, keyarr):
 
         return self._shallow_copy(keyarr)
 
-    @Appender(Index._convert_index_indexer.__doc__)
+    @doc(Index._convert_index_indexer)
     def _convert_index_indexer(self, keyarr):
         return self._shallow_copy(keyarr)
 
@@ -608,7 +608,7 @@ def take_nd(self, *args, **kwargs):
         )
         return self.take(*args, **kwargs)
 
-    @Appender(Index._maybe_cast_slice_bound.__doc__)
+    @doc(Index._maybe_cast_slice_bound)
     def _maybe_cast_slice_bound(self, label, side, kind):
         if kind == "loc":
             return label
diff --git a/pandas/io/sql.py b/pandas/io/sql.py
@@ -978,7 +978,8 @@ def _sqlalchemy_type(self, col):
                     return TIMESTAMP(timezone=True)
             except AttributeError:
                 # The column is actually a DatetimeIndex
-                if col.tz is not None:
+                # GH 26761 or an Index with date-like data e.g. 9999-01-01
+                if getattr(col, "tz", None) is not None:
                     return TIMESTAMP(timezone=True)
             return DateTime
         if col_type == "timedelta64":
diff --git a/pandas/plotting/_misc.py b/pandas/plotting/_misc.py
@@ -359,7 +359,7 @@ def parallel_coordinates(
     --------
     >>> from matplotlib import pyplot as plt
     >>> df = pd.read_csv('https://raw.github.com/pandas-dev/pandas/master'
-                        '/pandas/tests/data/csv/iris.csv')
+                        '/pandas/tests/data/iris.csv')
     >>> pd.plotting.parallel_coordinates(
             df, 'Name',
             color=('#556270', '#4ECDC4', '#C7F464'))
diff --git a/pandas/tests/indexes/test_base.py b/pandas/tests/indexes/test_base.py
diff --git a/pandas/tests/io/test_sql.py b/pandas/tests/io/test_sql.py