Merge pull request #1832 from cmu-delphi/ndefries/validator/date-comare-error

nmdefries · web-flow · commit 773b9b7f4216 · 2023-04-13T15:43:43.000-04:00
[Validator] Cast timestamp to date in reference vs test data up-to-dateness comparison
diff --git a/_delphi_utils_python/delphi_utils/validator/dynamic.py b/_delphi_utils_python/delphi_utils/validator/dynamic.py
@@ -404,7 +404,7 @@ def check_max_date_vs_reference(self, df_to_test, df_to_reference, checking_date
         Returns:
             - None
         """
-        if df_to_test["time_value"].max() < df_to_reference["time_value"].max():
+        if df_to_test["time_value"].max() < df_to_reference["time_value"].max().date():
             report.add_raised_error(
                 ValidationFailure("check_max_date_vs_reference",
                                   checking_date,
diff --git a/_delphi_utils_python/tests/validator/test_dynamic.py b/_delphi_utils_python/tests/validator/test_dynamic.py
@@ -1,5 +1,5 @@
 """Tests for dynamic validator."""
-from datetime import date, datetime
+from datetime import date, datetime, timedelta
 import numpy as np
 import pandas as pd
 
@@ -465,3 +465,32 @@ def test_source_api_overlap(self):
 
         assert len(report.raised_warnings) == 2
         assert report.raised_warnings[0].check_name == "check_positive_negative_spikes"
+
+class TestDateComparison:
+    params = {
+        "common": {
+            "data_source": "",
+            "span_length": 1,
+            "end_date": "2020-09-02"
+        }
+    }
+
+    def test_date_comparison_by_type(self):
+        validator = DynamicValidator(self.params)
+        report = ValidationReport([])
+
+        ref_val = [30, 30, 30]
+        test_val = [100, 100, 100]
+
+        START = datetime.strptime("2020-10-01", "%Y-%m-%d")
+        ref_data = pd.DataFrame({"val": ref_val, "se": [np.nan] * len(ref_val),
+                    "sample_size": [np.nan] * len(ref_val), "geo_id": ["1"] * len(ref_val),
+                    # datetime64 type
+                    "time_value": pd.date_range(start=START, end=START + timedelta(days=len(ref_val) - 1))})
+        test_data = pd.DataFrame({"val": test_val, "se": [np.nan] * len(test_val),
+                     "sample_size": [np.nan] * len(test_val), "geo_id": ["1"] * len(test_val),
+                     # datetime.date type
+                     "time_value": datetime.strptime("2020-10-26", "%Y-%m-%d").date()})
+
+        # This should run without raising any errors.
+        validator.check_max_date_vs_reference(test_data, ref_data, "date", "state", "signal", report)