Update downloadable zip file (#659)

* Update downloadable zip file * Don't use spaces in the name, as per #620 * Add the score D columns, as per #596 * fix paths and directories in etl_score_post while the tests seemed to be passing, I encountered an error when running poetry run score, which was caused by us creating a directory called <name>.csv, instead of creating the parent directory. Co-authored-by: Shelby Switzer <shelby.switzer@cms.hhs.gov>
2025-09-30 09:13:17 -07:00 · 2021-09-10 16:06:47 -04:00 · 2021-09-10 16:06:47 -04:00 · d7274888b6
commit d7274888b6
parent dc8e82b8e2
3 changed files with 7 additions and 7 deletions
--- a/data/data-pipeline/data_pipeline/etl/score/constants.py
+++ b/data/data-pipeline/data_pipeline/etl/score/constants.py
@ -39,7 +39,7 @@ DATA_SCORE_TILES_FILE_PATH = DATA_SCORE_TILES_DIR / "usa.csv"
 SCORE_DOWNLOADABLE_DIR = DATA_SCORE_DIR / "downloadable"
 SCORE_DOWNLOADABLE_CSV_FILE_PATH = SCORE_DOWNLOADABLE_DIR / "usa.csv"
 SCORE_DOWNLOADABLE_EXCEL_FILE_PATH = SCORE_DOWNLOADABLE_DIR / "usa.xlsx"
-SCORE_DOWNLOADABLE_ZIP_FILE_PATH = SCORE_DOWNLOADABLE_DIR / "Screening Tool Data.zip"
+SCORE_DOWNLOADABLE_ZIP_FILE_PATH = SCORE_DOWNLOADABLE_DIR / "Screening_Tool_Data.zip"
 # Column subsets
 CENSUS_COUNTIES_COLUMNS = ["USPS", "GEOID", "NAME"]
@ -104,5 +104,7 @@ DOWNLOADABLE_SCORE_COLUMNS = [
    "GEOID10",
    "County Name",
    "State Name",
    "Score D (percentile)",
    "Score D (top 25th percentile)",
    *DOWNLOADABLE_SCORE_INDICATOR_COLUMNS_FULL,
 ]
--- a/data/data-pipeline/data_pipeline/etl/score/etl_score_post.py
+++ b/data/data-pipeline/data_pipeline/etl/score/etl_score_post.py
@ -219,9 +219,7 @@ class PostScoreETL(ExtractTransformLoad):
        self, score_tiles_df: pd.DataFrame, tile_score_path: Path
    ) -> None:
        logger.info("Saving Tile Score CSV")
-        # TODO: check which are the columns we'll use
+        tile_score_path.parent.mkdir(parents=True, exist_ok=True)
        # Related to: https://github.com/usds/justice40-tool/issues/302
        tile_score_path.mkdir(parents=True, exist_ok=True)
        score_tiles_df.to_csv(tile_score_path, index=False)
    def _load_downloadable_zip(
@ -230,9 +228,9 @@ class PostScoreETL(ExtractTransformLoad):
        logger.info("Saving Downloadable CSV")
        downloadable_info_path.mkdir(parents=True, exist_ok=True)
-        csv_path = downloadable_info_path / "usa.csv"
+        csv_path = constants.SCORE_DOWNLOADABLE_CSV_FILE_PATH
-        excel_path = downloadable_info_path / "usa.xlsx"
+        excel_path = constants.SCORE_DOWNLOADABLE_EXCEL_FILE_PATH
-        zip_path = downloadable_info_path / "Screening Tool Data.zip"
+        zip_path = constants.SCORE_DOWNLOADABLE_ZIP_FILE_PATH
        logger.info("Writing downloadable csv")
        downloadable_df.to_csv(csv_path, index=False)
--- a/data/data-pipeline/data_pipeline/etl/score/tests/snapshots/downloadable_data_expected.pkl
+++ b/data/data-pipeline/data_pipeline/etl/score/tests/snapshots/downloadable_data_expected.pkl