Download column order completed (#1077)

* Download column order completed * Kameron changes * Lucas and Beth column order changes * cdc_places update * passing score * pandas error * checkpoint * score passing * rounding complete - percentages still showing one decimal * fixing tests * fixing percentages * updating comment * int percentages! 🎉🎉 * forgot to pass back to df * passing tests Co-authored-by: lucasmbrown-usds <lucas.m.brown@omb.eop.gov>
2025-07-28 05:51:17 -07:00 · 2022-01-13 15:04:16 -05:00 · 2022-01-13 15:04:16 -05:00 · d686bb856e
commit d686bb856e
parent 98ff4bd9d8
13 changed files with 232 additions and 133 deletions
--- a/data/data-pipeline/data_pipeline/etl/score/constants.py
+++ b/data/data-pipeline/data_pipeline/etl/score/constants.py
@ -63,6 +63,17 @@ SCORE_DOWNLOADABLE_ZIP_FILE_PATH = (
 # Column subsets
 CENSUS_COUNTIES_COLUMNS = ["USPS", "GEOID", "NAME"]

+# Percent prefixes for rounding
+PERCENT_PREFIXES_SUFFIXES = [
+    "Percent",
+    "percent",
+    "Percentage",
+    "Energy burden",
+    "loss rate",
+    "greater than or equal to 18 years",
+    field_names.PERCENTILE_FIELD_SUFFIX,
+]
+
 TILES_ROUND_NUM_DECIMALS = 2
 # Tiles data: full field name, tile index name
 TILES_SCORE_COLUMNS = {
@ -191,91 +202,88 @@ DOWNLOADABLE_SCORE_COLUMNS = [
    field_names.GEOID_TRACT_FIELD,
    field_names.COUNTY_FIELD,
    field_names.STATE_FIELD,
+    field_names.THRESHOLD_COUNT,
    field_names.SCORE_L_COMMUNITIES,
    field_names.TOTAL_POP_FIELD,
    field_names.FPL_200_SERIES,
-    field_names.POVERTY_LESS_THAN_200_FPL_FIELD,
-    field_names.POVERTY_LESS_THAN_200_FPL_FIELD
-    + field_names.PERCENTILE_FIELD_SUFFIX,
-    field_names.EXPECTED_AGRICULTURE_LOSS_RATE_FIELD,
+    field_names.EXPECTED_AGRICULTURE_LOSS_RATE_LOW_INCOME_FIELD,
    field_names.EXPECTED_AGRICULTURE_LOSS_RATE_FIELD
    + field_names.PERCENTILE_FIELD_SUFFIX,
-    field_names.EXPECTED_AGRICULTURE_LOSS_RATE_LOW_INCOME_FIELD,
-    field_names.EXPECTED_BUILDING_LOSS_RATE_FIELD,
+    field_names.EXPECTED_AGRICULTURE_LOSS_RATE_FIELD,
+    field_names.EXPECTED_BUILDING_LOSS_RATE_LOW_INCOME_FIELD,
    field_names.EXPECTED_BUILDING_LOSS_RATE_FIELD
    + field_names.PERCENTILE_FIELD_SUFFIX,
-    field_names.EXPECTED_BUILDING_LOSS_RATE_LOW_INCOME_FIELD,
-    field_names.EXPECTED_POPULATION_LOSS_RATE_FIELD,
+    field_names.EXPECTED_BUILDING_LOSS_RATE_FIELD,
+    field_names.EXPECTED_POPULATION_LOSS_RATE_LOW_INCOME_FIELD,
    field_names.EXPECTED_POPULATION_LOSS_RATE_FIELD
    + field_names.PERCENTILE_FIELD_SUFFIX,
-    field_names.EXPECTED_POPULATION_LOSS_RATE_LOW_INCOME_FIELD,
-    field_names.ENERGY_BURDEN_FIELD,
-    field_names.ENERGY_BURDEN_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.EXPECTED_POPULATION_LOSS_RATE_FIELD,
    field_names.ENERGY_BURDEN_LOW_INCOME_FIELD,
-    field_names.PM25_FIELD,
-    field_names.PM25_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.ENERGY_BURDEN_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.ENERGY_BURDEN_FIELD,
    field_names.PM25_EXPOSURE_LOW_INCOME_FIELD,
-    field_names.DIESEL_FIELD,
-    field_names.DIESEL_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.PM25_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.PM25_FIELD,
    field_names.DIESEL_PARTICULATE_MATTER_LOW_INCOME_FIELD,
-    field_names.TRAFFIC_FIELD,
-    field_names.TRAFFIC_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.DIESEL_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.DIESEL_FIELD,
    field_names.TRAFFIC_PROXIMITY_LOW_INCOME_FIELD,
-    field_names.HOUSING_BURDEN_FIELD,
-    field_names.HOUSING_BURDEN_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.TRAFFIC_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.TRAFFIC_FIELD,
    field_names.HOUSING_BURDEN_LOW_INCOME_FIELD,
-    field_names.LEAD_PAINT_FIELD,
-    field_names.LEAD_PAINT_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.HOUSING_BURDEN_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.HOUSING_BURDEN_FIELD,
    field_names.LEAD_PAINT_MEDIAN_HOUSE_VALUE_LOW_INCOME_FIELD,
-    field_names.MEDIAN_HOUSE_VALUE_FIELD,
+    field_names.LEAD_PAINT_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.LEAD_PAINT_FIELD,
    field_names.MEDIAN_HOUSE_VALUE_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
-    field_names.TSDF_FIELD,
-    field_names.TSDF_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.MEDIAN_HOUSE_VALUE_FIELD,
    field_names.HAZARDOUS_WASTE_LOW_INCOME_FIELD,
-    field_names.NPL_FIELD,
-    field_names.NPL_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.TSDF_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.TSDF_FIELD,
    field_names.SUPERFUND_LOW_INCOME_FIELD,
-    field_names.RMP_FIELD,
-    field_names.RMP_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.NPL_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.NPL_FIELD,
    field_names.RMP_LOW_INCOME_FIELD,
-    field_names.WASTEWATER_FIELD,
-    field_names.WASTEWATER_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.RMP_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.RMP_FIELD,
    field_names.WASTEWATER_DISCHARGE_LOW_INCOME_FIELD,
-    field_names.ASTHMA_FIELD,
-    field_names.ASTHMA_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.WASTEWATER_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.WASTEWATER_FIELD,
    field_names.ASTHMA_LOW_INCOME_FIELD,
-    field_names.DIABETES_FIELD,
-    field_names.DIABETES_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.ASTHMA_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.ASTHMA_FIELD,
    field_names.DIABETES_LOW_INCOME_FIELD,
-    field_names.HEART_DISEASE_FIELD,
-    field_names.HEART_DISEASE_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.DIABETES_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.DIABETES_FIELD,
    field_names.HEART_DISEASE_LOW_INCOME_FIELD,
-    field_names.LIFE_EXPECTANCY_FIELD,
-    field_names.LOW_LIFE_EXPECTANCY_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.HEART_DISEASE_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.HEART_DISEASE_FIELD,
    field_names.LOW_LIFE_EXPECTANCY_LOW_INCOME_FIELD,
-    field_names.MEDIAN_INCOME_AS_PERCENT_OF_AMI_FIELD,
+    field_names.LOW_LIFE_EXPECTANCY_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.LIFE_EXPECTANCY_FIELD,
+    field_names.LOW_MEDIAN_INCOME_LOW_HS_EDUCATION_FIELD,
    field_names.LOW_MEDIAN_INCOME_AS_PERCENT_OF_AMI_FIELD
    + field_names.PERCENTILE_FIELD_SUFFIX,
-    field_names.LOW_MEDIAN_INCOME_LOW_HS_EDUCATION_FIELD,
-    field_names.LINGUISTIC_ISO_FIELD,
+    field_names.MEDIAN_INCOME_AS_PERCENT_OF_AMI_FIELD,
    field_names.LINGUISTIC_ISOLATION_LOW_HS_EDUCATION_FIELD,
-    field_names.UNEMPLOYMENT_FIELD,
-    field_names.UNEMPLOYMENT_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
    field_names.LINGUISTIC_ISO_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
-    field_names.POVERTY_LESS_THAN_100_FPL_FIELD,
+    field_names.LINGUISTIC_ISO_FIELD,
+    field_names.UNEMPLOYMENT_LOW_HS_EDUCATION_FIELD,
+    field_names.UNEMPLOYMENT_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
+    field_names.UNEMPLOYMENT_FIELD,
+    field_names.POVERTY_LOW_HS_EDUCATION_FIELD,
+    field_names.POVERTY_LESS_THAN_200_FPL_FIELD
+    + field_names.PERCENTILE_FIELD_SUFFIX,
    field_names.POVERTY_LESS_THAN_100_FPL_FIELD
    + field_names.PERCENTILE_FIELD_SUFFIX,
-    field_names.POVERTY_LOW_HS_EDUCATION_FIELD,
-    field_names.HIGH_SCHOOL_ED_FIELD,
+    field_names.POVERTY_LESS_THAN_200_FPL_FIELD,
+    field_names.POVERTY_LESS_THAN_100_FPL_FIELD,
    field_names.HIGH_SCHOOL_ED_FIELD + field_names.PERCENTILE_FIELD_SUFFIX,
-    field_names.LOW_HS_EDUCATION_FIELD,
-    field_names.THRESHOLD_COUNT,
-    field_names.UNEMPLOYMENT_LOW_HS_EDUCATION_FIELD,
+    field_names.HIGH_SCHOOL_ED_FIELD,
    field_names.COMBINED_UNEMPLOYMENT_2010,
-    field_names.CENSUS_DECENNIAL_UNEMPLOYMENT_FIELD_2009,
    field_names.COMBINED_POVERTY_LESS_THAN_100_FPL_FIELD_2010,
    field_names.ISLAND_AREAS_UNEMPLOYMENT_LOW_HS_EDUCATION_FIELD,
    field_names.ISLAND_AREAS_POVERTY_LOW_HS_EDUCATION_FIELD,
    field_names.ISLAND_AREAS_LOW_MEDIAN_INCOME_LOW_HS_EDUCATION_FIELD,
-    field_names.ISLAND_AREAS_LOW_HS_EDUCATION_FIELD,
 ]
--- a/data/data-pipeline/data_pipeline/etl/score/etl_score_post.py
+++ b/data/data-pipeline/data_pipeline/etl/score/etl_score_post.py
@ -1,5 +1,7 @@
 from pathlib import Path
 import json
+from numpy import float64
+import numpy as np
 import pandas as pd

 from data_pipeline.etl.base import ExtractTransformLoad
@ -129,7 +131,7 @@ class PostScoreETL(ExtractTransformLoad):
        new_df = initial_states_df.rename(
            columns={
                "fips": "State Code",
-                "state_name": "State Name",
+                "state_name": field_names.STATE_FIELD,
                "state_abbreviation": "State Abbreviation",
            }
        )
@ -206,7 +208,9 @@ class PostScoreETL(ExtractTransformLoad):
        tiles_score_column_titles = list(constants.TILES_SCORE_COLUMNS.keys())

        # filter the columns on full score
-        score_tiles = score_county_state_merged_df[tiles_score_column_titles]
+        score_tiles = score_county_state_merged_df[
+            tiles_score_column_titles
+        ].copy()

        score_tiles[constants.TILES_SCORE_FLOAT_COLUMNS] = score_tiles[
            constants.TILES_SCORE_FLOAT_COLUMNS
@ -238,9 +242,31 @@ class PostScoreETL(ExtractTransformLoad):
    def _create_downloadable_data(
        self, score_county_state_merged_df: pd.DataFrame
    ) -> pd.DataFrame:
-        return score_county_state_merged_df[
+        df = score_county_state_merged_df[
            constants.DOWNLOADABLE_SCORE_COLUMNS
-        ]
+        ].copy(deep=True)
+
+        df_of_float_columns = df.select_dtypes(include=["float64"])
+
+        for column in df_of_float_columns.columns:
+            # TODO: create a schema for fields to make it more explicit and safe which
+            #  fields are percentages.
+            if any(x in column for x in constants.PERCENT_PREFIXES_SUFFIXES):
+                # Convert percentages from fractions between 0 and 1 to an integer
+                # from 0 to 100.
+                df_100 = df[column] * 100
+                df_int = np.floor(
+                    pd.to_numeric(df_100, errors="coerce")
+                ).astype("Int64")
+                df[column] = df_int
+            else:
+                # Round all other floats.
+                df[column] = floor_series(
+                    series=df[column].astype(float64),
+                    number_of_decimals=constants.TILES_ROUND_NUM_DECIMALS,
+                )
+
+        return df

    def transform(self) -> None:
        logger.info("Transforming data sources for Score + County CSVs")
@ -297,7 +323,7 @@ class PostScoreETL(ExtractTransformLoad):
        # Rename score column
        downloadable_df_copy = downloadable_df.rename(
            columns={
-                field_names.SCORE_L_COMMUNITIES: "Community of focus (v0.1)"
+                field_names.SCORE_L_COMMUNITIES: "Identified as disadvantaged (v0.1)"
            },
            inplace=False,
        )
--- a/data/data-pipeline/data_pipeline/etl/score/tests/conftest.py
+++ b/data/data-pipeline/data_pipeline/etl/score/tests/conftest.py
@ -87,7 +87,7 @@ def states_transformed_expected():
    return pd.DataFrame.from_dict(
        data={
            "State Code": pd.Series(["01", "02", "04"], dtype="string"),
-            "State Name": pd.Series(
+            "State/Territory": pd.Series(
                ["Alabama", "Alaska", "Arizona"], dtype="object"
            ),
            "State Abbreviation": pd.Series(["AL", "AK", "AZ"], dtype="string"),
--- a/data/data-pipeline/data_pipeline/etl/score/tests/sample_data/score_data_initial.csv
+++ b/data/data-pipeline/data_pipeline/etl/score/tests/sample_data/score_data_initial.csv
--- a/data/data-pipeline/data_pipeline/etl/score/tests/snapshots/downloadable_data_expected.pkl
+++ b/data/data-pipeline/data_pipeline/etl/score/tests/snapshots/downloadable_data_expected.pkl
--- a/data/data-pipeline/data_pipeline/etl/score/tests/snapshots/score_data_expected.pkl
+++ b/data/data-pipeline/data_pipeline/etl/score/tests/snapshots/score_data_expected.pkl
--- a/data/data-pipeline/data_pipeline/etl/score/tests/snapshots/score_transformed_expected.pkl
+++ b/data/data-pipeline/data_pipeline/etl/score/tests/snapshots/score_transformed_expected.pkl