Add FEMA risk index to score file (#687)

* Add to score file
2025-09-29 20:53:18 -07:00 · 2021-09-15 13:31:32 -05:00 · 2021-09-15 13:31:32 -05:00 · 1c0d87d84b
commit 1c0d87d84b
parent e94d05882c
4 changed files with 68 additions and 12 deletions
--- a/data/data-pipeline/data_pipeline/etl/score/etl_score.py
+++ b/data/data-pipeline/data_pipeline/etl/score/etl_score.py
@ -66,6 +66,11 @@ class ScoreETL(ExtractTransformLoad):
        # DOE energy burden
        self.ENERGY_BURDEN_FIELD_NAME = "Energy burden"

+        # FEMA Risk Index
+        self.RISK_INDEX_EXPECTED_ANNUAL_LOSS_SCORE_FIELD_NAME = (
+            "FEMA Risk Index Expected Annual Loss Score"
+        )
+
        # There's another aggregation level (a second level of "buckets").
        self.AGGREGATION_POLLUTION: str = "Pollution Burden"
        self.AGGREGATION_POPULATION: str = "Population Characteristics"
@ -85,6 +90,7 @@ class ScoreETL(ExtractTransformLoad):
        self.census_acs_median_incomes_df: pd.DataFrame
        self.cdc_life_expectancy_df: pd.DataFrame
        self.doe_energy_burden_df: pd.DataFrame
+        self.national_risk_index_df: pd.DataFrame

    def data_sets(self) -> list:
        # Define a named tuple that will be used for each data set input.
@ -186,6 +192,11 @@ class ScoreETL(ExtractTransformLoad):
                renamed_field=self.ENERGY_BURDEN_FIELD_NAME,
                bucket=None,
            ),
+            DataSet(
+                input_field=self.RISK_INDEX_EXPECTED_ANNUAL_LOSS_SCORE_FIELD_NAME,
+                renamed_field=self.RISK_INDEX_EXPECTED_ANNUAL_LOSS_SCORE_FIELD_NAME,
+                bucket=None,
+            ),
            # The following data sets have buckets, because they're used in Score C
            DataSet(
                input_field="CANCER",
@ -365,6 +376,16 @@ class ScoreETL(ExtractTransformLoad):
            low_memory=False,
        )

+        # Load FEMA national risk index data
+        national_risk_index_csv = (
+            self.DATA_PATH / "dataset" / "national_risk_index_2020" / "usa.csv"
+        )
+        self.national_risk_index_df = pd.read_csv(
+            national_risk_index_csv,
+            dtype={self.GEOID_FIELD_NAME: "string"},
+            low_memory=False,
+        )
+
    def _join_cbg_dfs(self, census_block_group_dfs: list) -> pd.DataFrame:
        logger.info("Joining Census Block Group dataframes")
        census_block_group_df = functools.reduce(
@ -630,6 +651,7 @@ class ScoreETL(ExtractTransformLoad):
            self.census_df,
            self.housing_and_transportation_df,
            self.census_acs_median_incomes_df,
+            self.national_risk_index_df,
        ]
        census_block_group_df = self._join_cbg_dfs(census_block_group_dfs)

@ -638,7 +660,7 @@ class ScoreETL(ExtractTransformLoad):
            self.hud_housing_df,
            self.cdc_places_df,
            self.cdc_life_expectancy_df,
-            self.doe_energy_burden_df
+            self.doe_energy_burden_df,
        ]
        census_tract_df = self._join_tract_dfs(census_tract_dfs)