Update FEMA data to be tracts, not block groups (#906)

2025-07-28 07:51:16 -07:00 · 2021-11-18 10:55:05 -05:00 · 2021-11-18 10:55:05 -05:00 · 537844236a
commit 537844236a
parent 893758f1d4
5 changed files with 20 additions and 52 deletions
--- a/data/data-pipeline/data_pipeline/etl/sources/national_risk_index/etl.py
+++ b/data/data-pipeline/data_pipeline/etl/sources/national_risk_index/etl.py
@ -52,7 +52,7 @@ class NationalRiskIndexETL(ExtractTransformLoad):

        # Note: also need to edit transform step to add fields to output.
        self.COLUMNS_TO_KEEP = [
-            self.GEOID_FIELD_NAME,
+            self.GEOID_TRACT_FIELD_NAME,
            self.RISK_INDEX_EXPECTED_ANNUAL_LOSS_SCORE_FIELD_NAME,
            self.EXPECTED_POPULATION_LOSS_RATE_FIELD_NAME,
            self.EXPECTED_AGRICULTURE_LOSS_RATE_FIELD_NAME,
@ -82,7 +82,6 @@ class NationalRiskIndexETL(ExtractTransformLoad):
        logger.info("Transforming National Risk Index Data")

        NRI_TRACT_COL = "TRACTFIPS"  # Census Tract Column in NRI data
-        TRACT_COL = self.GEOID_TRACT_FIELD_NAME  # Census Tract column name

        # read in the unzipped csv from NRI data source then rename the
        # Census Tract column for merging
@ -94,7 +93,7 @@ class NationalRiskIndexETL(ExtractTransformLoad):
        )
        df_nri.rename(
            columns={
-                NRI_TRACT_COL: TRACT_COL,
+                NRI_TRACT_COL: self.GEOID_TRACT_FIELD_NAME,
                self.RISK_INDEX_EXPECTED_ANNUAL_LOSS_SCORE_INPUT_FIELD_NAME: self.RISK_INDEX_EXPECTED_ANNUAL_LOSS_SCORE_FIELD_NAME,
            },
            inplace=True,
@ -120,30 +119,7 @@ class NationalRiskIndexETL(ExtractTransformLoad):
            / df_nri[self.BUILDING_VALUE_INPUT_FIELD_NAME]
        )

-        # Reduce columns.
-        # Note: normally we wait until writing to CSV for this step, but since the file is so huge,
-        # move this up here for performance reasons.
-        df_nri = df_nri[
-            [
-                self.RISK_INDEX_EXPECTED_ANNUAL_LOSS_SCORE_FIELD_NAME,
-                self.EXPECTED_POPULATION_LOSS_RATE_FIELD_NAME,
-                self.EXPECTED_AGRICULTURE_LOSS_RATE_FIELD_NAME,
-                self.EXPECTED_BUILDING_LOSS_RATE_FIELD_NAME,
-                TRACT_COL,
-            ]
-        ]
-
-        # get the full list of Census Block Groups from the ACS data
-        # and extract the Census Tract ID from each Block Group ID
-        df_acs = pd.read_csv(
-            self.BLOCK_GROUP_CSV, dtype={self.GEOID_FIELD_NAME: "string"}
-        )
-        df_acs[TRACT_COL] = df_acs[self.GEOID_FIELD_NAME].str[0:11]
-        df_block_group = df_acs[[self.GEOID_FIELD_NAME, TRACT_COL]]
-
-        # merge NRI data on the Census Tract ID so that each
-        # Block Group inherits the NRI score of its Census Tract
-        self.df = df_block_group.merge(df_nri, how="left", on=TRACT_COL)
+        self.df = df_nri

    def load(self) -> None:
        """Writes the NRI data as a csv to the directory at self.OUTPUT_DIR"""