Ticket 492: Integrate Area Median Income and Poverty measures into ETL (#660)

* Loading AMI and poverty data
2025-09-12 00:38:19 -07:00 · 2021-09-13 15:36:35 -05:00 · 2021-09-13 15:36:35 -05:00 · 7d13be7651
commit 7d13be7651
parent 125ea610cc
12 changed files with 474 additions and 91 deletions
--- a/data/data-pipeline/data_pipeline/etl/sources/census_acs/etl.py
+++ b/data/data-pipeline/data_pipeline/etl/sources/census_acs/etl.py
@ -4,7 +4,6 @@ import censusdata
 from data_pipeline.etl.base import ExtractTransformLoad
 from data_pipeline.etl.sources.census.etl_utils import get_state_fips_codes
 from data_pipeline.utils import get_module_logger
-from data_pipeline.config import settings

 logger = get_module_logger(__name__)

@ -21,31 +20,38 @@ class CensusACSETL(ExtractTransformLoad):
            "Linguistic isolation (total)"
        )
        self.LINGUISTIC_ISOLATION_FIELDS = [
-            "C16002_001E", # Estimate!!Total
-            "C16002_004E", # Estimate!!Total!!Spanish!!Limited English speaking household
-            "C16002_007E", # Estimate!!Total!!Other Indo-European languages!!Limited English speaking household
-            "C16002_010E", # Estimate!!Total!!Asian and Pacific Island languages!!Limited English speaking household
-            "C16002_013E", # Estimate!!Total!!Other languages!!Limited English speaking household
+            "C16002_001E",  # Estimate!!Total
+            "C16002_004E",  # Estimate!!Total!!Spanish!!Limited English speaking household
+            "C16002_007E",  # Estimate!!Total!!Other Indo-European languages!!Limited English speaking household
+            "C16002_010E",  # Estimate!!Total!!Asian and Pacific Island languages!!Limited English speaking household
+            "C16002_013E",  # Estimate!!Total!!Other languages!!Limited English speaking household
        ]
        self.MEDIAN_INCOME_FIELD = "B19013_001E"
        self.MEDIAN_INCOME_FIELD_NAME = (
            "Median household income in the past 12 months"
        )
-        self.MEDIAN_INCOME_STATE_FIELD_NAME = "Median household income (State)"
-        self.MEDIAN_INCOME_AS_PERCENT_OF_STATE_FIELD_NAME = (
-            "Median household income (% of state median household income)"
+        self.POVERTY_FIELDS = [
+            "C17002_001E",  # Estimate!!Total,
+            "C17002_002E",  # Estimate!!Total!!Under .50
+            "C17002_003E",  # Estimate!!Total!!.50 to .99
+            "C17002_004E",  # Estimate!!Total!!1.00 to 1.24
+            "C17002_005E",  # Estimate!!Total!!1.25 to 1.49
+            "C17002_006E",  # Estimate!!Total!!1.50 to 1.84
+            "C17002_007E",  # Estimate!!Total!!1.85 to 1.99
+        ]
+
+        self.POVERTY_LESS_THAN_100_PERCENT_FPL_FIELD_NAME = (
+            "Percent of individuals < 100% Federal Poverty Line"
        )
+        self.POVERTY_LESS_THAN_150_PERCENT_FPL_FIELD_NAME = (
+            "Percent of individuals < 150% Federal Poverty Line"
+        )
+        self.POVERTY_LESS_THAN_200_PERCENT_FPL_FIELD_NAME = (
+            "Percent of individuals < 200% Federal Poverty Line"
+        )
+
        self.STATE_GEOID_FIELD_NAME = "GEOID2"
        self.df: pd.DataFrame
-        self.state_median_income_df: pd.DataFrame
-
-        self.STATE_MEDIAN_INCOME_FTP_URL = (
-            settings.AWS_JUSTICE40_DATASOURCES_URL
-            + "/2015_to_2019_state_median_income.zip"
-        )
-        self.STATE_MEDIAN_INCOME_FILE_PATH = (
-            self.TMP_PATH / "2015_to_2019_state_median_income.csv"
-        )

    def _fips_from_censusdata_censusgeo(
        self, censusgeo: censusdata.censusgeo
@ -55,11 +61,6 @@ class CensusACSETL(ExtractTransformLoad):
        return fips

    def extract(self) -> None:
-        # Extract state median income
-        super().extract(
-            self.STATE_MEDIAN_INCOME_FTP_URL,
-            self.TMP_PATH,
-        )
        dfs = []
        for fips in get_state_fips_codes(self.DATA_PATH):
            logger.info(
@ -79,7 +80,8 @@ class CensusACSETL(ExtractTransformLoad):
                        "B23025_003E",
                        self.MEDIAN_INCOME_FIELD,
                    ]
-                    + self.LINGUISTIC_ISOLATION_FIELDS,
+                    + self.LINGUISTIC_ISOLATION_FIELDS
+                    + self.POVERTY_FIELDS,
                )
            )

@ -89,12 +91,6 @@ class CensusACSETL(ExtractTransformLoad):
            func=self._fips_from_censusdata_censusgeo
        )

-        self.state_median_income_df = pd.read_csv(
-            # TODO: Replace with reading from S3.
-            filepath_or_buffer=self.STATE_MEDIAN_INCOME_FILE_PATH,
-            dtype={self.STATE_GEOID_FIELD_NAME: "string"},
-        )
-
    def transform(self) -> None:
        logger.info("Starting Census ACS Transform")

@ -103,24 +99,6 @@ class CensusACSETL(ExtractTransformLoad):
            self.MEDIAN_INCOME_FIELD
        ]

-        # TODO: handle null values for CBG median income, which are `-666666666`.
-
-        # Join state data on CBG data:
-        self.df[self.STATE_GEOID_FIELD_NAME] = (
-            self.df[self.GEOID_FIELD_NAME].astype(str).str[0:2]
-        )
-        self.df = self.df.merge(
-            self.state_median_income_df,
-            how="left",
-            on=self.STATE_GEOID_FIELD_NAME,
-        )
-
-        # Calculate the income of the block group as a fraction of the state income:
-        self.df[self.MEDIAN_INCOME_AS_PERCENT_OF_STATE_FIELD_NAME] = (
-            self.df[self.MEDIAN_INCOME_FIELD_NAME]
-            / self.df[self.MEDIAN_INCOME_STATE_FIELD_NAME]
-        )
-
        # Calculate percent unemployment.
        # TODO: remove small-sample data that should be `None` instead of a high-variance fraction.
        self.df[self.UNEMPLOYED_FIELD_NAME] = (
@ -145,6 +123,27 @@ class CensusACSETL(ExtractTransformLoad):

        self.df[self.LINGUISTIC_ISOLATION_FIELD_NAME].describe()

+        # Calculate percent at different poverty thresholds
+        self.df[self.POVERTY_LESS_THAN_100_PERCENT_FPL_FIELD_NAME] = (
+            self.df["C17002_002E"] + self.df["C17002_003E"]
+        ) / self.df["C17002_001E"]
+
+        self.df[self.POVERTY_LESS_THAN_150_PERCENT_FPL_FIELD_NAME] = (
+            self.df["C17002_002E"]
+            + self.df["C17002_003E"]
+            + self.df["C17002_004E"]
+            + self.df["C17002_005E"]
+        ) / self.df["C17002_001E"]
+
+        self.df[self.POVERTY_LESS_THAN_200_PERCENT_FPL_FIELD_NAME] = (
+            self.df["C17002_002E"]
+            + self.df["C17002_003E"]
+            + self.df["C17002_004E"]
+            + self.df["C17002_005E"]
+            + self.df["C17002_006E"]
+            + self.df["C17002_007E"]
+        ) / self.df["C17002_001E"]
+
    def load(self) -> None:
        logger.info("Saving Census ACS Data")

@ -156,8 +155,9 @@ class CensusACSETL(ExtractTransformLoad):
            self.UNEMPLOYED_FIELD_NAME,
            self.LINGUISTIC_ISOLATION_FIELD_NAME,
            self.MEDIAN_INCOME_FIELD_NAME,
-            self.MEDIAN_INCOME_STATE_FIELD_NAME,
-            self.MEDIAN_INCOME_AS_PERCENT_OF_STATE_FIELD_NAME,
+            self.POVERTY_LESS_THAN_100_PERCENT_FPL_FIELD_NAME,
+            self.POVERTY_LESS_THAN_150_PERCENT_FPL_FIELD_NAME,
+            self.POVERTY_LESS_THAN_200_PERCENT_FPL_FIELD_NAME,
        ]

        self.df[columns_to_include].to_csv(