
Técnicas de ponderación implementadas
En el muestreo de encuestas, la ponderación es uno de los pasos críticos. Para una encuesta dada, a cada unidad de la muestra seleccionada se le asigna un peso que se utiliza para obtener estimaciones de parámetros poblacionales de interés. La producción de estimaciones sin sesgo solo será posible con ponderaciones adecuadas.
Para resolver los problemas derivados de sesgos de selección, de falta de respuesta o de falta de representatividad en las encuestas, se pueden utilizar diversas técnicas de reponderación. Las más sencillas se basan en reponderar la muestra asignando pesos nuevos de forma que la representación de algunos grupos sociodemográficos en la muestra sea la misma que estos grupos tienen en la población. Otras técnicas de ponderación se centran en la estimación de las probabilidades de participar en la encuesta y de responder a las preguntas.
Independientemente del enfoque elegido, la clave para una ponderación eficaz que elimine el sesgo en las encuestas no probabilísticas reside en el uso de información auxiliar eficaz. Esta información auxiliar puede estar disponible en diferentes formatos. Distinguimos tres casos: Información básica, Información parcial, Información completa según la información disponible.
- Información básica: Solo se conocen los totales poblacionales de las variables auxiliares (a menudo denominados totales de control). Las posibles fuentes de información son un censo de la población objetivo, un registro administrativo, etc. Uno de los totales de control más sencillos y utilizados se da cuando la información consiste en recuentos conocidos de un conjunto de grupos de población.
- Información parcial: Los valores de las variables auxiliares están disponibles para cada elemento de una muestra probabilística de referencia. Esta se realiza sobre la misma población objetivo que la encuesta a analizar, con la principal diferencia de que la primera tiene mayor cobertura y tasas de respuesta más altas que la segunda, por lo que es adecuada para representar el comportamiento que debería tener la población objetivo.
- Información completa: Los valores de las variables auxiliares están disponibles para cada elemento de la población, es decir se dispone de un censo de la población objetivo con los valores de algunas variables que pueden ser usadas para ajustar la muestra.
Según el tipo de información auxiliar de que se disponga se podrán aplicar diversos métodos de reponderación. En esta aplicación se han implementado algunas de las principales técnicas de reponderación aplicables en cada situación.
Una vez obtenidos estos pesos nuevos se han de utilizar en los diversos procedimientos de inferencia que el investigador quiera realizar. Por ejemplo, se puede utilizar el estimador de Horvitz-Thompson para obtener estimaciones de la media poblacional (Horvitz y Thompson, 1952) o aplicar una regresión ponderada.
Tras calculados los pesos, la plataforma BETTERSURVEYS permite estudiar las características de los nuevos pesos, proporcionando medidas descriptivas así como representaciones gráficas de ellos. Esto permite detectar posibles problemas de pesos extremos o una gran variabilidad de los pesos que influya en el aumento del error en las estimaciones.
La plataforma también permite comparar entre sí los pesos obtenidos frente a los pesos originales de la muestra, así como comparar entre sí los pesos obtenidos mediante los diferentes procedimientos de reponderación implementados.
Método de Calibración (información básica)
- La técnica de calibración (Deville y Särndal, 1992) es uno de los métodos de reponderación más conocidos y usados en la práctica. En este procedimiento se determinan unos nuevos pesos que deben de cumplir que la estimación del total poblacional que se realice con ellos para las variables auxiliares coincida con los totales reales (poblacionales) de dichas variables. Al mismo tiempo, estos pesos tienen que ser lo más similares posible a los pesos originales de la encuesta que se quiere calibrar, lo cual se hace minimizando una función distancia entre los pesos originales y los nuevos. En Deville y Särndal (1992) se enuncian distintas alternativas para la función distancia. La que se emplea aquí es la distancia Raking (Deville, Särndal y Sautory, 1993), la cual asegura pesos positivos y que los totales estimados para los cruces de variables también coincidan con los totales esperados para dichos cruces en la población. En la práctica es el método de reponderación más usado por los organismos oficiales de encuestas para el tratamiento de la falta de respuesta y de falta de representatividad.
Método Propensity Score Adjustment (PSA) (información parcial)
-
El Propensity Score Adjustment (Lee y Valliant, 2009) es un método por el cual se estiman las probabilidades de participar (originalmente desconocidas) denominadas propensidades para los individuos de la encuesta no probabilística. Para ello, se combina ésta con una encuesta probabilística y se ajusta un modelo predictivo para predecir la probabilidad de que un individuo de la muestra combinada pertenezca a la muestra no probabilística. Este modelo predictivo puede ser una regresión logística o cualquier otro algoritmo predictivo). Al ajustar los modelos, y siguiendo la pseudo log-verosimilitud empírica descrita en Chen,
Li y Wu (2020), se tienen en cuenta los pesos de diseño de la encuesta probabilística para que las propensidades estén escaladas correctamente al conjunto de la población, en lugar de únicamente a la suma de individuos de ambas muestras (lo que daría lugar a probabilidades más grandes de la cuenta). Finalmente, las propensidades se transforman en pesos a aplicar en la encuesta no probabilística. Se han estudiado diversas transformaciones en la literatura; en esta herramienta se emplea la fórmula: Pesos = (1 – propensidad)/propensidad) desarrollada en Schonlau y Couper (2017). De esta manera, se tiene en cuenta que los individuos de la encuesta no probabilística no forman parte de la población objetivo de la encuesta probabilística.
- Propensity Score Adjustment con regresión logística. Seleccionando esta opción se emplea la regresión logística para la predicción de propensidades.
-
Propensity Score Adjustment con Gradient Boosting. Seleccionando esta opción, se emplea el algoritmo de aprendizaje automático Histogram-Based Gradient Boosting Classification Tree (Guryanov, 2019) para la predicción de propensidades. Al ajustar los modelos, y siguiendo las instrucciones de ponderación del algoritmo de Gradient Boosting descritas en Ferri-García et al. (2024), se tienen en cuenta los pesos de diseño de la encuesta probabilística para que las probabilidades estén escaladas correctamente al conjunto de la población.
Método Kernel Weighting (KW) (información parcial)
El método de Kernel Weighting (Wang et al., 2020, Kern et al., 2021 )utiliza las probabilidades de participar en la muestra no probabilística que proporciona el método PSA. Concretamente, calcula las diferencias en dicha probabilidad entre cada unidad de la muestra probabilística y cada unidad de la muestra no probabilística. Estas diferencias se suavizan utilizando una función Kernel, y los pesos finales para un individuo de la muestra no probabilística se obtienen sumando los pesos de diseño de cada unidad de la muestra probabilística multiplicados por la diferencia suavizada de esa unidad con la unidad de la muestra no probabilística cuyo peso vamos a obtener. El método KW utiliza las propensidades como medida de similitud y es menos sensible a la especificación incorrecta del modelo, al tiempo que evita los pesos extremos del método PSA.
Al igual que en el método anterior la plataforma incluye dos variantes de KW:
- Kernel Weighting con regresión logística. Seleccionando esta opción se emplea la regresión logística para la predicción de propensidades como en el trabajo original de Wang et al., 2020.
- Kernel Weighting con Gradient Boosting. Seleccionando esta opción se emplea el algoritmo de aprendizaje automático Histogram-Based Gradient Boosting Classification Tree (Guryanov, 2019) para la predicción de propensidades.
Cuando existe información completa de cada unidad del marco
En esta situación se puede aplicar tanto la calibración (obtenidendo los totales a partir de los datos del censo) como los métodos PSA y KW (considerando el censo como encuesta probabilística de referencia) para calcular los nuevos pesos ajustados.
Estas técnicas de reponderación pueden combinarse entre sí. Por ejemplo, una técnica que ha dado buenos resultados para ajustar el sesgo de selección en encuestas no probabilísticas es la combinación del método PSA con la calibración: en una primera etapa se obtienen los pesos estimados mediante PSA y estos pesos se utilizan como base para la calibración en una segunda etapa (Lee and Valliant, 2009) . Del mismo modo se puede hacer calibración a partir de los pesos obtenidos mediante KW.
Métodos de estimación implementados
En la literatura se han desarrollado diversas estrategias para ajustar los diferentes sesgos de las encuestas, mejorando así la validez de los procedimientos de estimación e inferencia. Existen tres principales estrategias:
- Una opción sencilla es hacer calibración, aunque no es útil para eliminar sesgos de participación en encuestas no probabilísticas.
- Otra estrategia implica el uso de reponderación por PSA: una vez obtenidas las propensidades se puede aplicar el método de ponderación de probabilidad inversa (IPW) para estimar la media u otro parámetro poblacional (Li and Valliant, 2009).
- Una tercera estrategia eficaz es el enfoque de predicción basado en modelos, que asume un modelo paramétrico o no paramétrico compartido para la regresión de resultados entre la población y la muestra. Mediante el modelo de regresión estimado a partir de la encuesta, la media poblacional puede estimarse mediante técnicas como la imputación masiva o Statistical Matching ( Kim et al., 2021, Yang and Kim, 2022) . El problema de esta estrategia es que hay que aplicarla por separado para cada variable objeto de estudio.
La plataforma BETTERSURVEYS tiene implementadas diversas variantes de estas técnicas de estimación:
- El método de calibración: Calcula el estimador de calibración a partir de los pesos obtenidos en el apartado ponderación por calibración
- El método de Statistical Matching usando un modelo de regresión lineal para modelizar la variable objeto de estudio
- El método de Statistical Matching usando un modelo de Gradient Boosting para modelizar la variable objeto de estudio
- El método IPW usando PSA y un modelo de regresión logística para modelizar las propensidades.
- El método IPW usando PSA y un modelo de Gradient Boosting para modelizar las propensidades.
- El método IPW usando KW y un modelo de regresión logística para modelizar las propensidades.
- El método IPW usando KW y un modelo de Gradient Boosting para modelizar las propensidades.
- El método training que utiliza Statistical Matching pero usa los pesos obtenidos de PSA para entrenar el modelo con regresión logística.
- El método training que utiliza Statistical Matching pero usa los pesos obtenidos de PSA para entrenar el modelo con Gradient Boosting.
Los intervalos de confianza son calculados a partir de la aproximación normal, utilizando estimaciones Bootstrap de la varianza. En el caso de utilizar una encuesta probabilística de referencia el programa realiza un doble Bootstrap que permite incorporar la variabilidad inducida por cada muestreo, aunque puede tardar bastante en su ejecución.