Statistical methods to improve estimates obtained from probability and nonprobability samples

  1. Ferri García, Ramón
Dirigida por:
  1. María del Mar Rueda García Directora

Universidad de defensa: Universidad de Granada

Fecha de defensa: 28 de junio de 2021

Tribunal:
  1. Ana María Aguilera del Pino Presidenta
  2. María Jesús García Ligero Ramírez Secretaria
  3. Domingo Morales González Vocal
  4. Yves Tillé Vocal
  5. María José Lombardía Vocal
Departamento:
  1. ESTADÍSTICA E INVESTIGACIÓN OPERATIVA

Tipo: Tesis

Resumen

Desde su desarrollo teórico en la primera mitad del siglo XX, las encuestas han sido el método estándar de obtención de información de una población de interés. Las propiedades estadísticas de los estimadores de parámetros poblacionales, como los totales, las medias o las proporciones, permiten a los investigadores hacer inferencia sobre una población objetivo utilizando únicamente una muestra reducida de ella, así como obtener una medida de la variabilidad de las estimaciones. Las primeras encuestas fueron administradas entrevistando directamente a los encuestados en persona, un modo conocido como la encuesta cara a cara. Este modo de administración ha sido considerado como la práctica "gold standard.en encuestas, pero sus crecientes costes y los avances en las tecnologías de la comunicación favorecieron el surgimiento de encuestas telef ónicas y cuestionarios autoadministrados, como los empleados en encuestas por correo. En las últimas décadas, estos modos también han experimentado un incremento en costes y problemas de cobertura, así como un declive de las tasas de respuesta. De nuevo, el desarrollo de nuevas tecnologías ha sido el factor que ha permitido la aparición de un nuevo conjunto de técnicas de administraci ón de cuestionarios conocido como las encuestas online. Algunos ejemplos incluyen las encuestas por SMS, las encuestas por e-mail, las encuestas por smartphone y especialmente las encuestas Web, que son aquellas que se administran y se completan en navegadores web. Las encuestas online incluyen muchas ventajas para los investigadores de cara a realizar sus estudios. El reclutamiento de participantes puede ser realizado mucho más rápido que en otros modos de encuesta, y con costes ampliamente reducidos. Además, el uso de la tecnología permite a los investigadores diseñar cuestionarios con un espectro más amplio de posibilidades que en las encuestas cara a cara, telefónicas o por correo. Por otra parte, las encuestas online presentan algunas fuentes de error relevantes. Por de nición, estas encuestas sólo pueden llegar hasta usuarios online o personas con algún tipo de acceso a las redes de las tecnologías de la información y comunicación. Este es un importante problema de cobertura que puede traducirse en estimaciones sesgadas si la composición de la población o ine di ere signi cativamente de la de la población online, lo que suele ser el caso dado que las diferencias están asociadas a variables demográ cas como el nivel educativo o la edad. Junto a ello, la imposibilidad de encontrar algún marco muestral able de la población online contribuye al uso de técnicas de autoselección en las encuestas online. Esta práctica constituye un ejemplo de muestreo no probabil ístico donde la varianza no puede ser calculada por la imposibilidad de las probabilidades de inclusión de cumplir los requerimientos de un muestreo probabilístico. La principal consecuencia de la aplicación de estos métodos es el sesgo de selección, que puede ser muy relevante si existe alguna relaci ón entre la propensión a participar (autoseleccionarse) en la encuesta y las variables de interés del estudio. En aquellos casos en los que haya un marco muestral disponible para una encuesta online, y por tanto sea posible diseñar un esquema de muestreo, el sesgo de no respuesta también es proclive a aparecer. Este problema es particularmente relevante en las encuestas de paneles online, y ha sido asociado a factores como la longitud del cuestionario, los incentivos o los recordatorios de invitación. Se han desarrollado algunos métodos en la literatura para atajar estos problemas. El sesgo de no respuesta es un problema común a todas las encuestas probabilísticas, y en consecuencia se han desarrollado muchos métodos para mitigarlo, de los cuales se pueden destacar las técnicas de imputación y reponderación. La corrección de los sesgos de selección y cobertura depende de la informaci ón auxiliar disponible. Si sólo están disponibles los totales poblacionales para un conjunto de covariables, se pueden aplicar métodos de calibración; se ha comprobado que éstos reducen el error de cobertura, pero su uso en la corrección del sesgo de autoselección en las encuestas online no está claro. En algunos casos, una encuesta probabilística de referencia, llevada a cabo en la misma población objetivo, está disponible. La variable de interés no ha sido medida en ella, pero si hay disponibles algunas covariables auxiliares (también medidas en la encuesta online), se pueden considerar algunos ajustes. Los más conocidos son el Propensity Score Adjustment (PSA) y el Statistical Matching o Mass Imputation. Estos ajustes se centran en la mitigación del sesgo de selección. Finalmente, si está disponible un censo de la población para algunas covariables auxiliares (también medidas en la encuesta online), se pueden considerar métodos basados en los modelos de superpoblación, como los estimadores modelo basado, modelo asistido y modelo calibrado. Estos métodos se han considerado principalmente en contextos de muestreo probabilístico, aunque algunos trabajos recientes adaptan algunos de ellos a problemas de muestreo no probabilístico. Para contribuir al desarrollo de las encuestas online, proponemos algunos avances metodológicos, como el desarrollo de estimadores de parámetros generales y el estimador de su varianza, el estudio de las propiedades de la combinación de PSA y calibración, el uso de técnicas modernas de predicci ón y selección de variables en PSA, y la adaptación de todos los métodos de modelos de superpoblación al contexto del muestreo no probabilístico considerando asimismo técnicas modernas de predicción. Adaptamos también la estrategia de suavizado de pesos, desarrollada para incrementar la e ciencia de los estimadores en encuestas probabilísticas multipropósito, al contexto del muestreo no probabilístico. Adaptar los ajustes de ponderación existentes para estas muestras a las encuestas multiprop ósito podría ser la clave para adoptarlas en la producción de estadísticas o ciales o incluirlas en estudios a gran escala. Finalmente, empleamos PSA en el estudio de variables relacionadas con la salud en profesionales sanitarios utilizando datos de una encuesta online como la principal fuente de información y el censo de la población como la muestra de referencia. Comparamos los resultados al caso sin ajustar y evaluamos el rendimiento del mencionado ajuste. Nota: Esta tesis se presenta como un compendio de 7 publicaciones relacionadas con los contenidos de la tesis. La versión íntegra de los artículos se incluye en los Apéndices A1 - A7.