Nuevas técnicas de investigación por muestreo aplicadas a encuestas de saludcalibración de estimadores
- CABRERA LEÓN, ANDRÉS
- María del Mar Rueda García Directora
- Alejandro R. Jadad Codirector/a
- Antonio Daponte Codina Codirector/a
Universidad de defensa: Universidad de Granada
Fecha de defensa: 25 de febrero de 2016
- Rafael Pérez Ocón Presidente
- Francisco de Asís Torres Ruiz Secretario
- Sergio Martínez Puertas Vocal
- Francesco Perri Pier Vocal
- Marc Sáez Zafra Vocal
Tipo: Tesis
Resumen
Introduction This doctoral thesis is entitled “New sampling research techniques applied to health surveys: calibration of estimators”. One of the main requirements in scientific research is to achieve the maximum measurement accuracy. Variations in measurements are characteristic of medicine and other biological sciences, but there are additional sources of variation that result from the act of measuring itself, i.e., the precision and validity. Precision (also known as reliability, reproducibility, concordance, or agreement) is associated with random error and is therefore unpredictable and inevitable, but it is estimable. For its part, validity is associated with systematic error or bias and is predictable and correctable. Precision estimation and control are often related to Statistics, while validity estimation and control are often related to Epidemiology. Relevant sampling research methodologies developed over the past 25 years that both minimize bias and increase the precision of estimations for variables measured through samples, include: - Randomized response models: these enhance anonymity protection and achieve superior reliability and higher response rates. - Multiple frames: these overcome problems caused by the lack of coverage in certain sampling frames, including different data gathering procedures. This methodology is also useful for studies on diseases or conditions with a low prevalence. - Indirect sampling (nexuses): this is used to analyze social networks according to the relationship or nexus among the different members forming the network. - Calibration of estimators: this permits reducing estimator error, thereby offering superior results precision and adjusting sample weights as a function of relevant population characteristics, ensuring superior estimation validity. The aims of this doctoral thesis were to review and develop this last methodology, to apply it in population-based health surveys with undercoverage problems and to assess different calibration approaches according to their standard errors. The research question was whether the application of calibration adjustments to estimate the prevalence of a disease increases the validity of its generalization and improves the accuracy of the estimation. Development This doctoral thesis is structured into the following four parts: - Part I Research by sampling: Sampling is one of the research methodologies most widely used by companies, institutions, statistical offices, and public organisms, especially in well-known population-based surveys. This first part deals with health surveys (chapter 1); it begins by connecting some of the most relevant population-based health surveys, continues by describing the basic fields of knowledge that form the development of a survey, and ends by centering on the main reasons for the implementation of a survey and enumerating some of the main nonsampling errors that determine its quality. In addition, it reports on the opportunities provided by mHealth or Big Data and introduces the concept of estimator calibration for the first time. - Part II Indirect estimation methods: Auxiliary information is that provided by surveys on variables related to the study variable, which can in turn also be obtained for the whole study population. The way in which this auxiliary information is used gives rise to different parameter estimation methods, making them more accurate and valid. This second part is divided into three chapters. The first (chapter 2), on auxiliary information, begins with the historical development of the main methods used to include auxiliary information in the estimation stage, continues by explaining when to use it, and ends by introducing the most frequently used indirect estimators. The second chapter (chapter 3) introduces the method of empirical likelihood and modifications of its function, (giving rise for example to the model-calibrated pseudo-empirical likelihood estimator) and describes its application in different sample designs. Finally, the third chapter (chapter 4) introduces non-parametric regression and its advantages and estimators, such as the model-assisted or non-parametric calibration. This chapter and this second part end with the utilization of these estimators for both quantitative and qualitative auxiliary information. - Part III Calibration of estimators: This is one of the most recent techniques for more valid and accurate parameter estimation. It offers a general framework for weighting with a simple and practical approximation to incorporate auxiliary information into the estimation. This third part describes the state of the art in calibration techniques; it also comprises three chapters. The first (chapter 5) reports how to construct an estimator of calibration and its conditions, and describes different estimators as a function of the distance selected and the construction process. The second (chapter 6) develops the case of calibration applied to imperfect frames, i.e., when there are coverage errors. Thus, it describes the different types of errors and how to reduce them for one or multiple imperfect frames, using calibration estimators. Finally, the third chapter (chapter 7) briefly outlines some of the specific Software packages for the calibration of estimators, focusing on free R Software and its calibration-related packages. - Part IV Application of the calibration methods: Statistical agencies increasingly apply estimator calibration methodologies for their main surveys. This last part includes two chapters on the application of calibration in two real population-based surveys. Calibration is applied to estimate the prevalence of infertility in the first chapter (chapter 8) and to estimate the prevalence of disabling chronic pain in the second (chapter 9). Both chapters are structured according to the sections corresponding to an original scientific paper in the Health Sciences field. Accordingly, the first begins by introducing the theoretical framework of sterility and its prevalence and continues with the methodology and analysis of the Infertility Survey (Huelva, 2011) and the results obtained, finally analyzing the gain in accuracy after applying linear calibration. The second introduces the theoretical framework of chronic pain, its prevalence, and associated factors and continues with the methodology and analysis of the Andalusian Health Survey (2011) and the results obtained, analyzing the gain in accuracy for disabling chronic pain prevalence after applying linear calibration and the assisted model. Both chapters end with a discussion of the results and study limitations and strengths, and conclusions. The above parts are completed with an Appendix A, describing the code used in statistic R Software as well as a section giving all the references used. Present and future contributions This is the first time that a calibration technique has been applied to the surveys used in this work and, to the best of our knowledge, the first time that model-assisted calibration has been applied to a population-based health survey. This approach is being increasingly adopted in social sciences, especially in studies with small samples or with coverage or non-response problems. The methodology developed in this doctoral thesis may serve as a model for application in other epidemiological studies. Some of the contents gave rise to the presentation of various congress papers and the following original scientific papers: «Calibrated prevalence of infertility in 30- to 49-year-old women according to different approaches: a cross-sectional population-based study” published in Human Reproduction (FI: 4,585; D1; Ranking: 5/79; A. Cabrera-León et al., 2015), «Disabling chronic pain: characteristics, multimorbidity, and associated factors based on a face-to-face cross-sectional population study” under review and «Calibrated prevalence of Disabling chronic pain» under review. The PhD candidate also presented this doctoral thesis at the Conference on Public Health Excellence Research (Menorca, September 2015), where it was very highly rated by the reviewers. They identified promising possibilities for application in epidemiology, not only in observational population-based cross-sectional studies, as in the present doctoral thesis, but also in other populations (e.g., hospitals or schools) and epidemiologic designs (e.g., case-controls or cohorts). In this respect, the PhD candidate is leading several studies on which calibration technique is also applied. The aim of one of them is to estimate, using calibration, the change in a variable (self-rated general health) measured at two different times in the same cross-sectional survey (Spanish Health Survey) and to compare the results with those obtained using a different statistical technique (exact matching and propensity score-matching). The candidate has also participated in the different editions of the Andalusian Health Survey, adjusting the design weights through calibration in its latest editions (2011 and 2015/16). The aim of another study is to measure the self-rated happiness of healthcare professionals from two different populations (Andalusia and Colombia), applying propensity score-matching and calibration to reduce the selection bias as well as problems of undercoverage and nonresponse. He is also participating in another initiative called «The Health of Humanity Project». It researches on health-rated through a database with information from 116 countries. Conclusion Calibration of estimators is presented as a powerful statistical methodology for application in the field of Health Sciences. With wide statistical and computer development, it comprises multiple techniques that improve the accuracy and validity of estimations, providing consistency in the numbers presented and in those from other sources. *************************************** Introducción La tesis doctoral a defender se titula «Nuevas técnicas de investigación por muestreo aplicadas a encuestas de salud: calibración de estimadores». Uno de los principales requisitos en la investigación científica es conseguir la máxima exactitud al medir. La variación en las medidas es propia de la medicina y de cualquier otra ciencia biológica, pero hay otras fuentes de variación que se mezclan con la anterior y que vienen dadas por el propio acto de la medición. Estas son: la precisión y la validez. Así pues, por un lado la precisión (también conocida como fiabilidad, reproducibilidad, concordancia o acuerdo) está asociada al error aleatorio, siendo por tanto impredecible e inevitable, aunque estimable. Por otro lado, la validez está asociada al error sistemático o sesgo, y es predecible y corregible. Se suele relacionar la estimación y control de la precisión con la Estadística, y las de la validez con la Epidemiología. Algunas de las metodologías de investigación por muestreo desarrolladas en los últimos 25 años que, por un lado, minimizan el sesgo y, por otro, aumentan la precisión de las estimaciones realizadas sobre parámetros medidos a través de muestras, son: - Modelos de respuesta aleatorizada: útiles para aumentar la protección del anonimato, consiguiendo así una mayor fiabilidad y tasa en la respuesta. - Marcos múltiples: permiten superar problemas debidos a la falta de cobertura de determinados marcos muestrales, incorporando distintos procedimientos para la recogida de datos. También esta metodología es útil para realizar estudios sobre enfermedades o condiciones poco prevalentes. - Muestreo indirecto (de nexos): es utilizado para analizar redes sociales mediante la relación o nexo que existe entre los diferentes miembros que la componen. - Calibración de estimadores: permite reducir el error de los estimadores, ofreciendo así mayor precisión en los resultados, y ajustar los pesos muestrales en función de características poblacionales relevantes, asegurando así mayor validez en las estimaciones. Revisar, desarrollar y aplicar en encuestas poblacionales de salud esta última metodología sobre calibración de estimadores es el objeto de investigación de esta tesis doctoral que trata de responder a la pregunta de investigación sobre si los ajustes por calibración aplicada a la estimación de la prevalencia de enfermedades aumenta la validez de su generalización así como su precisión. Desarrollo Para ello, esta tesis doctoral se estructura en las siguientes cuatro partes: - Parte I. La investigación por muestreo: El muestreo es una de las metodologías de investigación más ampliamente utilizada por empresas, instituciones, oficinas de estadística y organismos públicos, sobre todo a través de las conocidas encuestas de base poblacional. Esta primera parte contiene el Capítulo 1 que comienza enlazando a algunas de las encuestas poblacionales de salud más relevantes, continúa describiendo las áreas básicas de conocimiento que componen el desarrollo de una encuesta y finaliza deteniéndose en las principales razones que justifican la realización de una encuesta, así como describiendo algunos de los principales errores ajenos al muestreo que determinan su calidad. Además, se mencionan las oportunidades que brindan la llamada mHealth o el Big Data y se introduce por primera vez el concepto de calibración de estimadores. - Parte II. Métodos de estimación indirectos: La información auxiliar es la proporcionada por las encuestas sobre variables relacionadas con la variable de estudio que, a su vez, también pueden ser obtenidas para la totalidad de la población de estudio. La forma de utilizar esta información auxiliar da lugar a diferentes métodos de estimación de los parámetros, haciéndolos más precisos y válidos. Esta segunda parte se divide en 3 capítulos. El Capítulo 2 comienza con un desarrollo histórico de los primeros métodos utilizados para incorporar la información auxiliar en la fase de estimación, continúa explicando cuándo utilizarla y finaliza introduciendo los estimadores indirectos más utilizados. El Capítulo 3 introduce el método de verosimilitud empírica, las modificaciones de su función (que da lugar por ejemplo al estimador de verosimilitud pseudo empírica modelo-calibrado) y su aplicación bajo diferentes diseños muestrales. Por último, el Capítulo 4 introduce la regresión no paramétrica, sus ventajas y estimadores como el de modelo asistido o el de calibración no paramétrico. Este capítulo, así como esta segunda parte, finaliza con la utilización de esos estimadores no solo con información auxiliar cuantitativa, sino también cualitativa. - Parte III. Calibración de estimadores: Se trata de una de las más recientes técnicas para hacer más válida y precisa la estimación de un parámetro. Ofrece un marco general sobre ponderación con una aproximación simple y práctica para incorporar información auxiliar a la estimación. Esta tercera parte desarrolla el estado del arte de las técnicas de calibración y se compone igualmente de 3 capítulos. El Capítulo 5 introduce cómo construir un estimador de calibración, sus condiciones y diferentes estimadores en función de la distancia elegida así como del proceso de construcción. El Capítulo 6 desarrolla el caso de la calibración aplicada a marcos imperfectos, es decir, cuando se dan errores de cobertura. Así pues, se describen los diferentes tipos de esos errores y cómo reducirlos para los casos de uno o múltiples marcos imperfectos a través de los estimadores de calibración. Por último, el Capítulo 7 describe brevemente algunos de los Softwares específicos para la técnica de calibración de estimadores, desarrollando en profundidad el Software libre R y sus paquetes relacionados con calibración. - Parte IV. Aplicación de los métodos de calibración: Son cada vez más las agencias estadísticas que aplican las metodologías de calibración de estimadores para sus principales encuestas. Esta última parte consta de dos capítulos correspondientes a la aplicación de la calibración a dos casos reales de encuestas de base poblacional. El Capítulo 8 aplica la calibración en marcos imperfectos para estimar la prevalencia de la esterilidad y el Capítulo 9 para estimar la prevalencia del dolor crónico discapacitante. Ambos capítulos se estructuran en los apartados comunes a un artículo científico original en el ámbito de Ciencias de la Salud. Así pues, el Capítulo 8 comienza introduciendo el marco teórico de la esterilidad y su prevalencia, continúa con la metodología y análisis de la Encuesta de Esterilidad (Huelva, 2011) para dar paso a los resultados obtenidos y realizando una comparativa en la ganancia de precisión tras aplicar la calibración lineal. El Capítulo 9 comienza introduciendo el marco teórico del dolor crónico, su prevalencia y factores asociados; continúa con la metodología y análisis estadístico de la Encuesta Andaluza de Salud (2011) para dar paso a los resultados obtenidos. También se realiza una comparativa en la ganancia de precisión de la prevalencia del dolor crónico discapacitante según calibración lineal y modelo asistida. Ambos capítulos terminan con la discusión de los resultados, las limitaciones y fortalezas, y con las conclusiones. Las partes anteriores se completan con un Apéndice que incluye el código utilizado en el Software estadístico R y los cuestionarios de la encuesta de Esterilidad y de la Encuesta Andaluza de Salud, así como con un apartado con toda la bibliografía utilizada. Contribuciones actuales y futuras Esta es la primera vez que la técnica de calibración se ha aplicado a las encuestas utilizadas en este trabajo y, hasta dónde sabemos, la primera vez que la calibración modelo-asistida se ha aplicado a una encuesta poblacional de salud. Esta aproximación está siendo cada vez más adoptada en las ciencias sociales, especialmente en estudios con muestras pequeñas o con problemas de cobertura o de falta de respuesta. La metodología desarrollada en esta tesis doctoral puede servir como modelo para ser aplicado a otros estudios epidemiológicos. Parte del contenido de esta tesis ha dado lugar a la presentación de varias comunicaciones y a la producción de los artículos científicos originales: «Calibrated prevalence of infertility in 30- to 49-year-old women according to different approaches: a cross-sectional population-based study» publicado en Human Reproduction. «Disabling chronic pain: characteristics, multimorbidity, and associated factors based on a face-to-face cross-sectional population study» en revisión y «Calibrated prevalence of Disabling chronic pain» en revisión. La tesis fue también presentada por el candidato a doctor en el Encuentro para la Excelencia de la Investigación en Salud Pública (Menorca, septiembre 2015), en el que se identificaron prometedoras oportunidades de aplicación a la epidemiología, no solamente en estudios poblacionales, observacionales y transversales, como en la presente tesis doctoral, sino también en otras poblaciones (p.ej. hospitalarias o escolares) y a otros diseños epidemiológicos (p.ej. casos y controles o cohortes). Conclusión La calibración de estimadores se presenta como una metodología estadística poderosa para ser aplicada en el ámbito de las Ciencias de la Salud. Con amplio desarrollo estadístico e informático, comprende múltiples técnicas que mejoran la precisión y validez de las estimaciones cuando se dan errores ajenos al muestreo, como el de cobertura, proporcionando consistencia entre las cifras presentadas y las procedentes de otras fuentes.