Portabilidad de aplicaciones en astrofísica a la infraestructura de computación grid
- RODON ORTIZ, JOSE RAMON
- Julio Ortega Lopera Codirector
- Juan Carlos Suárez Yanes Codirector
Universidad de defensa: Universidad de Granada
Fecha de defensa: 15 de enero de 2016
- Rafael Garrido Haba Presidente/a
- Antonio Francisco Díaz García Secretario
- Consolación Gil Montoya Vocal
- Antonio García Hernández Vocal
- Inmaculada Domínguez Aguilera Vocal
Tipo: Tesis
Resumen
Introducción Es bien conocida la importancia de la computación en la resolución de problemas, como simulaciones (de modelos físicos, de entornos, estadísticas, etc), el procesamiento de imágenes, la compresión de información, el almacenamiento, el análisis de datos, etc. Esto es incluso más evidente en ciencia. La necesidad de altas prestaciones de computación y almacenamiento de datos en la comunidad científica ha promovido la búsqueda de nuevas soluciones computacionales. Por ejemplo, la biología [CAR14] o la física de altas energías [DAG12] son dos disciplinas científicas donde la computación de alto rendimiento es cada vez más necesaria. Este trabajo se enmarca en el campo de la Astrofísica, donde el crecimiento exponencial de datos observacionales hacen de la computación distribuida prácticamente un requerimiento para la óptima interpretación de dichos datos en tiempos razonables. En concreto, esta tesis cubre diversos campos de la Astronomía, desde la física estelar [GAR13] y planetaria [DAB14] hasta análisis de galaxias [PER13]. Esta tesis se centra en el uso de infraestructuras distribuidas para coordinar recursos que no puedan manejarse mediante un control centralizado [FOS02]. Concretamente, aquí trabajamos con la infraestructura Grid, que no sólo aporta mayores recursos computacionales y de almacenamiento, sino también disponibilidad y fiabilidad en archivos críticos. Objetivos El objetivo principal de esta tesis doctoral es el desarrollo de una metodología que permita el uso eficiente de plataformas distribuidas en en diversas disciplinas astrofísicas. Esta eficiencia se busca mediante la optimización de los tres pasos que constituyen la portabilidad de una aplicación a una infraestructura de computación distribuida: ¿ El análisis de idoneidad de la infraestructura de computación distribuida. ¿ La paralelización del problema. ¿ La gestión de la ejecución en una plataforma distribuida de computación. Desarrollo de una herramienta robusta de gestión de la computación en plataformas distribuidas, versátil y modular que garantice no sólo la portabilidad de aplicaciones (en este caso astrofísicas) sino su manejo por usuarios no expertos, así como su integración en paquetes de software científico. Por último, el análisis de rendimiento de la metodología aplicada a casos científicos concretos. Conclusiones 1. Hemos desarrollado una metodología basada en la optimización de los elementos de portabilidad de herramientas a entornos de computación distribuidos, incluido la gestión de la computación. La búsqueda de una metodología ya desarrollada que proporcionara las tres optimizaciones descritas como objetivo de esta tesis fue infructuosa, haciéndose necesario realizar una metodología novedosa, coherente y autoconsistente y focalizada en el ámbito de aplicaciones científicas. 2. Hemos desarrollado un paquete de herramientas para el uso de Grid, llamado GSG, ampliando la usabilidad, la monitorización, la información acerca del estado, la seguridad, la optimización en la distribución de tareas, y el envío de trabajos frente al uso del middleware estándar de Grid. 3. Gracias a GSG, hemos minimizado el tiempo de gestión en entornos distribuidos, tanto de computadora como de usuario. Desarrollamos GSG con una estructura modular preparada para su integración en aplicaciones. Al implementar este desarrollo, los usuarios científicos se han beneficiado al aumentar la usabilidad del entorno Grid, viéndose incrementada la productividad científica. 4. Hemos aplicado la metodología a una muestra de aplicaciones astrofísicas para las que el uso de plataformas distribuidas es imprescindible. Éstas cubren una tipología de requerimientos computacionales y de almacenamiento muy diversa y complementaria, lo que nos ha permitido evaluar mejor la eficiencia del método. 5. Para cada una de las aplicaciones adaptadas a Grid, hemos generado una solución específica que ha permitido reducir significativamente el tiempo de computación y aumentar la capacidad de almacenamiento en todos los casos estudiados, llegando a multiplicar los recursos disponibles. Todos los estudios científicos descritos en esta memoria no se hubieran podido realizar sin la aplicación de esta metodología debido a los altos requerimientos computacionales. 6. Se ha realizado diversos análisis comparativos entre un servidor dedicado no distribuido frente a una estructura distribuida Grid durante la ejecución de aplicaciones con diferentes necesidades computacionales y de almacenamiento. La aplicación de una metodología coherente y autoconsistente optimiza al máximo el uso de entornos distribuidos, acercándose en todos los casos analizados a la cota de máxima de mejora impuesta por la infraestructura utilizada. 7. Hemos desarrollado un servidor de aplicaciones astrosismológicas, que denominados ATILA, para el tratamiento y la ejecución de este tipo de aplicaciones. Este servidor incorpora funciones como la utilización de modelos de ejecución de flujos de datos, la generación de perfiles físicos, la generación de modelos astrosismológicos, la clasificación de los datos o el uso de múltiples infraestructuras distribuidas. Además, hemos integrado el paquete de herramientas GSG en servidor de aplicaciones ATILA, lo que permite usar automáticamente de las funcionalidades de GSG en el entorno ATILA. 8. Como consecuencia de este desarrollo, se ha mejorado la usabilidad y el tiempo de ejecución del servidor de aplicaciones ATILA al integrar el sistema GSG. Para llegar a esta conclusión se han realizado experimentos comparativos de ATILA con GSG integrado, frente al uso independiente de ATILA y GSG. Bibliografía [CAR14] Carapito C. et Al. ¿MSDA, a proteomics software suite for in-depth Mass Spectrometry Data Analysis using grid computing¿ Proteomics. 14(9):1014-9. doi: 10.1002/pmic.201300415. 2014. [DAB14] Dabrowska, D.D., Rodón, J.R. et al. ¿Scattering matrices of Martian dust analogs at 488 nm 647 nm.¿ A&A, 2014. [DAG12] Dagmar Adamová, Pablo Saiz ¿Grid Computing in High Energy Physics Experiments¿ INTECH Open Access Publisher, 2012 [FOS02] Foster, I. ¿The Grid: A new infrastructure for 21st century science¿. PHYSICS TODAY. Vol.55 Issue: 2 pp. 42-47. 2002 [GAR13] García Hernández, A. Rodón, JR et al. ¿An in-depth study of HD 174966 with CoRoT photometry and HARPS spectroscopy. Large separation as a new observable for stars¿. Astronomy & Astrophysics, Vol. 559 pp. 2013 [PER13] Perez, E. Rodón, JR. et al. ¿The Evolution of Galaxies Resolved in Space and Time: A View of Inside-out Growth from the CALIFA Survey¿. Astrophysical Journal Letters. Vol: 764 Iss.1 Article Number: L1 2013.