Solving real-world finance problems by means of data mining algorithms using high-performance computing platforms

Safi, Salah Al-Deen Taha

Solving real-world finance problems by means of data mining algorithms using high-performance computing platforms

Safi, Salah Al-Deen Taha

Dirigida por:

Pedro Ángel Castillo Valdivieso Codirector
Hossam Faris Codirector/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 22 de mayo de 2023

Tribunal:

Francisco Fernández de Vega Presidente/a
M. I. García Arenas Secretaria
José Ignacio Hidalgo Pérez Vocal

Tipo: Tesis

Teseo: 790953 DIALNET DIGIBUG editor

Resumen

Actualmente vivimos en la era de los datos. Puede que a algunos les sorprenda saber que el ser humano lleva utilizando datos para tomar decisiones desde la noche de los tiempos. Todos los días utilizamos datos para juzgar cosas aparentemente sencillas, como qué ropa elegir en función del tiempo que hace o cómo ir al trabajo en función del tráfico. Gracias a los continuos avances tecnológicos, actualmente se genera, recopila, almacena y analiza una enorme cantidad de datos. Además, la tecnología también ha avanzado a lo largo de los años para proporcionarnos los medios y las herramientas que necesitamos para recopilar, almacenar, mostrar, comprender y aplicar datos para desarrollar predicciones que ayuden a resolver problemas del mundo real. Además, el aprendizaje automático, un campo que ha crecido tan rápidament e en los últimos tiempos, se basa en el análisis de datos computacionalmente para predecir resultados. El problema de la predicción de la quiebra financiera es esencial en el sector empresarial porque tiene consecuencias en bancos, empresas y organizaciones, siendo el tema principal de esta tesis. Una mala previsión de las dificultades financieras puede acarrear importantes pérdidas económicas. Por ello, se han hecho grandes intentos de crear modelos de predicción que ayuden a mejorar los resultados, ayudando a los responsables de la toma de decisiones a prever incidentes antes de que ocurran y evitando que la empresa entre en quiebra. Desde el punto de vista del aprendizaje automático, la predicción de dificultades financieras se considera un problema de clasificación binaria, en el que el conjunto de datos suele estar muy desequilibrado, lo que significa que la gran mayoría de las empresas son solventes, mientras que sólo un número ínfimo son insolventes. Esto lo convierte en un problema muy difícil. Por ello, en las últimas décadas se han creado diversas técnicas y algoritmos para clasificar conjuntos de datos desbalanceados. Se pueden reconocer tres técnicas principales para el aprendizaje a partir de datos desbalanceados: Técnicas a nivel de datos, también conocidas como métodos externos que modifican las distribuciones de las instancias y pueden excluir muestras problemáticas; técnicas que modifican los algoritmos de aprendizaje existentes, a veces denominadas técnicas internas, para extraer datos con distribuciones sesgadas y disminuir su sesgo hacia las instancias mayoritarias; y por último, estrategias híbridas combinan las ventajas de las dos técnicas anteriores. En esta tesis abordamos los métodos externos y los métodos internos por separado. En el caso de los métodos externos se busca mejorar la capacidad de los modelos de predicción de quiebra empresarial para predecir la quiebra abordando el problema de la distribución desigual. En concreto, nos centramos en aplicar y contrastar once técnicas avanzadas de remuestreo para preprocesar los datos con el fin de reducir su ratio de desbalanceo. Tras el balanceo de los datos, creamos los árboles de decisión para predecir la quiebra empresarial utilizando el clasificador C4.5. Para este estudio se utilizó un conjunto de datos reales procedentes del mercado español. Debido a la distribución extremadamente desbalanceada del conjunto de datos, en el que los casos insolventes representan sólo el 2% de toda la muestra, se considera que es un problema muy complicado. De los resultados obtenidos observamos una mejora sustancial con respecto a las medidas de evaluación, que significa una disminución del error en clasificación de ocurrencias positivas, lo que supone el factor de riesgo más significativo. Por otra parte, en el caso de los métodos internos, las redes neuronales artificiales basadas en la optimización metaheurística han mostrado notables resultados en diversas aplicaciones, incluidos los problemas de clasificación. Aún no se ha reflexionado más sobre el empleo de una función de adecuación sensible a los costes en las redes neuronales artificiales basadas en la optimización metaheurística para abordar el reto de predecir la quiebra empresarial. En esta tesis se proponen dos nuevos modelos predictivos complejos, llamados ENS_PSONNcost y ENS_CSONNcost. Específicamente se trata de redes neuronales artificiales basadas en la optimización metaheurística que utilizan el optimizador de enjambre de partículas (particle swarm optimizer, PSO) y el optimizador de enjambre competitivo (competitive swarm optimizer, CSO) con una función de adecuación sensible al coste. Cada conjunto de predictores (”ensemble”) está compuesto por cinco modelos en un paradigma de aprendizaje de votación mayoritaria. Para evitar sesgos en los conjuntos de datos se consideraron tres conjuntos de datos extremadamente desbalanceados de empresas españolas, taiwanesas y polacas. Usando las medidas g-mean (media geométrica de la sensibilidad y la especificidad) y f1-score (media armónica de la precisión y la sensibilidad) se ha conseguido una mejora considerable en los resultados obtenidos.