Sobre el comportamiento complejo de las palabras relevantes en textosHeterogeneidad espacial y correlaciones de largo alcance

  1. Carretero Campos, Concepción
Supervised by:
  1. Pedro J. Carpena Sánchez Director
  2. Ana Victoria Coronado Jiménez Co-director

Defence university: Universidad de Málaga

Fecha de defensa: 29 November 2024

Committee:
  1. Miguel Ortuño Ortín Chair
  2. María Angeles Galán García Secretary
  3. Antonio Miguel Lallena Rojo Committee member

Type: Thesis

Abstract

La física estadística de sistemas complejos es un área con múltiples aplicaciones entre las que se encuentra el estudio de las dinámicas del lenguaje escrito. Se conoce que las palabras relevantes de un texto presentan una distribución espacial heterogénea y se concentran en determinadas regiones formando agrupamientos o clusters. La conexión entre clustering y relevancia ha sido usada satisfactoriamente para extraer automáticamente palabras clave sin información previa ni un corpus de referencia. Hemos realizado comparaciones con una medida basada en el cálculo de entropía definiendo métricas adecuadas para la evaluación de detectores de palabras clave, y hemos definido una nueva medida de clustering consecuencia de haber obtenido analíticamente la distribución exacta para las distancias entre apariciones sucesivas de una palabra esperada por azar, válida independientemente de la frecuencia de aparición y de la longitud del texto. En aproximaciones anteriores, se usaba como referencia la distribución geométrica, lo que es cierto sólo asintóticamente. La nueva medida mejora la detección en textos cortos y el estudio de los valores de clustering extremos permite diferenciar entre palabras clave genéricas y específicas. Se conoce que los textos presentan una distribución espacial compleja que da lugar a la existencia de correlaciones de largo alcance. La fuerte auto-atracción de las palabras relevantes hace pensar que las correlaciones se deben a sus palabras clave. Hemos obtenido un vínculo claro entre ambas, pudiéndose usar el grado de correlaciones como medida de relevancia. Realizamos un estudio numérico sistemático de las distribuciones de los tiempos de paso de procesos con correlaciones en ley de potencias y proponemos un modelo que reproduce la distribución espacial de una palabra a todas las escalas, su exponente de correlación y su valor de clustering, basado en las correlaciones de largo alcance observadas e incorporando un factor de repulsión a escala corta.