Tratamiento de los operadores contextuales de cambio de polaridad en español y en inglés para la minería de opiniones

  1. BLÁZQUEZ LÓPEZ, YOLANDA
Dirigida por:
  1. Ricardo Mairal Usón Director/a
  2. Jose Carlos Periñán Pascual Codirector/a

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 13 de julio de 2023

Tribunal:
  1. Ángel Miguel Felices Lago Presidente
  2. Rocío Jiménez Briones Secretario/a
  3. María Beatriz Pérez Cabello de Alba Vocal

Tipo: Tesis

Teseo: 819418 DIALNET lock_openTESEO editor

Resumen

El cambio de polaridad constituye un reto clave de la minería de opiniones. Los operadores contextuales de cambio de polaridad son partículas contextuales asociadas a distintos fenómenos lingüísticos que pueden intensificar, atenuar o neutralizar la polaridad inicial asignada a una opinión (i.e. positiva o negativa) por parte de un sistema de clasificación automática de textos. Esta clasificación se basa normalmente en la detección automática de una palabra denominada foco, almacenada en un lexicón de sentimiento junto con su correspondiente polaridad. Aunque es ampliamente reconocido que la incorporación de estos operadores contribuye notablemente a la mejora del rendimiento y precisión de los sistemas de minería textual, este problema continúa abierto, sobre todo para lenguas distintas al inglés, ya que la mayor parte de los estudios revisados se basan en esta lengua. Así, con nuestro estudio pretendemos avanzar en el procesamiento automático de los operadores contextuales en distintas lenguas, como el español y el inglés, y, específicamente, en el de aquellos operadores que afectan a las opiniones vertidas en plataformas sociales como Twitter. Para ello, proponemos un nuevo modelo computacional que, a través de una arquitectura modular, permite la detección y tratamiento automáticos de los operadores incluidos en tres tipos de fenómenos lingüísticos que hemos agrupado en tres dimensiones: NEGACIÓN, CUANTIFICACIÓN e IRREALIS (modalidad). Para la detección automática de los operadores incluidos en ellas, partimos del conocimiento lingüístico teórico que, a través de un estudio preliminar, nos ha llevado en un primer momento a la agrupación de los operadores en categorías, según su posición con respecto al foco (i.e. antepuesto o pospuesto), la categorización gramatical de este foco (i.e. sustantivo, verbo, adverbio o adjetivo) y el tipo de variación que generan sobre la polaridad inicial. Posteriormente, mediante un estudio más detallado, hemos elaborado una serie de reglas lingüísticas asociadas a cada categoría, que nos ha permitido aumentar la información sobre cada uno de los operadores, por un lado, en cuanto al alcance y dirección con respecto a su foco, y, por otro, con respecto a la cuantificación de la intensidad del cambio que cada uno genera en la polaridad inicial, calculada mediante fórmulas matemáticas básicas específicamente diseñadas para ello. Hemos contrastado estas reglas mediante la observación y extracción de ejemplos reales en Twitter. Por último, hemos diseñado unas matrices asociadas a las reglas lingüísticas, con el fin de que este conocimiento lingüístico pueda ser fácilmente programable en un sistema computacional aplicado a la minería de opiniones. Para concluir, hemos adoptado un enfoque simbólico, (i.e. basado en el conocimiento), frente al tradicional estadístico (i.e. basado en el uso de técnicas y corpus específicos de aprendizaje automático), ya que, de esta manera, el modelo ofrece numerosas ventajas: (a) no requiere la creación de costosos corpus de entrenamiento, característicos de los sistemas estadísticos, (b) puede reutilizar diferentes recursos existentes (por ej. SentiWordNet), (c) puede ser replicado para procesar diferentes lenguas, (d) puede ser fácilmente ampliado y optimizado, ofreciendo alta escalabilidad y explicabilidad, (e) cada operador dentro de cada categoría y dimensión recibe un tratamiento específico. Palabras clave: minería de opiniones, análisis de sentimiento, cambio de polaridad, negación, cuantificación, modalidad