Aplicación de técnicas de minería de texto al estudio de la violencia contra la mujer

  1. Mora Andrade, Stephanie Elizabeth
Dirigida por:
  1. María del Carmen Pegalajar Jiménez Codirectora
  2. María Amparo Vila Miranda Codirectora

Universidad de defensa: Universidad de Granada

Fecha de defensa: 26 de abril de 2024

Tipo: Tesis

Resumen

La Violencia Contra la Mujer (VCM) es un problema de carácter social que está presente en muchos países, convirtiéndose en un fenómeno de alto alcance que requiere atención y un amplio estudio para así concienciar a la sociedad sobre el impacto y las consecuencias que genera. Así mismo, la creciente ola de casos de violencia hace evidente la necesidad urgente de reconocer su importancia y asegurar los principios relativos a la igualdad, seguridad, libertad, integridad y dignidad de todos los seres humanos. Lo antes expuesto motivó a que se realice la presente investigación doctoral para estudiar y analizar las formas y diferentes patrones que envuelven la VCM. De manera que, mediante la aplicación de diferentes técnicas de minería de texto y aprendizaje automático sobre una gran variedad de noticias recolectadas de diversos periódicos digitales obtuvimos información valiosa y relevante que nos ha proporcionado una visión profunda de este fenómeno social latente a nivel mundial. En esta investigación se propone el uso de técnicas de Minería de Texto como: Clasificación de texto, Modelado de temas y Reglas de Asociación para realizar un estudio de la VCM tomando como fuente artículos de violencia extraídos de periódicos digitales. Primeramente, en esta investigación se empleó técnicas de Raspado Web para obtener la colección de documentos a ser estudiados. Una vez obtenida la colección de documentos se sugiere realizar lo siguiente: clasificación del texto en los diferentes tipos de violencia que sufren las mujeres, de la misma forma, mediante la aplicación de técnicas de modelado de temas, se generarán e identificarán temas latentes dentro de la colección de documentos. Finalmente, con la aplicación de minería de reglas de asociación se propone el estudio de los diferentes atributos y patrones que involucran la violencia contra la mujer. Esta propuesta consiste en el desarrollo de los siguientes puntos: Inicialmente, para poder llevar a cabo esta investigación se comenzó con la recopilación de noticias públicas por periódicos digitales. Previo a la recopilación fue necesario realizar un estudio de las diferentes estructuras de páginas web, de modo que, se pudiera identificar en qué nodo de la estructura HTML se encontraba el texto requerido, a fin de, poder definir sobre qué nodos de información haremos la petición, y así, poder obtener el texto específico de cada una de las noticias. Con las técnicas de raspado web se pudo recopilar 7000 noticias (documentos de texto) en formato no estructurado. Posteriormente, se procedió a realizar el procesamiento de la colección de documentos. Este proceso presentó algo de complejidad debido a que el objeto de estudio es texto que puede contener cientos de palabras, donde cada palabra representa un atributo, de modo que, los documentos a estudiar son de gran dimensionalidad. Este tipo de dato sin estructura es más complejo de estudiar dado que muchos de los atributos presentes en el texto no generarán valor a la investigación o incluso podrían afectar al buen funcionamiento de los algoritmos de aprendizaje automático. Para reducir el impacto de este problema se aplicó un proceso de procesamiento de texto que permitió la selección de las características más relevantes dentro de cada uno de los textos recopilados para el estudio. Para identificar y determinar los tipos de violencia con los que se clasificarían los documentos se realizó un estudio de casos e investigaciones sobre VCM que permitieran determinar los tipos de violencia que sufren las mujeres. De aquí se obtuvieron 3 tipos de violencia: Física, Sexual y Psicológica, las cuales pueden estar relacionadas y presentes en un solo hecho o documento, por lo que, se optó por una clasificación multiclase. Para la detección de temas latentes se utilizaron técnicas de modelado de temas, en este estudio se aplicó el algoritmo Asignación Latente de Dirichlet, conocido con sus términos en inglés como “Latent Dirichlet Allocation” (LDA). Como resultado, se obtuvo una lista de temas junto con sus 15 términos más representativos, así mismo, se pudo detectar ciertas características sobre la VCM. A continuación, se determinó las noticias más relevantes dentro de cada tema, y mediante las palabras más frecuentes se pudo construir etiquetas de identificación. Finalmente, en el proceso de minería de reglas de asociación se realizó un estudio de las diferentes características que pueden involucrar un acto de violencia. Entre estas tenemos: el tipo de víctima, el tipo de agresor, los motivos, el arma empleada, el tipo de violencia, si existen heridas en el cuerpo o si la víctima murió o no. A partir del procedimiento descrito anteriormente se aplicaron reglas de asociación sobre una colección de 7000 documentos. Posteriormente, fue necesario realizar una reducción de dimensionalidad, debido a que cada documento puede contener una gran cantidad de palabras. La razón de realizar esta reducción fue los recursos informáticos que consumen la aplicación de modelos de reglas de asociación en documentos de gran dimensionalidad. Así mismo, el uso de atributos poco importantes en la generación de reglas de asociación podría generar resultados dudosos en las dependencias de los atributos. Los resultados obtenidos en el proceso de desarrollo de esta investigación fueron favorables demostrando que las técnicas de minería de texto son herramientas de gran utilidad en el estudio de la Violencia Contra la Mujer, estas técnicas nos permitieron estudiar hechos reales de violencia y obtener información que antes era desconocida. Finalmente, se pudo evidenciar la gravedad y el gran alcance que tiene la VCM, además, de observar la necesidad de aplicar medidas que ayuden a la erradicación de este fenómeno universal que acecha a miles de mujeres y niñas a nivel mundial.