Interpretable and Effortless Techniques for Social Network Analysis

  1. Aparicio, Manuel Francisco
Dirigida por:
  1. Juan Luis Castro Peña Director

Universidad de defensa: Universidad de Granada

Fecha de defensa: 21 de diciembre de 2022

Tribunal:
  1. José Jesús Castro Sánchez Presidente/a
  2. Encarnación Hidalgo Tenorio Secretaria
  3. Cristophe Marsala Vocal

Tipo: Tesis

Resumen

Las redes sociales son el medio de comunicación más importante hoy en día. Han cambiado la manera que tenemos de interactuar con nuestra familia y amigos, e incluso la manera que tienen las empresas de realizar estudios de mercado, tomar decisiones de negocio o dirigirse a sus clientes. La cantidad de datos que están siendo generados cada día puede considerarse ilimitada, y puede usarse para realizar estudios sociales o para entrenar modelos de aprendizaje computacional (ML). Sin embargo, existen dificultades con las que lidiar. La información recogida de redes sociales es mayormente desestructurada y escrita en lenguaje natural, y puede presentar faltas de ortografía, contracciones, emojis, y unidades semánticas nuevas, que pueden resultar una carga para los algoritmos de aprendizaje. Una buena base de datos y varios pasos de preprocesamiento se vuelven requisitos indispensables para casi cualquier aplicación de ML en redes sociales. Por desgracia, existen costes nada despreciables para producir dichas bases de datos (esfuerzo humano), y constituye una de las mayores desventajas para empresas de bajo y medio presupuesto. Además, muchas de estas aplicaciones pueden tener repercusiones sociales, por lo que necesitan ser auditadas. Ambos objetivos caen dentro del ámbito de un proyecto multidisciplinar llamado ª Nutcracker, cuyo objetivo es detectar, rastrear, monitorizar y analizar el discurso radical en Internet. Esta tesis es parte del proyecto, y en ella proponemos diferentes mecanismos interpretables y de esfuerzo reducido para abordar las desventajas existentes, utilizando en nuestro beneficio las propias mecánicas de las redes sociales. Primeramente, presentamos un mecanismo deductivo de razonamiento basado en similitud entre usuarios, que permiten inferir propiedades de usuarios desconocidos y, por consiguiente, reducir el esfuerzo necesario para producir la base de datos. Posteriormente, presentamos un nuevo tipo de característica cuya finalidad es reducir la complejidad de los modelos una vez entrenados, consiguiendo así una mayor comprensibilidad y transparencia. Finalmente, estudiamos las peculiaridades del análisis agregado y, en especial, cómo de buenos son lo métodos actuales estimando la prevalencia de las clases en muestras de datos de redes sociales. Nuestros resultados muestran que somos capaces de construir grandes bases de datos de Twitter con una fracción del esfuerzo normal; que podemos entrenar modelos interpretables tan precisos como siempre pero reduciendo su complejidad en un orden de magnitud; y que la cuantificación es una disciplina con mucho que ofrecer al análisis de redes sociales, ya que es capaz de ajustar el sesgo de clasificación. Hemos desarrollado una herramienta como prueba de concepto que es capaz de reducir el esfuerzo de etiquetado de datasets y de la monitorización continua de usuarios relevantes, y la hemos puesto a prueba mediante la producción de cuatro bases de datos. Las técnicas, metodologías y herramientas propuestas han demostrado ser efectivas en diferentes ámbitos, como las ciencias políticas, la lingüística y la ciberseguridad. Están siendo usadas por expertos de nuestro proyecto y han llamado la atención de la Guardia Civil por su potencial. Las aplicaciones incluyen la producción de bases de datos supervisadas (por ejemplo, para análisis de redes sociales, estudios de mercado, atención al cliente, caracterización de perfiles de usuarios...); la aplicación de algoritmos de toma de decisiones completamente interpretables (por ejemplo, para el cierre preventivo de cuentas, rastreo de actividades ilegales, políticas de contratación...); la medición de la opinión general de una población (por ejemplo, durante un evento, como un debate político); el estudio de enfermedades mentales, la detección de epidemias, para campañas de atracción de clientes, o para determinar el impacto de comunidades organizadas, entre otras muchas.