Modelos LDA – Sistema de Consulta Abierta Automatizada

El auge de la sociedad de la información, apoyada en nuevas técnicas y herramientas digitales que han permitido la acumulación masiva de datos en diversos formatos, entre ellos las grandes cantidades de texto que se producen y publican diariamente en plataformas digitales, ha conllevado un creciente interés en el desarrollo de herramientas para la automatización del procesamiento, organización y clasificación de elementos del lenguaje natural digitalizado aplicables al análisis de datos publicados en la web.

Entre las herramientas que actualmente se desarrollan, con potencial uso para el procesamiento de amplios cúmulos de datos textuales digitales, podemos encontrar el modelado de tópicos (topic model), una técnica probabilística e informática que ha mostrado ser útil para el tratamiento de textos en la web, permitiendo inferir, analizar y comparar datos e información de distinta índole de manera automatizada.

En este sentido, destaca el desarrollo de la Asignación Latente de Dirichlet (LDA por sus siglas en inglés), que consiste en un modelo generativo probabilístico no supervisado para modelar grandes corpus de texto, y generar aleatoriamente los documentos que se observan en este corpus (Blei, Ng y Jordan, 2003). Este modelo, basado en conceptos de Modelos Bayesianos, permite inferir tópicos a partir de un conjunto de documentos, mediante la aplicación de una distribución a posteriori. Tales tópicos pueden ser entendidos como temas estructurantes del corpus y es factible emplearlos para organizar los documentos que constituyen el corpus, según los criterios que se definan como de interés.

Esta investigación recoge elementos de distintas disciplinas (informática, estadística, matemáticas, lingüística) que buscan aportar a la comprensión del funcionamiento del LDA como modelo para el análisis textual de corpus amplios, así como su uso para el análisis de distintos tipos de discurso. Además de una perspectiva multidisciplinaria, fruto del trabajo colaborativo y abierto, este documento surge a partir de un enfoque inductivo-deductivo mediante el cual se abordó el estudio del modelado de tópicos desde sus fundamentos teóricos, lo que luego se contrastó a partir de la aplicación del LDA al análisis de tres corpus lingüísticos de distinta naturaleza discursiva.