Modelado de Tópicos – Sistema de Consulta Abierta Automatizada

El modelado de tópicos que se aplica en el análisis de los datos obtenidos en el Sistema de Consulta Abierta Automatizada es un conjunto de técnicas estadísticas y matemáticas, articuladas con un desarrollo tecnológico que permite ejecutar un algoritmo que analiza conjuntos de textos e identifica de manera automatizada los temas comunes en el desarrollo de los textos analizados.

CENDITEL se ha apropiado de esta tecnología libre para la generación de un sistema que facilita el análisis de conjuntos amplios de documentos y que puede ser aplicado tanto a propuestas obtenidas mediante una consulta pública, como a documentos de otra naturaleza como noticias digitales o artículos científicos, entre otros.

¿Cómo funciona el Modelado de Tópicos?

El modelado de tópicos es un conjunto de técnicas matemáticas y estadísticas, un modelo probabilístico generativo, que fundamentan el desarrollo de herramientas informáticas empleadas para lograr reducir el contenido de un conjunto numeroso de documentos de manera tal que sea posible extraer los temas o tópicos relevantes y comunes a los documentos, y de esta manera clasificar y organizar rápidamente los mismos según un criterio temático[1].

Este desarrollo se fundamenta en la premisa de que es factible traducir los documentos de un lenguaje natural a un lenguaje matemático dentro del cual es posible inferir relaciones y co-ocurrencia de las palabras que conforman los documentos. Para ello, cada documento es reducido a un vector de números naturales que representan cada uno un radio de recuentos (Blei, Ng y Jordan, 2003), y mediante técnicas estadísticas que infieren la correlación probabilística de los términos en conjuntos dentro del conjunto de documentos (modelo de bolsa de bolsas)[2], es factible mostrar conjuntos de palabras que tienden a aparecer en un mismo tipo de documento, lo que indica el tema o los temas que aborda ese documento.

De esta forma, un documento puede ser entendido como una mezcla de tópicos, que se representan por la distribución de probabilidad que genera las palabras del documento dados estos tópicos. El proceso de inferencia de las variables latentes, o temas, es el componente clave en este modelo, cuyo principal objetivo es aprender la distribución de los temas subyacentes del texto en un corpus o conjunto de documentos de texto (Dueñas-Fernández, L’Huillier y Velásquez, 2014).

[1] Para obtener mayores detalles sobre el desarrollo general del modelado de tópicos y sus distintas adecuaciones y aplicaciones ver Valdiviezo-Díaz, P.; Hernando, A. (2016); Dueñas-Fernández, R. (2013); Blei y D. Lafferty (2005),

[2] Se trata de una forma de representación en la que cada corpus o conjunto de documentos se entiende como una bolsa que contiene documentos, que son a su vez bolsas que contienen bolsas que contienen palabras.