Minería de textos y sus aplicaciones
En la nota que publicamos acerca del Procesamiento del Lenguaje Natural explicamos que la Minería de Textos es una disciplina especializada en la obtención de información que no se encuentra de forma explícita en un conjunto de textos. Esto es posible a través de la identificación de patrones y correlaciones de los términos contenidos en ellos, pero ¿sabes qué aplicaciones tiene actualmente y hacia dónde se dirige?
 
 
 
De acuerdo con Samuel Vieyra, Consultor en Investigación y Desarrollo, en INFOTEC existen varias aplicaciones para la Minería de textos, de las cuales destacan:

  • Extracción de información: Piensa en el número de documentos que se encuentran en la web… ¿Cuántos de ellos crees que se encuentren estructurados con metadatos que nos ayuden a comprender su significado? Muy pocos. En este caso, la Minería de textos puede ser de gran utilidad, pues es una disciplina que permite la extracción de información relevante de cantidades extensas de textos, permitiendo definir entidades y sus relaciones, revelando información semántica significativa, la cual puede ser usada como metadatos, que a su vez, pueden ser agregados a contenidos Web, y así facilitar la comprensión de estos documentos. Lo cual se traduce en apoyar e objetivo de la Web Semántica: dotar de significado explícito los contenidos de la web.
  • Análisis de sentimientos o minería de opiniones: Consiste en el análisis de opiniones que generan usuarios de redes sociales. Ayuda a revelar información importante sobre un tema específico apoyando, por ejemplo, a campos como la inteligencia de negocios y jugando un papel importante en la toma de decisiones de los consumidores. Por ejemplo, si un nuevo refresco saliera al mercado, la empresa responsable podría identificar las opiniones y comentarios de los consumidores en Twitter sobre el nuevo producto, si la presentación fue de su agrado o no, si el nuevo sabor fue aceptado, y con esto, la empresa puede tomar decisiones sobre el rumbo que debe tomar la nueva bebida.
  • Clasificación de documentos: Es especialmente útil para facilitar la recuperación y navegación de documentos. Un ejemplo de uso puede darse en empresas que llevan un registro histórico de sus proyectos en documentos, si se deseara obtener información de las diferentes áreas de desarrollo de los proyectos, seguramente resultaría una labor sumamente complicada. Gracias al uso de algoritmos de Minería de Textos es posible agrupar los documentos, obteniendo información descriptiva de cada grupo para facilitar la comprensión de cada uno de ellos.
  • Elaboración de resúmenes: Su objetivo es obtener la descripción general de un conjunto de documentos pertenecientes a un tema en específico. De esta manera, los métodos de Minería de Textos pueden ser clasificados en dos categorías diferentes, 1) Sumarización extractiva, es decir, resúmenes conformados por unidades de información extraídas de los textos, o 2) Sumarización abstracta, donde la información sintetizada no necesariamente está formada por unidades de información contenida en los textos.
  • Extracción de conocimiento: A través de minería de datos, es posible realizar la representación de información extraída a través de modelos de conocimiento.

Como puedes ver, algunas de estas aplicaciones se encuentran ligadas a la Web Semántica, pues la Minería de Textos puede apoyar en la anotación semántica de contenidos Web, a través de la obtención de información que se menciona en un conjunto de textos.
 
Sin embargo, es importante mencionar que completar manualmente los objetivos de la Web Semántica implicaría un gran esfuerzo, porque habría que enfrentar dos cuestiones, por un lado la costumbre que tienen los generadores de contenidos de no dotar de significado la información que suben y por otro, la interminable tarea de incluir anotaciones semánticas de los contenidos ya existentes. Lograrlo requiere mucho trabajo y el apoyo de otras disciplinas como el Procesamiento del Lenguaje Natural (PLN).
 
Entonces ¿Hacia dónde va la Minería de Textos y qué desafíos debe enfrentar?
 
Por lo pronto, la Minería de Textos seguirá apoyándose en gran medida del Procesamiento del Lenguaje Natural para conseguir que la información que hay en la web tenga significado y podamos acceder a ella con mayor facilidad.
 
De manera independiente, esta disciplina deberá enfrentar algunos desafíos como:
           
  • Hacer uso del contexto en el cual se generó algún tipo de contenido en las diferentes tareas de la Minería de Textos. Es importante saber quién es el autor, la región en la que se encuentra y el momento histórico, pues eso permitirá comprender el sentido de dicha información.           

   

  • Ir más allá de la obtención de información y buscar la obtención de conocimiento, lo cual implicará la transformación de la información extraída en diferentes tareas del área, a un lenguaje formal que sea legible para las máquinas y así, lograr completamente el entendimiento, por parte de las máquinas, de grandes cantidades de información que carecen de la estructura o metadatos suficientes.


  • En muchas de las tareas de la Minería de Textos es necesario analizar cantidades enormes de información. Eficientar este proceso en cuestiones de tiempo implica definir algoritmos paralelos que exploten de mejor manera la infraestructura de cómputo actual, en este punto es posible apoyarse de áreas como Cloud Computing.

 


No perdamos de vista los avances que tiene la Minería de Textos, pues seguramente tendrán un fuerte impacto en el desarrollo de la Web. 
 
por Alea Lozada