Procesamiento de Lenguaje Natural y Minería de textos
Imagina que necesitas hacer un trabajo… Primero tendrías que encender la computadora y abrir el programa que requieres para desarrollarlo. Con ayuda del teclado, empiezas a plasmar toda la información que deseas. En caso de que busques dar formato al texto, lo puedes hacer al apretar un botón, si deseas guardarlo, basta un clic y listo. Suena como un proceso bastante sencillo, ¿no?
 
El ser humano ha conseguido establecer un lenguaje que permita, a través de ciertos comandos, que una computadora ejecute algunas acciones y cumpla con una o varias tareas que nosotros solicitamos. A pesar de ser un gran avance, aún faltan muchos detalles que afinar para conseguir que las computadoras estén habilitadas para comprender por completo nuestras necesidades y con base en ellas, sean capaces de ofrecernos soluciones concretas. 
 
Por ejemplo, actualmente cuando realizas una búsqueda, los resultados que obtienes pueden ser lo que buscabas o no. Lo más común es que haya miles, entre los cuales tienes que encontrar el que necesitabas. En este caso, la idea sería conseguir que éstos sean única y exclusivamente lo que nosotros queremos.
 
Para lograrlo tendríamos que llenar de significado los contenidos que hay en Internet a través de estructuras lingüísticas basadas en el lenguaje que usamos de manera coloquial.  Suena complejo, ¿no?
 
Empecemos hablando de una disciplina llamada Procesamiento del Lenguaje Natural (PLN), cuyo origen se ubica al final de la Segunda Guerra Mundial, cuando algunos países detectaron la necesidad de entender los mensajes de Alemania que lograban interceptar. El problema fue que manejar cantidades tan grandes de información era muy complicado,  así que la solución fue recurrir al apoyo de una computadora, que estaría encargada de hacer una traducción automática.
 
Con el paso del tiempo, su uso se fue inclinando hacia búsquedas y recuperación de información, pero desde sus orígenes, el PLN ha perseguido un ambicioso objetivo: que las computadoras logren entender a los seres humanos
 
En palabras de Octavio Sánchez, Consultor en PLN, en INFOTEC: “Hoy en día su función es combinar el lenguaje natural o humano a través de sistemas computacionales y modelos matemáticos, que tienen la finalidad de hacer que las máquinas entiendan lo que decimos y escribimos, de tal manera que se genere un flujo de comunicación completo entre nosotros y ellas”. 
 
Entonces, ¿qué es lo que hace falta para conseguir profundizar el entendimiento de las computadoras hacia las necesidades de los seres humanos?
 
“Hace falta realizar más estudios lingüísticos, incrementar la capacidad de cómputo y sobre todo un mayor desarrollo semántico, ya que no hemos entendido cómo funciona el lenguaje y de qué manera representamos las ideas a través de  él. Si logramos entender eso, puede que avancemos”, comentó Octavio. 
 
Minería de textos
 
Ahora que ya tienes un poco más claro qué es el PLN y hacia dónde va,  es importante que conozcas qué es la Minería de textos… “Se trata de una disciplina especializada en la obtención de información, que no ha sido definida de manera explícita, a través de la identificación de patrones y correlaciones de los términos contenidos en un amplio conjunto de textos”, dijo Samuel Vieyra, Consultor en Investigación y Desarrollo, en INFOTEC.
 
Esto sucede cuando se identifican las relaciones que hay en los elementos de uno o varios textos, de tal manera que se forman patrones que revelan información que no se tenía considerada. Por ejemplo, Twitter tiene el famoso hashtag, el cual pudiera parecer un simple indicador de temas de interés, pero lo que probablemente no sabías, es que gracias a la Minería de textos se pueden agrupar usuarios con base en sus preferencias, tendencias, ideas y opiniones, entre uno de los ejemplos de aplicación que se pudieran desarrollar gracias a los esfuerzos de esta disciplina.
 
En síntesis: Mientras el PLN se dedica a entender el lenguaje humano para poder explotar el conocimiento lingüístico de los textos, la Minería de textos se enfoca en la extracción de información e identificación de patrones en textos, así que no es sorpresa que ambas disciplinas se complementen para acercarnos más a un esquema en el que las computadoras entiendan a los seres humanos. 
 
INFOTEC detectó la importancia que tiene considerar las aportaciones que estas disciplinas pueden hacer. Actualmente, gracias a su apoyo, se está trabajando para mejorar los esquemas de búsqueda en la Web, para que en un futuro no muy lejano, podamos hacerle preguntas a la máquina con el lenguaje que usamos coloquialmente y ella arroje exclusivamente los resultados que necesitamos, dejando a un lado las sintaxis complejas en una búsqueda. 
 
Por su parte, SemanticWebBuilder ya cuenta con una interfase que permite preguntarle a la máquina cuáles son los usuarios con clase superior y la computadora despliega los datos solicitados. 
 
Como puedes ver, aún hay mucho por hacer, pero en INFOTEC no perdemos de vista el objetivo de la Web Semántica, el cual según Tim Berners-Lee se trata de “elaborar estándares y tecnologías diseñadas para ayudar a las máquinas a entender más información de la Web para que puedan apoyar el descubrimiento más rico, la integración de datos, la navegación y la automatización de tareas… ". Así que estemos pendientes de las aportaciones que estas disciplinas harán, pues seguramente darán mucho de qué hablar.