Entre las diversas aplicaciones que nos interesan está la traducción automática; encontrar una equivalencia inmediata entre palabras de idiomas diferentes es un reto que se puede lograr. “Para esto necesitamos entender bien el lenguaje natural y saber cómo pasar de la lengua uno, por ejemplo el inglés, a la dos, digamos, el español”.
Un traductor humano sabe cómo hacer su trabajo; sin embargo, transmitir ese conocimiento a una computadora por medio de algoritmos es un problema en el que no sólo se necesita el conocimiento lingüístico, sino también inteligencia artificial, estadística y otras áreas.
“Ya tenemos a disposición de empresas e instituciones académicas una serie de tecnologías del lenguaje. Hemos desarrollado un sistema llamado ‘Describe’, en el que es posible obtener definiciones, no de diccionario, sino de los usuarios. El objetivo es que identifique y extraiga cualquier definición que haya en la web y nos permita acceder a ellas, como si se realizara una búsqueda en Google”, señaló Sierra Martínez
Para extraer esos datos se emplean diversos patrones, que van desde sencillos hasta muy complejos, que indican en qué parte del texto hay una definición.
En el GIL también se ha creado otro producto interesante: un diccionario electrónico que realiza búsquedas inversas, es decir, parte del significado para darnos la palabra adecuada. Por ejemplo, si escribimos “libro donde se guardan las palabras y se proporcionan sus definiciones”, el programa nos dará como respuesta “diccionario”.
Las tecnologías del lenguaje también son utilizadas con fines forenses. “En casos en los que se desea identificar a la persona que hizo una llamada telefónica, de extorsión, por ejemplo, se emplean programas para hacer análisis de espectrogramas de voz; se procesa la voz de la grabación y se compara con la de posibles responsables”.
“En las cárceles tienen un registro de las voces de los presos; a partir de ciertos rasgos del sonido de éstas es posible detectar la edad de un individuo, su nivel sociocultural y su origen geográfico. Esta información puede ser determinante en la resolución de un caso legal”, subrayó.
Atribución de autoría
“En un conjunto de documentos escritos por diferentes autores hacemos experimentos para identificar qué características de sus textos nos permiten hacer una clasificación por autor”, añadió Julián Solórzano, tesista en el Grupo.
En el GIL cuentan con un sistema que identifica ciertas características, como qué signos de puntuación y con qué frecuencia los emplea cierto escritor. “En el caso de categorías gramaticales, nos fijamos en qué proporción usa adjetivos o verbos. El análisis se hace incluso más granular si queremos saber en qué medida utiliza verbos en pasado o en futuro”.
De igual manera, trabajan con la recurrencia de bigramas y trigramas, es decir, qué par o trío de palabras suele usar de manera conjunta un autor. Se ha encontrado que las que se manejan en mayor medida son “y” seguido por “de”, pero están también “y para” o “por supuesto”.
Lenguas de bajos recursos digitales
Se considera lenguas de bajos recursos digitales a las que, por alguna razón, no tienen mucha producción escrita, no hay muchos hablantes o no hay suficientes recursos digitales disponibles en la web. Crear tecnología para éstas representa un reto. Las lenguas mexicanas son ejemplos de ello, expuso María Ximena Gutiérrez Vasques, doctorante del GIL.
Además del español, en nuestro país se hablan 68 lenguas o agrupaciones lingüísticas. Aunque tienen reconocimiento oficial o de carácter nacional, no hay muchos textos en Internet traducidos a éstas y, por lo mismo, es difícil la elaboración de traductores automáticos o tecnologías.
Un problema es que la mayor parte se desarrolla sólo para un subconjunto pequeño de idiomas, por ejemplo el inglés y el chino. “El reto que tenemos en el GIL es hacerlas para las lenguas mexicanas, como el náhuatl, con el fin de generar modelos”, finalizó.Te podría interesar...








Esta conversación es moderada acorde a las reglas de la comunidad “Ciudadanía Express” . Por favor lee las reglas antes de unirte a ella.
Para revisar las reglas da clic aquí