Aplicaciones del Procesamiento del Lenguaje Natural I
Aplicaciones del Procesamiento del Lenguaje Natural
Analiza la claridad de los textos y así poder clasificarlos de forma objetiva y cuantificable, a la vez que se dan recomendaciones para expresar las ideas de manera ordenada, sencilla y transparente.
Normalmente, los textos se anotan en tres niveles lingüísticos:
- segmentación de oraciones,
- segmentación de palabras y formas o tokenización y
- etiquetado morfológico (POS) de cada una.
Lo ideal sería conseguir una herramienta integral capaz de segmentar y anotar automáticamente textos de cualquier tipo, pero los que incluyen terminología propia de un dominio o ámbito suelen requerir una atención y trabajo mayor.
¿Cómo se realiza la clasificación automática de textos?
Para la clasificación automática de textos se suelen utilizar distintas técnicas de Procesamiento del Lenguaje Natural (PLN): recursos léxicos, sistemas basados en reglas o algoritmos de clasificación basados en Machine Learning
Estas guías de anotación pueden ser revisadas y validadas por los expertos del sector (abogados, médicos, deportistas, etc.). La importancia de la anotación automática de textos radica en agilizar las fases iniciales de procesamiento del texto, sobre las que se añadirán distintas capas analíticas o se aplicarán otras tareas de PLN.
El primer paso para automatizar cualquier tarea de PLN es seleccionar un corpus que sirva de ejemplo al modelo que se desarrolle. Después, dependiendo de la información que tengamos de este conjunto de textos, se decidirá hacer una clasificación no supervisada o clustering, con técnicas más avanzadas, o una clasificación supervisada, para la que se etiquetarán y clasificarán los textos seleccionados en categorías pre-establecidas.
anotación automática de textos:
La anotación automática de textos permite hacer un primer análisis lingüístico y etiquetado de cualquier texto, de forma que quede estructurado para aplicar distintas tareas de Procesamiento del Lenguaje Natural (PLN).
Para automatizar la anotación de textos, hay que llevar a cabo previamente una anotación manual de un corpus. Luego serán los modelos de Machine Learning los que aprendan a realizar esta anotación automáticamente, en base a los ejemplos proporcionados.
Normalmente, se establecen una serie de categorías o clases, y se utilizan distintas técnicas de Inteligencia Artificial para clasificar y ordenar los textos en cuestión. La clasificación automática de textos es aplicable a todo tipo de sectores y textos: documentos, comentarios, indicencias, mensajes, facturas, currículums, etc.
Con la clasificación automática de textos podemos identificar de manera rápida grupos o clusters de textos que tratan de lo mismo, aunque la información relacionada con el tema sea diferente en cada uno de ellos. Se trata de una aplicación especialmente útil en sectores que manejan mucha información, como el legal, o que necesitan una clasificación de textos ágil, como la atención al cliente o RR. HH.
Los lingüistas computacionales son los encargados de estudiar a fondo los textos y la terminología concreta, si fuera necesario adaptar la anotación a un dominio específico. Su misión es conseguir el corpus anotado perfecto (gold standard) que sirva de base a los modelos. El primer paso para la anotación automática de textos es la creación de las guías de anotación, donde se establecen los criterios lingüísticos a seguir en la fase de la anotación manual y en la configuración del etiquetado automático con técnicas de PLN.
Fuentes:ic.uam.es/inteligencia-artificial/procesamiento-del-lenguaje-natural/anotacion-automatica-de-textos/
0 comments