La intención principal de esta investigación es estudiar y aprender los principios del procesamiento del lenguaje natural (PNL) para el idioma lituano. Es interesante analizar los métodos clásicos de PNL y ver cómo funcionan, por eso en este trabajo implementé clasificación de texto, extracción de temas, consultas de búsqueda y agrupación de ideas. Los detalles de implementación y más información se almacenan en paper/paper.pdf
El análisis de datos no se puede establecer sin tener datos textuales, por eso mi trabajo comenzó con la obtención de datos sin procesar del sitio web de noticias más popular www.delfi.lt. Decidí rastrear artículos de 5 categorías (Criminales[227 artículos], Música[120 artículos], Películas[167 artículos], Deportes[136 artículos], Ciencia[204 artículos]).
El rendimiento de la clasificación se mide utilizando una matriz de confusión donde las filas son la categoría verdadera y las columnas la categoría predicha. Además, este enfoque alcanza más del 90% de recuperación y 90% de precisión.
La figura muestra 6 componentes con 10 fichas para cada componente. A partir de estos resultados podemos detectar las palabras más importantes y adivinar intuitivamente el tema de cada componente principal. Por ejemplo, 4 componentes principales almacenan información sobre deportes y música, mientras que 6 componentes principales almacenan información sobre delincuentes.
Los principales resultados se presentan a continuación:
La búsqueda se basa en el artículo http://webhome.cs.uvic.ca/~thomo/svd.pdf, donde se aplica lsa para buscar documentos relacionados utilizando no solo similitudes de consultas exactas, sino también relaciones más profundas entre documentos.
Consulta = "švietim apdovanojam"
Resultado:
En progreso