El auge de los grandes modelos de lenguaje (LLM), especialmente el uso generalizado de aplicaciones como ChatGPT, ha cambiado por completo el modelo de interacción persona-computadora. LLM demuestra una capacidad impresionante para generar textos coherentes y completos. Sin embargo, el editor de Downcodes descubrió que LLM también tiene el problema de la "alucinación", es decir, genera contenido que parece real pero es ficticio, sin sentido o inconsistente con las indicaciones. Investigadores de la Universidad de Harvard han llevado a cabo una investigación en profundidad sobre esto, tratando de revelar las causas y soluciones a la "ilusión" del LLM.
La aparición de grandes modelos de lenguaje (LLM), especialmente la popularidad de aplicaciones como ChatGPT, ha cambiado por completo la forma en que se realiza la interacción persona-computadora. La capacidad de los modelos para generar texto coherente y completo es impresionante. Sin embargo, a pesar de sus poderosas capacidades, LLM es propenso a sufrir "alucinaciones", es decir, generar contenido que parece real pero que en realidad es ficticio, sin sentido o inconsistente con las indicaciones.
Investigadores de la Universidad de Harvard realizaron un estudio en profundidad del fenómeno de las "alucinaciones" del LLM y descubrieron que su raíz radica en el principio de funcionamiento del LLM. LLM construye un modelo probabilístico mediante el aprendizaje automático de datos de texto masivos y predice la siguiente palabra en función de la probabilidad de coexistencia de palabras. En otras palabras, LLM no comprende realmente el significado del idioma, sino que hace predicciones basadas en probabilidades estadísticas.
Los investigadores comparan el LLM con el "crowdsourcing" y creen que el LLM en realidad está generando un "consenso de red". Al igual que plataformas como Wikipedia o Reddit, LLM extrae información de grandes cantidades de datos de texto y genera las respuestas más comunes. Dado que la mayoría de los idiomas se utilizan para describir el mundo, las respuestas generadas por LLM suelen ser precisas.
Sin embargo, pueden surgir "ilusiones" cuando LLM encuentra temas vagos, controvertidos o que carecen de consenso. Para probar esta hipótesis, los investigadores diseñaron una serie de experimentos para probar el desempeño de diferentes LLM cuando abordan diferentes temas. Los resultados experimentales muestran que el LLM funciona bien cuando se trata de temas comunes, pero la precisión disminuye significativamente cuando se trata de temas ambiguos o controvertidos.
Este estudio muestra que aunque LLM es una herramienta poderosa, su precisión depende de la calidad y cantidad de los datos de entrenamiento. Cuando se utiliza LLM, especialmente cuando se trata de temas ambiguos o controvertidos, su resultado debe tratarse con precaución. Esta investigación también proporciona direcciones para el desarrollo futuro de LLM, que es la necesidad de mejorar la capacidad de LLM para manejar temas ambiguos y controvertidos y mejorar la interpretabilidad de sus resultados.
Dirección del artículo: https://dl.acm.org/doi/pdf/10.1145/3688007
El estudio de Harvard proporciona información valiosa para comprender y mejorar el LLM. También nos recuerda que debemos utilizar el LLM con precaución, especialmente cuando tratamos temas complejos o controvertidos, y debemos evaluar críticamente sus resultados. La dirección de desarrollo futuro de LLM debería centrarse en mejorar su capacidad para manejar información confusa y mejorar la interpretabilidad. El editor de Downcodes espera que esta investigación pueda promover el desarrollo de la tecnología LLM en una dirección más confiable y confiable.