Fuente: Noticias del MIT
Aunque las capacidades de los grandes modelos lingüísticos son impresionantes, todavía están lejos de ser perfectas. Estos modelos de IA en ocasiones pueden "alucinar" y generar información incorrecta o infundada en respuesta a consultas.
Debido a este problema ilusorio, las respuestas del modelo a menudo necesitan ser verificadas por revisores humanos, especialmente en entornos de alto riesgo como la atención médica o las finanzas. Sin embargo, el proceso de validación a menudo requiere que las personas lean documentos extensos a los que hace referencia el modelo, una tarea tediosa y propensa a errores que puede disuadir a algunos usuarios de utilizar modelos de IA generativos.
Para ayudar a los verificadores humanos, los investigadores del MIT han creado un sistema fácil de usar que permite a las personas verificar más rápidamente las respuestas de grandes modelos lingüísticos. La herramienta, llamada SymGen, permite a LLM generar respuestas con referencias que apuntan directamente a ubicaciones específicas en el documento fuente, como una celda en una base de datos.
Los usuarios pueden pasar el cursor sobre las partes resaltadas de las respuestas de texto para ver los datos que utilizó el modelo para generar palabras o frases específicas. Mientras tanto, las partes no resaltadas muestran frases que requieren atención adicional para inspección y verificación.
"Le damos a las personas la capacidad de centrarse selectivamente en las partes del texto a las que necesitan prestar más atención. En última instancia, SymGen mejora la confianza de las personas en la respuesta del modelo porque pueden verificar fácilmente para garantizar que la información sea confiable". & Ciencias de la Computación, dijo la estudiante graduada Shannon Shen, coprimera autora del artículo SymGen.
A través de una investigación de usuarios, Shen y sus colaboradores descubrieron que el tiempo de verificación utilizando SymGen se redujo en aproximadamente un 20 % en comparación con el proceso manual. Al hacer que el proceso de validación de los resultados del modelo sea más rápido y sencillo, SymGen ayuda a identificar errores en los LLM utilizados en una variedad de aplicaciones del mundo real, desde la generación de registros clínicos hasta el resumen de informes del mercado financiero.
Los coautores de Shen en el artículo también incluyen al coautor Lucas Torroba Hennigen, estudiante de posgrado de EECS; Aniruddha “Ani” Nrusimha, presidente de Good Data Initiative y el autor principal David Sontag, profesor de EECS; y miembro de la Clínica Jameel del MIT, Ciencias de la Computación con el jefe del Grupo de Aprendizaje Automático Clínico del Laboratorio de Inteligencia Artificial (CSAIL) y el Profesor Asistente yoon Kim, miembro del CSAIL. La investigación se presentó recientemente en una conferencia sobre modelado del lenguaje.
Referencia de símbolo
Para ayudar en la verificación, muchos LLM están diseñados para generar referencias a documentos externos y proporcionar respuestas basadas en el lenguaje para la inspección del usuario. Sin embargo, estos sistemas de verificación son a menudo una ocurrencia tardía y no tienen en cuenta el esfuerzo que se requiere de las personas para examinar un gran número de citas, dijo Shen.
“El propósito de la IA generativa es reducir el tiempo que les lleva a los usuarios completar una tarea. Si necesita pasar horas leyendo estos documentos para verificar si las afirmaciones del modelo son razonables, el contenido generado será menos útil en aplicaciones del mundo real. " Dijo Shen.
Los investigadores abordaron esta cuestión desde la perspectiva de la persona que realizaría el trabajo de validación.
Los usuarios de SymGen primero proporcionan a LLM datos que pueden usarse como referencia, como una tabla que contiene estadísticas de juegos de baloncesto. Luego, los investigadores realizan un paso intermedio sin pedirle inmediatamente al modelo que complete una tarea, como generar un resumen de coincidencias a partir de estos datos. Incitan al modelo a generar respuestas en forma simbólica.
Con este mensaje, siempre que el modelo desee hacer referencia a una palabra en una respuesta, debe escribir la celda específica en la tabla de datos que contiene esa información. Por ejemplo, si el modelo quiere hacer referencia a la frase "Portland Trail Blazers" en una respuesta, reemplazará ese texto con los nombres de las celdas de la tabla de datos que contienen esas palabras.
"Debido a que tenemos este paso intermedio en el que el texto se presenta en un formato simbólico, podemos lograr referencias muy detalladas. Podemos indicar claramente a qué parte de los datos corresponde cada fragmento de texto en la salida", dice Torroba Hennigen.
Luego, SymGen utiliza herramientas basadas en reglas para analizar cada referencia, copiando el texto correspondiente de la tabla de datos en la respuesta del modelo.
"De esa manera, sabemos que se ha copiado palabra por palabra, por lo que podemos asegurarnos de que no haya errores en las partes del texto que corresponden a las variables de datos reales", añadió Shen.
Simplifique la verificación
El modelo es capaz de generar respuestas simbólicas debido a la forma en que está entrenado. Los modelos de lenguajes grandes aceptan grandes cantidades de datos de Internet, algunos de los cuales se registran en "formato de marcador de posición" con códigos que reemplazan los valores reales.
SymGen utiliza una estructura similar cuando solicita al modelo que genere respuestas simbólicas.
"Diseñamos las indicaciones de una manera específica para liberar las capacidades de LLM", añadió Shen.
En estudios de usuarios, la mayoría de los participantes afirmaron que SymGen facilitaba la verificación del texto generado por LLM. Verificaron las respuestas del modelo aproximadamente un 20% más rápido que utilizando métodos estándar.
Sin embargo, la eficacia de SymGen está limitada por la calidad de los datos de origen. El LLM puede hacer referencia a variables incorrectas y es posible que el verificador humano no se dé cuenta.
Además, los usuarios deben proporcionar datos de origen en un formato estructurado (como una tabla) para ingresarlos en SymGen. Actualmente, el sistema sólo funciona con datos tabulares.
En el futuro, los investigadores están mejorando las capacidades de SymGen para manejar texto arbitrario y otras formas de datos. Con esta capacidad, puede ayudar a validar ciertas partes de los resúmenes de documentos legales generados por IA. También planean probar SymGen con médicos para estudiar cómo identifica errores en los resúmenes clínicos generados por IA.
Este trabajo fue financiado en parte por LiBERTy Mutual y la Iniciativa de Descubrimiento Inteligente del MIT.