Este pequeño lugar de la Web almacena una colección cada vez mayor de cosas interesantes sobre ChatGPT y GPT-3 (y más allá) de OpenAI.
ChatGPT se lanzó en noviembre de 2022. Quiero un lugar todo en uno para guardar información sobre GPT y ChatGPT. Entonces, seleccioné esta lista con la ayuda de otros (reconocidos a continuación), desde principios de diciembre de 2022.
Las colecciones no se limitan únicamente a los mejores recursos, herramientas, ejemplos, demostraciones, trucos, aplicaciones y usos de ChatGPT.
Los siguientes recursos comenzaron basándose en listas de awesome-chatgpt 1 2 pero con mis propias modificaciones:
Modelo: la familia de modelos ChatGPT que lanzamos hoy,
gpt-3.5-turbo
, es el mismo modelo utilizado en el producto ChatGPT . Tiene un precio de 0,002 dólares por 1.000 tokens, que es 10 veces más barato que nuestros modelos GPT-3.5 existentes .API: Tradicionalmente, los modelos GPT consumen texto no estructurado, que se representa en el modelo como una secuencia de "tokens". En cambio, los modelos ChatGPT consumen una secuencia de mensajes junto con metadatos.
Indicaciones de ejemplo.
golergka/advent-of-code-2022-with-chat-gpt - Resolviendo Advent of Code 2022 con ChatGPT.
max-sixty/aoc-gpt: primer lugar en la clasificación de Advent of Code con GPT-3.
greshake/Alice: dar acceso a ChatGPT a una terminal real.
RomanHotsiy/commitgpt: genera mensajes de confirmación automáticamente usando ChatGPT.
gpt-commit-summarizer: genera resúmenes de solicitudes de extracción y descripciones de confirmaciones de Git.
vrescobar/chatGPT-python-elm: un repositorio Git completamente generado por ChatGPT.
gpt-game: un juego corto escrito en Elixir y LiveView usando ChatGPT.
chatdb - Base de datos basada en ChatGPT, espera... ¿QUÉ?
chat-gpt-ppt: utilice ChatGPT para generar PPT automáticamente.
emailGPT: una interfaz rápida y sencilla para generar correos electrónicos con ChatGPT.
gptlang: un experimento para ver si podemos crear un lenguaje de programación en ChatGPT.
ChatRWKV: como ChatGPT pero impulsado por el modelo de lenguaje abierto RWKV ( basado en RNN ). [HuggingFace Space: RWKV-4 (7B Instruct v2), código ( su afirmación de RNN con rendimiento LLM a nivel de transformador es mucho mejor de lo que esperaba). ]
GraphGPT: extrapolación de gráficos de conocimiento a partir de texto no estructurado utilizando GPT-3.
Búsqueda de documentos: explore documentos (libros, artículos, documentos legales) sin límites. Conversar con un libro. Inspirado en la idea de "Book Whisperer" (Tweet). Alternativa de código abierto a Filechat.io.
¿Qué pasaría si GPT tuviera un contexto interno en su negocio? (Tweet y demostración en video): construyen un chatbot que podría usar el contexto de los datos empresariales para responder consultas comerciales internas. Este proyecto integró LangChain (el agente decide qué herramientas consultar una vez que el chatbot recibe una solicitud) y GPT Index (carga Snowflake DB). Interesante idea en la gestión del conocimiento.
¿El LLaMA de MetaAI?
Probando Flan-UL2 20B: tutorial del código realizado por Sam Witteveen. Esto muestra cómo puede ejecutarlo en 1 GPU A100 de 40 GB con la biblioteca HuggingFace y usando inferencia de 8 bits. Ejemplos de indicaciones: CoT, zeroshot (razonamiento lógico, redacción de cuentos, razonamiento de sentido común, redacción de discursos). Por último, probando una entrada de token grande (2048). Bonificación: ¿no tienes A100? Puede utilizar la API de inferencia HuggingFace para UL2.
metamorph: aplicación GPT-4 de autoedición.
MiniGPT-4: una investigación que intenta replicar las capacidades multimodales de GPT-4.
Llama2.c por Karpathy - Inferencia Llama 2 en un archivo de C puro.
Este es solo un proyecto de fin de semana: tomé nanoGPT, lo ajusté para implementar la arquitectura Llama-2 en lugar de GPT-2, y la esencia fue escribir el motor de inferencia C en
run.c
Felicitaciones a llama.cpp por inspirar este proyecto. Quería algo súper mínimo, así que elegí codificar la arquitectura llama-2, ceñirme a fp32 y simplemente generar un archivo de inferencia de C puro sin dependencias.
Menos es más.
Este compromiso hace posible cargar e inferir el modelo Llama 2 7B de Meta ahora.
Mi bifurcación: pruebas comparativas de rendimiento, optimizaciones y puerto Zig en progreso. Estaba portando este proyecto a Rust, pero estas bifurcaciones se me adelantaron. El primer puerto de Rust que he visto es el de @garrisonhess, pero no se encuentra en el archivo README del proyecto.
Especulación: Mi corazonada me dice que Karpathy está trabajando para lanzar (¿y abrir el código fuente?) el modelo OpenAI como pesas. Pistas: se fue y volvió a OpenAI, su Tweet
Vale la pena señalar que todo Llama2.c es bastante genérico solo para los modelos de lenguaje Transformer en general. Si OpenAI lanzara modelos como pesos (¡lo cual no puedo confirmar ni negar!), entonces la mayor parte del código aquí sería muy relevante.
Ligeramente editado. El énfasis es mío.
Otros consejos: sus trabajos anteriores incluyen nanoGPT, Software 2.0 y recientemente micro-LLM con Llama2.c
Si lo sabes, lo sabes. ?
llm.c de Karpathy: formación LLM en C/CUDA simple y sin formato. (Plan: una vez que esté en un estado un poco más estable, videos sobre cómo construirlo con más detalle y desde cero). [Tweet]
2022
... Incluso con los motores de búsqueda no conversacionales, sabemos que es común depositar una confianza indebida en los resultados: si el sistema de búsqueda coloca algo al principio de la lista, tendemos a creer que es un resultado bueno, verdadero o representativo. y si no encuentra algo, resulta tentador creer que no existe.
2023
Microsoft y OpenAI trabajan en Bing con tecnología ChatGPT en desafío a Google
Algunas observaciones sobre los modelos de lenguajes grandes del Prof. Yoav Goldberg.
Por qué ChatGPT no reemplazará los motores de búsqueda por Algolia en el corto plazo.
Claude de Anthropic mejora ChatGPT pero aún sufre limitaciones
Microsoft prevé una apuesta de 10.000 millones de dólares por ChatGPT
Wolfram|Alpha como la forma de llevar superpoderes del conocimiento computacional a ChatGPT
El director ejecutivo de DeepMind ayudó a generalizar la IA. Ahora pide precaución
DeepMind también está considerando lanzar su propio chatbot, llamado Sparrow, para una "beta privada" en algún momento en 2023. (El retraso es para que DeepMind trabaje en funciones basadas en el aprendizaje por refuerzo de las que carece ChatGPT, como citar sus fuentes ).
La disponibilidad general del servicio Azure OpenAI amplía el acceso a modelos de IA grandes y avanzados con beneficios empresariales adicionales: ChatGPT llegará pronto al servicio Azure OpenAI.
GPT-3 es el mejor diario que he usado
Evitar los filtros de spam de Gmail con ChatGPT
Reemplazo de un analista SQL con 26 mensajes GPT recursivos
Google está pidiendo a sus empleados que prueben posibles competidores de ChatGPT, incluido un chatbot llamado 'Apprentice Bard'
El lenguaje natural es la interfaz de usuario perezosa
Un siguiente paso importante en el viaje de Google hacia la IA: Google lanza Bard, un competidor de ChatGPT para los "probadores confiables". Bard es una nueva función de IA en la Búsqueda de Google. Bard es un servicio experimental de IA conversacional, impulsado por LaMDA (Modelo de lenguaje para aplicaciones de diálogo). Google promete que esto estará disponible más ampliamente en las próximas semanas. La API estará disponible para que los desarrolladores puedan desarrollarla. Google no ha explicado cómo planea proporcionar atribuciones y/o citas para sus respuestas, ya sea de Bard o en los resultados de búsqueda.
Microsoft anuncia el nuevo navegador Bing y Edge con tecnología ChatGPT AI mejorada
Hombre y máquina: GPT para segundos cerebros - Acerca del autor: el sistema de toma de notas del segundo cerebro: cómo mejorar los procesos de aprendizaje y gestión del conocimiento personal (PKM).
Baidu de China está desarrollando su propio ChatGPT y se une a la última carrera mundial de IA: Ernie o representación mejorada a través de la integración del conocimiento (artículo y documento de Ernie 3.0) es un LLM. Baidu planeaba lanzar un servicio de este tipo en marzo. Alibaba y Tencent también se unen a la fiebre de ChatGPT.
En 2019, Baidu desarrolló un modelo de aprendizaje profundo conocido como Ernie, basado en el avance de Google, que ha utilizado para mejorar sus resultados de búsqueda, incluso para hacerlos más relevantes. Desde entonces, la compañía ha desarrollado docenas de modelos Ernie más y ha ampliado sus capacidades para incluir generación de imágenes y arte, similares a las de Dall-E de OpenAI.
ChatGPT es un JPEG borroso de la Web: el chatbot de OpenAI ofrece paráfrasis, mientras que Google ofrece citas. ¿Cuál preferimos?
Hice que ChatGPT y Bing AI tuvieran una conversación (y ahora son amigos)
No se puede confiar en la IA de Bing
¿Qué hace ChatGPT y por qué funciona?
Bing: "No te haré daño a menos que tú me hagas daño primero" - Un buen resumen sobre el chatbot de IA de Bing "Sydney". La fascinante rareza de esto: múltiples personalidades dependiendo del contexto social (incitación). ¿Entretenido?
Parece cada vez más que esta puede ser una de las aplicaciones de IA más divertidamente inapropiadas que hayamos visto hasta ahora . ¿Qué podemos hacer con todo esto? Todo esto me parece absolutamente fascinante y profunda y oscuramente divertido. He estado jajaja con estos ejemplos todo el día.
La programación de IA me preocupa
El texto es todo lo que necesita: la personalidad parece ser más simple de lo que pensábamos: ignorando los globos, el autor supone que tenemos nuestra primera noticia significativa que define el año 2023: las reacciones iniciales del chatbot de inteligencia artificial de Bing "Sydney". ¿Es éste un momento copernicano? Un ensayo que invita a la reflexión. Creo que esta es la primera buena visión "formal" del impacto que tiene en nuestro sentido de identidad la aparición de sistemas conversacionales basados en LLM como ChatGPT.
En resumen, parece que Sydney tiene una maquinaria algo diferente bajo el capó que ChatGPT, y las transcripciones sugieren una personalidad que es más o menos la misma en términos de coherencia, pero un gran salto en términos de carisma y colorido . Dependiendo de cómo presiones a Sydney, parece capaz de interpretar cualquier cosa, desde un adolescente manipulador y malvado hasta un psicótico paranoico y un martinete conversacional obstinado y perentorio.
TrucoGPT
"Dave, estás haciendo suposiciones. ¿Puedes probar algo de esto?" De hecho, puedo hacerlo, ya que algunos envíos que requerían capturas de pantalla también incluían pestañas del navegador ChatGPT, que incluían útilmente el texto inicial del mensaje. Aparentemente, ni siquiera es algo que los estudiantes sientan que deban ocultar.
OpenAI ha anunciado en privado un nuevo producto para desarrolladores llamado Foundry (Tweet), que permite a los clientes ejecutar la inferencia de modelos OpenAI a escala con capacidad dedicada. (GPT-3.5 Turbo parece referirse al modelo ChatGPT Turbo)
No crea en ChatGPT: NO ofrecemos un servicio de "búsqueda de teléfono"
Mi clase requería IA. Esto es lo que he aprendido hasta ahora: Lecciones aprendidas al integrar ChatGPT en la educación. Las conclusiones: 1) El trabajo producido mediante estímulos con un enfoque de coedición (intercambiando ideas con el chatbot) tiende a terminar con los estudiantes haciendo el mejor trabajo; 2) Es necesario enseñar a los estudiantes cómo escribir indicaciones de forma eficaz; no es algo que les resulte natural.
Engaño emergente y optimización emergente: ¿se ha preguntado por qué los LLM simplemente prediciendo la siguiente palabra conducen a habilidades de planificación (comportamiento humano, novelas/historias)? Esta publicación analiza el concepto de engaño emergente y optimización emergente, que son dos estrategias que se pueden utilizar para lograr un objetivo. Hay dos principios para razonar sobre las capacidades emergentes futuras: 1) las capacidades que reducirían la pérdida de entrenamiento probablemente surgirán en el futuro. 2) a medida que los modelos crecen y se entrenan con más y mejores datos, las heurísticas simples tienden a ser reemplazadas por otras complejas. El principio 1 significa que los LLM capacitados para predecir palabras obtienen menores pérdidas si pueden simular habilidades de planificación.
Cómo hacer que los LLM digan cosas verdaderas - TL;DR: El método utiliza "World Model", una base de datos integrada llena de "creencias" (fragmentos de declaraciones declarativas) con un porcentaje de confianza que se calcula utilizando el teorema de Bayes.
Por qué China no inventó ChatGPT: El NYT sostiene que la censura excesiva, las tensiones geopolíticas con Estados Unidos y los intentos de controlar las empresas del sector privado han llevado a que las empresas chinas se queden atrás de sus homólogas estadounidenses en IA.
El primer chatbot MOSS similar a ChatGPT de China se lanza para pruebas públicas [Enlace directo a la aplicación]
Para China, ChatGPT puede ser un avance, pero también un "problema ético": el ministro de ciencia y tecnología de China dice que el chatbot ha conquistado a la sociedad china y ha adoptado medidas sobre la IA en relación con la ética.
Los esquemas ChatGPT para hacerse rico rápidamente están disponibles para revistas, Amazon y YouTube (2023)
Snapchat lanza su propio chatbot 'My AI' impulsado por ChatGPT
El poderoso modelo de lenguaje de IA de Meta, LLaMA, se filtró en línea: ¿qué sucede ahora? - La transcripción de la entrevista de Shawn Presser para The Verge es más interesante.
Creo que es muy probable que el lanzamiento de este modelo suponga un gran hito. La capacidad de ejecutar LLaMA en una sola GPU A100 , a la que "la mayoría de nosotros tenemos acceso... o conocemos a alguien que puede dejarnos usar una por un tiempo", es un "gran salto".
Para ser exactos, puede ejecutar LLaMA-65B con precisión int8 (bnb) en una única GPU A100 de 80 GB.
Resulta que ese código apesta. Realmente no quiero ser demasiado duro con ellos, ya que es fácil subestimar lo importante que es tener la configuración predeterminada exactamente correcta. Pero todos sus valores predeterminados estaban arruinados. No usaron "Top K". Usaron Top P, del cual nunca obtuve buenos resultados (ya sea idéntico al top k o un poco peor). Su temperatura predeterminada era 0,8, que era demasiado alta. Y lo peor de todo es que no tenían una penalización por repetición, por lo que, por defecto, esta cosa simplemente parloteaba una y otra vez sobre exactamente lo mismo.
¡100% esto! También aprendí la lección en mi tenedor LLaMA. La configuración de mi muestra no era óptima. Los gritos son obvios y lo he visto. Pero no sé por qué no arreglé la penalización por repetición de la muestra antes.
ChatGPT explicado: una guía de Normie sobre cómo funciona: incluso mis abuelos pueden entender esto. ¿Pero el nerd va a ser nerd de todos modos?
¿Para qué deberías usar ChatGPT?
Lo que tengo claro es que estamos en un nuevo paradigma en la forma en que navegamos por el contenido, ya sea a través de este modelo u otros que se lanzarán próximamente. Al solicitarlo, el nuevo universo nos da resultados, pero esos resultados son más vibraciones direccionales que respuestas concretas. Depende de nosotros descubrir cómo dirigirlos de la manera que queramos para obtener los mejores resultados y sortear el ruido.
Los grandes modelos lingüísticos están teniendo su momento de Difusión Estable (simonwillison.net)
Todo esto cambió ayer gracias a la combinación del modelo LLaMA de Facebook y llama.cpp de Georgi Gerganov.
(1) Fácil de ejecutar en mi propio hardware
(2) Código lo suficientemente abierto como para poder modificarlo
(3) Lo suficientemente grande como para ser útil; idealmente equivalente en capacidades a GPT-3
No es el momento perfecto. Hemos logrado 1 y 3 excepto 2. LLaMA NO es en realidad de código abierto (si bien la licencia para el código es GPL 3, los pesos del modelo no lo son). Los modelos verdaderamente abiertos realmente importan.
A medida que se reanuda la charla sobre GPT-4, el pionero del aprendizaje profundo Yoshua Bengio dice que ChatGPT es una "llamada de atención": la llamada de atención fue GPT-3 y las leyes de escala en 2021. Es solo que ahora el despertador sonó más fuerte.
La API de ChatGPT es tan buena y barata que hace que la mayoría de las IA que generan texto queden obsoletas
Confirmado: el nuevo Bing se ejecuta en GPT-4 de OpenAI; Bing Chat (Sydney) fue GPT-4 desde el principio.
Wikipedia: un buen resumen de GPT-4.
El futuro multimodal, multimodelo y multitodo de AGI: resumen de GPT-4.
¿Puede GPT-4 realmente escribir código? - Probar las capacidades de escritura de código de GPT 4 con algunos problemas reales del mundo real.
¿Podrías entrenar un modelo que supere ChatGPT por $85,000 y ejecutarlo en un navegador?
GPT4: Las partes tranquilas y el estado del ML
GPT-4 diseñó un lenguaje de programación
Las habilidades impredecibles que surgen de los grandes modelos de IA
Pruebe Bard y comparta sus comentarios: Google comienza a abrir el acceso a Bard, un experimento inicial que le permite colaborar con IA generativa. Están comenzando con los EE. UU. y el Reino Unido, y con el tiempo se expandirán a más países e idiomas.
Bard de Google va por detrás de GPT-4 y Claude en una comparación directa
NVIDIA lleva la IA generativa a las empresas del mundo con servicios en la nube para crear modelos visuales y de lenguaje de gran tamaño: NVIDIA AI Foundations es que NVIDIA va más allá de un proveedor de hardware puro y se convierte en software que respalda la IA generativa con sus ofertas para cada carga de trabajo, desde el modelo básico como servicio (próximamente). a empresa, personalizado para sus datos propietarios) a multimodal desde el día 1.
GitHub Copilot X: la experiencia de desarrollador impulsada por IA: GitHub Copilot está evolucionando para brindar interfaces de chat y voz, admitir solicitudes de extracción, responder preguntas sobre documentos y adoptar GPT-4 de OpenAI para una experiencia de desarrollador más personalizada.
Hacer trampa es todo lo que necesitas por Steve Yegge, Sourcegraph.
Mientras hablamos, está sucediendo algo legendario e histórico en la ingeniería de software y, sin embargo, la mayoría de ustedes no se dan cuenta de lo grande que es.
Los LLM no son solo el cambio más grande desde las redes sociales, los dispositivos móviles o la nube, son lo más grande desde la WWW.
Quiero decir, esto es increíblemente poderoso. Y, sin embargo, me encuentro persistentemente con una mezcla de incredulidad y aferramiento a las perlas.
... cinco veces más productivo. ?
Una breve minihistoria de los LLM
El remate, y sinceramente es una de las cosas más difíciles de explicar, por lo que hoy voy a seguir el camino basado en la fe, es que todos los ganadores en el espacio de la IA tendrán fosos de datos . ... ¿Por qué? Porque el foso de datos es la forma en que se llena la ventana contextual ("hoja de referencia") .
Los LLM no son una moda tonta, como las criptomonedas. Sí, las criptomonedas fueron una moda tonta. Esto no es eso.
Google "No tenemos foso, y OpenAI tampoco": un documento interno filtrado de Google afirma que la IA de código abierto superará a Google y OpenAI.
El enfoque de IA de "cuanto más grande, mejor" se está quedando sin camino
Comprender los tokenizadores GPT por Simon Willison.
Canon IA
Está empezando a ponerse extraño: hablemos de ChatGPT con Code Interpreter y Microsoft Copilot.
Donald Knuth juega con ChatGPT: Knuth es un informático. Conocido como el "padre" del análisis de algoritmos.
Google I/O 2023 y las próximas batallas de IA
Modelos sin censura: WizardLM sin censura. Como ya se había trabajado para eliminar la censura de Vicuña, pude reescribir su guión para que funcione en el conjunto de datos de WizardLM.
Arquitectura del modelo GPT-4 (Tweets): derivado de la fuente original (publicación de blog): arquitectura GPT-4, infraestructura, conjunto de datos de capacitación, costos, visión, MoE
Llama 2: un increíble LLM abierto: el mejor resumen del artículo de Llama 2.
Llama 2: todos los recursos que necesita, de Philipp Schmid.
Modelos de lenguaje grandes, explicados con un mínimo de matemáticas y jerga: parecía una buena explicación sobre cómo funcionan los LLM. No sé cómo apreciar la última sección que aborda un poco de filosofía y teorías sobre cómo aprenden los humanos. (la última sección carece de afirmación basada en evidencia)
Entonces, ¿quieres crear tu propio chatbot estilo ChatGPT de código abierto (hacks.mozilla.org)?
¿Cómo es posible LLaMa.cpp? (finbarr.ca) - Mucho antes de que el LLM se generalizara, todo el mundo decía que los modelos grandes requerían muchas GPU costosas. Al igual que el autor, queremos demostrar que están equivocados. El autor de esta publicación aprovechó su confusión y se sumergió en las matemáticas que rodean los requisitos de inferencia para comprender las restricciones con las que estamos tratando. Sorprendentemente, aquí no hay magia, sólo cosas que al principio escapan a nuestra comprensión. La compresión del modelo o, más específicamente, la cuantificación lo hacen posible. Sin embargo, no hay "almuerzo gratis": el costo del modelo cuantificado es esencialmente que se pierde algo de precisión. Es decir, para tamaños de modelos muy grandes, las diferencias pueden ser insignificantes. ¿Curioso? Esta publicación semi-relacionada hizo una comparación entre diferentes perplejidades/precisiones cuantificadas de Transformers.
Venciendo a GPT-4 en HumanEval con un CodeLlama-34B afinado (www.phind.com): buen progreso y sin grandes sorpresas. Me he dado cuenta de que puntos de referencia como estos para modelos tienden a ser métricas deficientes para medir qué tan bien se desempeñan los modelos en el trabajo real. Esa ha sido mi experiencia con los modelos abiertos.
2024
Necesitamos puntos de referencia o algún tipo de evaluación independiente y humana de las tareas del mundo real .
Según Gwern:
¿Un nuevo paradigma de programación? Usted interactúa con él, expresando cualquier tarea en términos de descripciones, solicitudes y ejemplos en lenguaje natural, modificando el mensaje hasta que "comprende" y metaaprende la nueva tarea. Esta es una forma bastante diferente de usar un modelo, y es mejor pensar en ello como un nuevo tipo de programación, la programación de mensajes , donde el mensaje es ahora un lenguaje de codificación que programa GPT-3 para hacer cosas nuevas.
La "incitación" como disciplina de ingeniería no llegó para quedarse. Es un apoyo temporal en el camino hacia las interfaces de lenguaje natural. ChatGPT resuelve una gran parte del problema de las solicitudes. Agregar ingeniería a un término para amplificar su importancia o dificultad percibida podría resultar innecesario. Probablemente podríamos llamarlo "prueba/piratería rápida" y no perder nada de significado.
Artículos relacionados:
Por qué se sobrevaloran la "ingeniería rápida" y la "IA generativa"
Tweets relacionados:
La ingeniería rápida está muerta, larga vida a la ingeniería del diálogo. — Vicepresidente de Producto, OpenAI
Se busca: ingeniero rápido. Mínimo 10 años de experiencia en ingeniería inmediata. #contratación #broma
¿Por qué ChatGPT funciona tan bien? ¿Se trata simplemente de ampliar GPT-3 bajo el capó? En este ?, analicemos el paradigma "Instruir", sus profundos conocimientos técnicos y una gran implicación: la "ingeniería rápida" tal como la conocemos probablemente desaparezca pronto . Fuente: https://archive.is/dqHI8
Aparentemente, en 2023, la programación rápida no está muerta. El nuevo lenguaje de programación más popular es el inglés ~ Karpathy :))
Simon Willison publicó En defensa de la ingeniería rápida como respuesta al argumento de que "la ingeniería rápida se volverá obsoleta a medida que las IA mejoren" que sigue viendo.
El periódico dice que el susurrador de IA ('ingenieros rápidos') es el nuevo trabajo más popular de la tecnología (2023).
La mejor guía de ingeniería rápida para desarrolladores que trabajan con modelos de lenguajes grandes como GPT-4, ChatGPT y modelos abiertos como LLaMA sería una combinación de múltiples recursos. A continuación se muestran algunos recursos de aprendizaje, herramientas, bibliotecas y marcos que le ayudarán a aprender y dominar la ingeniería rápida:
Al utilizar estos recursos, puede obtener una comprensión sólida de la ingeniería rápida y desarrollar las habilidades necesarias para trabajar de manera efectiva con LLM.
( * El término de ingeniería de avisos pasó a llamarse aviso. El término está sobrecargado y puede ser innecesario).
Más: Videos de YouTube de curated.tivul.com (no cura esto, por lo que la calidad no está garantizada)
Desarrollo de aplicaciones nativas de AI. Integración de chatgpt. Aplicaciones AI de próxima generación. Capa de "App Store" para modelos de idiomas (incluida Huggingface "App Store").
Agentes autónomos potenciados de LLM (publicación de blog) de Lilian Weng, 2023.
La potencialidad de LLM se extiende más allá de generar copias, historias, ensayos y programas bien escritos; Se puede enmarcar como un poderoso solucionador general de problemas.
En un sistema de agente autónomo con alimentación de LLM, LLM funciona como el cerebro del agente, complementado por varios componentes clave: planificación, memoria y herramientas.
Desafíos: planificación a largo plazo y descomposición de la tarea, confiabilidad de la interfaz del lenguaje natural.
Desarrollador de SMOL: incrusta un agente de desarrolladores en su propia aplicación.
Sistemas de recuperación para acceder a fuentes de información personal u organizacional. Incrustaciones. Base de datos y almacén de datos diseñado para modelos de aprendizaje automático y PNL.
Bases de datos de vectores para indexar y buscar documentos
Queremos una alternativa de chatgpt como difusión estable.
¿Frustrado por todo el control alrededor de AI? ¿Todavía espera o no puede obtener acceso a Llama?
Objetivos
Objetivo final: versión autohospedada de ChatGPT.
Lecciones
Takeaways de Eleutherai un año retro (2021):
Flan-t5 xxl también conocido como. Chatgpt@home es un modelo público que ha sufrido instrucciones de finecing. XXL es un modelo 11B. Actualmente es el modelo más comparable contra ChatGPT (los modelos instructvPT se inicializan a partir de la serie GPT-3.X (tarjeta modelo)). Hay intentos exitosos de implementación de FLAN-T5 en GPU con 24 GB de RAM con inferencia Bitsandbytes-In8 para abrazar modelos de cara. Puede ejecutar el modelo fácilmente en una sola máquina, sin degradación del rendimiento. Esto podría ser un cambio de juego para permitir que las personas fuera de las grandes compañías tecnológicas puedan usar estos LLM. Los esfuerzos ya están en marcha para crear un mejor flan-t5. La comunidad (es decir, Laion) está trabajando en la arquitectura Flant5-Atlas y una colección de conjuntos de datos de instrucciones.
Asistente abierto: replicación de chatgpt de código abierto de Laion, Yannic Kilcher et al. Este proyecto está destinado a dar a todos acceso a un excelente modelo de idioma grande basado en chat. (Codificación en vivo de asistente abierto con Yannic Kilcher (Video)) Planes de alto nivel:
Fase 1: Recopilación de indicación para Finetuning supervisado (SFT) y para obtener las indicaciones para completar/respuestas generadas por el modelo.
Fase 2: retroalimentación humana (EG Ranking) de múltiples salidas generadas por el modelo. Se muestran el ejemplo de cinco salidas del modelo y el usuario debe clasificarlas de mejor a peor.
Fase 3: Optimización con RLHF que planeamos hacer a través de TRLX. Y luego, iteramos con este nuevo modelo nuevamente sobre la Fase 2 y la Fase 3, con suerte varias veces.
Los modelos serán capacitados en Summit SuperComuter (~ 6 millones de nvidia V100 horas por año) [Fuente]
Más información, consulte la propuesta de Laion LLM (Google Doc) anterior.
Progreso:
Febrero de 2023: Joi-20b-Instructo es un modelo de 20B ajustado en un conjunto diverso de conjuntos de datos de instrucciones y basado en NEOX-20B.
No oficial: este es un modelo previo a la liberación temprana (parte del desarrollo de MVP, fase 1), no directamente abiertos (OA) modelos. Son experimentos del equipo de ML para aprender qué datos, modelo de base, métodos funcionarán bien para OA. Como se indica en las preguntas frecuentes del sitio web, todavía no hay demostración. Esto es para que los desarrolladores prueben la versión de desarrollo temprano de la sintonización de instrucciones para el modelo. Tal vez los primeros modelos OA se deriven de estos. Han estado entrenando buenos modelos de forma continua a medida que se completan los nuevos conjuntos de datos. Hay una variedad de tamaños de modelo de 1.4B a 20B de parámetros disponibles en el HF Hub.
Chatty-LMS Build by Huggingface H4 Team: una interfaz de usuario para probar el modelo de instrucciones Joi-20B. Puedes chatear con él. El agente responderá como Joi (el apodo de bot).
Ejemplo de fragmento de código para ejecutar el modelo en sus propias GPU: https://gist.github.com/cedrickchee/236e53ed2dca95bd96e5baa35cdd7be2
Mar 2023: Actualmente están procesando los datos recopilados de las contribuciones. Los datos tienen más de 100k mensajes, lo que significa millones de contribuciones. La calidad de los datos está más allá de lo que han esperado: la mayoría de las contribuciones son de alta calidad. Ahora, están exportando el V1 del conjunto de datos. Como se dice, actualmente están entrenando el lote inicial de modelos.
11 de marzo de 2023: El conjunto de datos Generalista de instrucciones abiertas (OIG) se lanzará. La OIG es un gran conjunto de datos de instrucciones de código abierto que actualmente contiene ~ 43 m de instrucciones.
OIG es uno de los muchos conjuntos de datos de chatbot que Laion, junto con sus voluntarios, Ontocord, juntos y otros miembros de la comunidad de código abierto, liberarán y está destinado a crear el mismo acceso a la tecnología Chatbot. Todos son bienvenidos a usar el conjunto de datos y contribuir con mejoras.
El conjunto de datos OIG está relacionado con el proyecto Asistente abierto de Laion.
9 de marzo de 2023: Modelo SFT-1 12B de asistencia abierta-Prototipo temprano del modelo de ajuste supervisado en inglés (SFT) del proyecto de asistencia abierta. Se basa en una Pythia 12B que fue ajustada en ~ 22k manifestaciones humanas de conversaciones asistentes recolectadas antes del 7 de marzo de 2023. Aunque el modelo es solo un hito de desarrollo, se puede usar para algunas tareas creativas. Prueba: Space Huggingface (UI de chatbot no offial fácil y rápida), Google Collab. Aquí hay una guía sobre cómo ejecutar el modelo localmente en su propia computadora con una GPU.
23 de marzo de 2023: Este proyecto está empezando a dar forma bien. El modelo está llegando.
/r/ask_open_assistant
. Código15 de abril de 2023: ¡OpenAsistant está oficialmente fuera! La versión incluye modelos, conjuntos de datos y una interfaz de chat. [Video de anuncio, prueba, modelos]
Subreddit
Nota: Consulte el repositorio de GitHub para obtener información actualizada.
Carpai/trlx
Noticias (2023-01-13): Replicaron el aprendizaje de OpenAI para resumir el papel usando la biblioteca TRLX. [informe]
Lucidrains/Palm-Rlhf-Pytorch-(WIP) Implementación de RLHF en la parte superior de la arquitectura Palm. Básicamente chatgpt pero con palma. El desarrollador planea agregar funcionalidad de recuperación también, a la retro. [Piar]
2023: Algo divertido en sus preguntas frecuentes:
No hay modelo entrenado. Este es solo el barco y el mapa general. Todavía necesitamos millones de dólares de cálculo + datos para navegar al punto correcto en el espacio de parámetros de alta dimensión. Incluso entonces, necesita marineros profesionales (como Robin Rombach de la fama de difusión estable) para guiar el barco a través de tiempos turbulentos hasta ese momento.
Noticias (2022-12-31): Ahora hay una alternativa de código abierto a ChatGPT, pero buena suerte ejecutándolo, mis comentarios: No, no lo ha hecho. Este no es un modelo entrenado real (sin pesos) que pueda usar. Esto es solo un código para entrenar un modelo tipo CHATGPT. Además, los datos de entrenamiento (enwik8) son pequeños.
El tren de modelo RLHF a gran escala (TRLX) de CarPerai con los datos de Laion saldrá a principios del próximo año. (Fuente: Tweet)
Allenai/RL4LMS - RL para modelos de idiomas (RL4LMS) por Allen AI. Es una biblioteca RL modular para ajustar los modelos de lenguaje a las preferencias humanas.
GPT-JT by Together Research Computer es un ejemplo que distribuye la capacitación de modelos a través de GEO-distribuido de diversas computadoras (y GPU). GPT-JT (6B) es una variante bifurcada en el GPT-J de Eleutherai, y funciona excepcionalmente bien en la clasificación de texto y otras tareas. En los puntos de referencia de clasificación como la balsa, se acerca a los modelos de última generación que son mucho más grandes (por ejemplo, instructtgpt davinci v2). [Documento: capacitación descentralizada de modelos fundamentales en entornos heterogéneos (2022)]
Leam (grandes modelos europeos de IA): la UE planea financiar el desarrollo de un modelo a gran escala similar a ChatGPT. [Sitio web, Documentos del proyecto (inglés, PDF), Documento conceptual (alemán, PDF)]
/R/AICROWDFUND - Un lugar que acaba de comenzar (2023) donde las personas pueden encontrar una manera de multiplicar (con GPU) una gran IA. No estoy seguro de si han visto pétalos donde puedes ejecutar LLM en casa, estilo BitTorrent (¿Aprendizaje federado?). Parece estar en esa dirección.
La solución de código abierto replica el proceso de capacitación de ChatGPT: presenta un proceso de implementación equivalente de CHATGPT de bajo costo de código abierto, que incluye:
Tuve la impresión de que el punto del artículo era conectar su marco y producto Colossal-AI, una colección de componentes paralelos, herramientas y trabajos duros para modelos grandes. Francamente, sus números me parecen sospechosos, a menos que me haya perdido algo. Lo que hace que ChatGPT sea interesante (sobre GPT-3) es el proceso RLHF. Afirman replicar el proceso RLHF por completo. Pero, el artículo toca a la ligera sobre su implementación RLHF. Entrenan a RLHF usando un pequeño conjunto de datos de ejemplo de ChatGpt como ejemplo de datos. Sus detalles de implementación de RLHF están ocultos aquí: https://github.com/hpcaitech/colossalai/blob/main/applications/chatgpt. Sin embargo, la falta de demostración no inspira demasiada confianza.
Flexgen: ejecutando LLM como OPT-175B/GPT-3 en una sola GPU (por ejemplo, un T4 de 16 GB o una tarjeta de juego RTX3090 de 24 GB). Características clave: 1) hasta 100 veces más rápido que otros sistemas de descarga. 2) Complete tanto los parámetros como el caché de atención de los modelos hasta 4 bits con pérdida de precisión insignificante. 3) Paralelismo distribuido de la tubería. También proporcionan un script e instrucciones de Python que puede ejecutar un chatbot con modelos OPT. Esto debería resolver los desafíos de los altos requisitos computacionales y de memoria de la inferencia de LLM. El chatbot que construyen con modelos FlexGen y OPT no está ajustado a las instrucciones (RLHF). Sin embargo, este chatbot no es como chatgpt. [Inferencia generativa de alto rendimiento de LLM con una sola GPU (papel), Stanford et al., 2023]