
Los mejores recursos del modelo de idioma grande del mundo se actualizan constantemente
Verifique más información
[Leer en línea]
Contenido
- Datos
- Sintonia FINA
- Inferencia
- Evaluación
- Uso de experiencia
- Trapo de la base de conocimiento
- Agentes
- Buscar
- Libros
- Curso
- Tutorial
- Papel
- Consejos
Datos
Nota
Aquí se denominan数据
, pero no se proporcionan un conjunto de datos específico aquí, pero se proporciona un método para procesar la adquisición de datos a gran escala.
Siempre creemos que es mejor enseñar a las personas cómo pescar que enseñar a las personas cómo pescar
- Aotolabel: etiqueta, limpia y enriquece los conjuntos de datos de texto con LLM.
- LabellLM: la plataforma de anotación de datos de código abierto.
- Data-Juicer: ¡un sistema de procesamiento de datos único para que los datos de mayor calidad, más jugoso y más digestible para LLM!
- Omniparser: un analizador de transmisión de transmisión y transformación nativo de Golang ETL para CSV, JSON, XML, EDI, texto, etc.
- Mineru: Mineru es una herramienta única, de código abierto y de alta calidad, admite la extracción PDF/Página web/libro electrónico.
- PDF-Extract-Kit: un conjunto de herramientas integral para la extracción de contenido PDF de alta calidad.
- Parsera: biblioteca liviana para raspar los sitios web con LLM.
- Sparrow: Sparrow es una innovadora solución de código abierto para extracción y procesamiento de datos eficientes de varios documentos e imágenes.
- Docling: Transforme PDF a JSON o Markdown con facilidad y velocidad.
- GOT-OCR2.0: Modelo OCR.
- LLM Descontaminador: Repensar el punto de referencia y la contaminación para los modelos de idiomas con muestras reformuladas.
- Datatrove: Datatrove es una biblioteca para procesar, filtrar y deduplicar datos de texto a una escala muy a gran a gran.
- LLM-SAGAR: Genere grandes conjuntos de datos sintéticos como Cosmopedia.
- DISTILABEL: DISTILABEL es un marco para los datos sintéticos y la retroalimentación de IA para los ingenieros que necesitan tuberías rápidas, confiables y escalables basadas en trabajos de investigación verificados.
- Common-rasthing-pipeline-creator: el creador de tubería de rastreo común.
- ABODIDO: Detectar y extraer tablas a Markdown y CSV.
- Zerox: cero Shot PDF OCR con GPT-4O-Mini.
- Doclayout-yolo: Mejora del análisis de diseño de documentos a través de diversos datos sintéticos y percepción adaptativa global a local.
- Tensorzero: hacer que los LLM mejoren a través de la experiencia.
- PROCTWRIGHT: Genere grandes datos sintéticos utilizando un LLM local.
- PDF-Extract-API: Document (PDF) API de análisis utilizando modelos modernos de estado del arte OCRS + Ollama.
- PDF2HTMLEX: Convertir PDF a HTML sin perder texto o formato.
- Extracto: extracción de datos no estructurados rápidos y eficientes.
↥ De vuelta a la cima
Sintonia FINA
- Llama-Factory: unifique el ajuste fino eficiente de más de 100 LLM.
- Descanso: 2-5x más rápido 80% menos de memoria LLM Finenetning.
- TRL: aprendizaje de refuerzo de transformadores.
- Firefly: Firefly: una gran herramienta de entrenamiento de modelos que admite docenas de modelos grandes
- Xtuner: un kit de herramientas eficiente, flexible y con todas las funciones para ajustar modelos grandes.
- Torchtune: una biblioteca nativa de Pytorch para el ajuste fino de LLM.
- Swift: use PEFT o parámetro completo para Finetune 200+ LLMS o 15+ MLLMS.
- Autotrain: una nueva forma de entrenar, evaluar e implementar automáticamente modelos de aprendizaje automático de última generación.
- OpenRLHF: un marco RLHF de alto rendimiento fácil de usar, escalable y de alto rendimiento (soporte 70B+ Tuning completo y Lora & Mixtral & KTO).
- Ludwig: Marco de bajo código para construir LLMS personalizados, redes neuronales y otros modelos de IA.
- Mistral-Finetune: una base de código de peso ligero que permite la fina de los modelos de Mistral de Mistral.
- AIKIT: ¡Tinga, construye e implementa fácilmente LLM de código abierto!
- H2O-LLMSTUDIO: H2O LLM Studio: un marco y una GUI sin código para ajustar LLM.
- LITGPT: Pretrain, Finetune, Implementa 20+ LLM en sus propios datos.
- LLMBox: una biblioteca integral para la implementación de LLM, incluida una tubería de capacitación unificada y una evaluación integral del modelo.
- Paddlenlp: Biblioteca NLP y LLM fácil de usar y potente.
- WorkBench-LlamaFactory: este es un proyecto de ejemplo de Borkbench Nvidia AI que demuestra un flujo de trabajo de desarrollo de modelos de extremo a extremo utilizando LlamaFactory.
- OpenRLHF: un marco RLHF de alto rendimiento fácil de usar, escalable y de alto rendimiento (70B+ PPO Tuning completo y DPO iterativo y Lora & Mixtral).
- Tinyllava Factory: un marco de modelos multimodales grandes a pequeña escala.
- LLM-Foundry: Código de entrenamiento LLM para modelos de Databricks Foundation.
- LMMS-Finetune: una base de código unificada para modelos multimodales grandes de Finetuning (Full, Lora), admitiendo Llava-1.5, Qwen-VL, Llava-Interleave, Llava-Next-Video, Phi3-V, etc.
- Simplifine: Simplifine le permite invocar la finalización de LLM con solo una línea de código utilizando cualquier conjunto de datos o modelo de datos de abrazos.
- Transformer Lab: Aplicación de código abierto para ingeniería LLM avanzada: interactuar, entrenar, afinar y evaluar modelos de idiomas grandes en su propia computadora.
- Liger-Kernel: Kernels Triton eficientes para el entrenamiento LLM.
- Chatlearn: un marco de capacitación flexible y eficiente para la alineación a gran escala.
- Nanotrón: Modelo de lenguaje grande minimalista Entrenamiento de paralelismo 3D.
- Aunging proxy: modelos de lenguaje de ajuste por proxy.
- Alineación de LLM efectiva: Kit de herramientas de alineación de LLM efectivo.
- Avanzado
- Meta Lingua: una base de código delgada, eficiente y fácil de atrapar para investigar LLM.
- Vision-llm Alignemnt: este repositorio contiene el código para SFT, RLHF y DPO, diseñado para LLM basados en la visión, incluidos los modelos Llava y los modelos LLAMA-3.2-Vision.
- FINETUNE-QWEN2-VL: inicio rápido para ajustar o continuar el modelo QWEN2-VL previo al entrenamiento.
↥ De vuelta a la cima
Inferencia
- Ollama: Llegue en funcionamiento con Llama 3, Mistral, Gemma y otros modelos de idiomas grandes.
- Abra WebUI: WebUI fácil de usar para LLMS (anteriormente Ollama Webui).
- Text Generation WebUI: una interfaz de usuario web de Gradio para modelos de idiomas grandes.
- Xinferencia: una biblioteca poderosa y versátil diseñada para servir lenguaje, reconocimiento de voz y modelos multimodales.
- Langchain: construir aplicaciones de razonamiento con contexto.
- Llamaindex: un marco de datos para sus aplicaciones LLM.
- LOBE-CHAT: un marco de chat LLMS/AI de código abierto, moderno de LLMS/AI.
- Tensorrt-LLM: Tensorrt-LLM proporciona a los usuarios una API de Python fácil de usar para definir modelos de idiomas grandes (LLM) y construir motores Tensorrt que contengan optimizaciones de última generación para realizar una inferencia de manera eficiente en las GPU NVIDIA.
- VLLM: una inferencia de alto rendimiento y eficiente de memoria y un motor de servicio para LLM.
- Llamachat: Chatea con tus modelos de LLAMA favoritos en una aplicación nativa de macOS.
- NVIDIA CHATRTX: CHATRTX es una aplicación de demostración que le permite personalizar un modelo de lenguaje grande GPT (LLM) conectado a su propio contenido: Docs, notas u otros datos.
- LM Studio: descubrir, descargar y ejecutar LLMS locales.
- chat-with-mlx: chatee con sus datos de forma nativa en Apple Silicon usando MLX Framework.
- Precios de LLM: ¡Encuentre rápidamente la API de modelos de idiomas grandes (LLM) para su presupuesto!
- Interpreter abierto: una interfaz de lenguaje natural para computadoras.
- Chat-LOlama: un chatbot de código abierto basado en LLMS.
- CHAT-UI: Base de código código abierto que enciende la aplicación HuggingChat.
- MEMGPT: Crear agentes LLM con memoria a largo plazo y herramientas personalizadas.
- Koboldcpp: una forma simple de un archivo de ejecutar varios modelos GGML y GGUF con la interfaz de usuario de Koboldai.
- LLMFARM: LLAMA y otros modelos de idiomas grandes en iOS y MacOS fuera de línea utilizando la biblioteca GGML.
- Enchanted: Enchanted es la aplicación iOS y MacOS para chatear con modelos de idiomas privados alojados como LLAMA2, Mistral o Vicuna usando Ollama.
- Flowise: arrastre y suelte la interfaz de usuario para construir su flujo LLM personalizado.
- Jan: Jan es una alternativa de código abierto a ChatGPT que se extiende 100% fuera de línea en su computadora.
- LMDePloy: LMDePloy es un kit de herramientas para comprimir, implementar y servir LLM.
- Routellm: un marco para servir y evaluar enrutadores LLM: ¡ahorre costos de LLM sin comprometer la calidad!
- Minferencia: a punto de acelerar la inferencia de LLMS de larga duración, apropiado y dinámico, calcule la atención, lo que reduce la latencia de inferencia hasta 10 veces para el repleto de un A100 mientras mantiene la precisión.
- MEM0: La capa de memoria para IA personalizada.
- Sglang: Sglang es otro marco de servicio rápido para modelos de idiomas grandes y modelos de lenguaje de visión.
- AirllM: AirllM optimiza el uso de la memoria de inferencia, lo que permite que los modelos de lenguaje grandes 70B ejecuten una inferencia en una sola tarjeta de GPU de 4 GB sin cuantificación, destilación y poda.
- LLMHUB: LLMHUB es una plataforma de administración ligera diseñada para optimizar la operación y la interacción con varios modelos de lenguaje (LLM).
- Yuanchat
- Litellm: llame a todas las API de LLM usando el formato OpenAI [Bedrock, Huggingface, Vertexai, Tocai, Azure, OpenAi, Groq, etc.]
- Guidellm: Guidellm es una herramienta poderosa para evaluar y optimizar la implementación de grandes modelos de idiomas (LLM).
- Engenes de LLM: un motor de inferencia unificado para modelos de idiomas grandes (LLM) que incluyen modelos de código abierto (VLLM, SGLANG, Together) y modelos comerciales (OpenAI, Mistral, Claude).
- Oarc: Ollama_AGENT_ROLL_CAGE (OARC) es un agente local de Python que fusiona Ollama LLM con modelos de discurso Coqui-Tts, clases de keras, visión de Llava, reconocimiento de susurro y más para crear un agente de chatbot unificado para automatización local, personalizada.
- G1: Uso de LLAMA-3.1 70B en Groq para crear cadenas de razonamiento similares a O1.
- MemoryScope: MemoryScope proporciona chatbots LLM con capacidades de memoria a largo plazo potentes y flexibles, que ofrece un marco para construir tales habilidades.
- OpenLLM: Ejecute cualquier LLM de código abierto, como Llama 3.1, Gemma, como punto final API compatible de OpenAI en la nube.
- Infinito: la base de datos nativa de AI creada para aplicaciones LLM, que proporciona una búsqueda híbrida increíblemente rápida de incrustación densa, incrustación escasa, tensor y texto completo.
- OptillM: un proxy de inferencia optimizada compatible con API de OpenAI que implementa varias técnicas de última generación que pueden mejorar la precisión y el rendimiento de los LLM.
- Llama Box: LLM Inference Server Implementation basada en llama.cpp.
↥ De vuelta a la cima
Evaluación
- LM-Evaluación-Harness: un marco para la evaluación de pocos disparos de los modelos de idiomas.
- OpenCompass: OpenCompass es una plataforma de evaluación LLM, que respalda una amplia gama de modelos (LLAMA3, Mistral, Internlm2, GPT-4, LLAMA2, QWEN, GLM, CLAUDE, etc.) de más de 100 conjuntos de datos.
- LLM-Comparator: LLM Comparator es una herramienta de visualización de datos interactiva para evaluar y analizar las respuestas de LLM de lado a lado, desarrollada.
- Evalscope
- Weave: un juego de herramientas liviano para rastrear y evaluar aplicaciones LLM.
- Mixeval: derivando la sabiduría de la multitud de las mezclas de referencia LLM.
- Guía de evaluación: si alguna vez se ha preguntado cómo asegurarse de que un LLM funcione bien en su tarea específica, ¡esta guía es para usted!
- Ollama Benchmark: LLM Benchmark para el rendimiento a través de Ollama (LLMS local).
- VLMEVALKIT: Kit de herramientas de evaluación de código abierto de grandes modelos en idioma de visión (LVLM), soporte ~ 100 VLMS, más de 40 puntos de referencia.
LLM API 服务平台
:
- Hacer surgimiento
- Flujo a base de silicio
- Motor volcánico
- Wen xin qianfan
- Guarnición
↥ De vuelta a la cima
Uso de experiencia
- LMSYS Chatbot Arena: Benchmarking LLMS en la naturaleza
- Arena de maquetas de compassarena sinan
- Langya Bang
- Spaces Huggingface
- Espacios de Wisemodel
- Poe
- Lista salvaje de Big Model de Brother Lin
- OpenRouter
- Cualquier chat
↥ De vuelta a la cima
Trapo de la base de conocimiento
- Cualquierallm: la aplicación AI todo en uno para cualquier LLM con capacidades completas de agente de trapo y IA.
- MaxKB: un sistema de preguntas y respuestas de base de conocimiento basado en el modelo de lenguaje grande LLM. Fuera de la caja, admite una incrustación rápida en sistemas comerciales de terceros
- Ragflow: un motor trapo de código abierto (generación de generación de recuperación) basado en una comprensión profunda de documentos.
- DiFY: una plataforma de desarrollo de aplicaciones LLM de código abierto.
- FASTGPT: una plataforma basada en el conocimiento basada en el LLM, ofrece capacidades de procesamiento de datos y modelos listos para usar y capacidades de invocación de modelos, permite la orquestación de flujo de trabajo a través de la visualización de flujo.
- Langchain-Chatchat: una pregunta y respuesta de la base de conocimiento local basada en diferentes modelos de idiomas grandes como Langchain y Chatglm
- Qanything: Pregunta y respuesta basada en cualquier cosa.
- Quivr: ¿Un asistente de productividad personal (RAG) ⚡️?
- RAG-GPT: Rag-GPT, Appeding LLM y Rag Technology, aprende de las bases de conocimiento personalizadas por el usuario para proporcionar respuestas contextualmente relevantes para una amplia gama de consultas, asegurando la recuperación de información rápida y precisa.
- VERBA: Generación aumentada de recuperación (RAG) Chatbot impulsado por Weaviate.
- Flashrag: un kit de herramientas de Python para una investigación eficiente de trapo.
- Graphrag: un sistema de generación de generación (RAG) de recuperación (RAG) basado en gráficos modulares.
- Lightrag: Lightrag ayuda a los desarrolladores con tuberías de construcción y optimización de tuberías de generador de agentes retriever.
- Graphrag-Ollama-UI: Graphrag Use con Ollama con UI de Gradio y características adicionales.
- Nano-Gragg: una implementación de Graprag simple y fácil de hacer.
- Técnicas de RAG: este repositorio muestra varias técnicas avanzadas para los sistemas de generación (RAG) de recuperación.
- RAGAS: Marco de evaluación para sus tuberías de generación aumentada (RAG) de recuperación.
- Kotaemon: una interfaz de usuario de trapo limpia y personalizada de código abierto para chatear con sus documentos construidos con usuarios finales y desarrolladores en mente.
- Ragapp: La forma más fácil de usar el trapo de agente en cualquier empresa.
- Turborag: Acelerar la generación de recuperación acuática con cachés de KV precomputados para texto fortado.
- Lightrag: generación de recuperación simple y rápida.
- Diez: el marco A-A-Agent de próxima generación, el primer marco de agente de IA multimodal verdaderamente en tiempo real del mundo.
- Autorag: herramienta RAG AUTOML para encontrar automáticamente una tubería óptica RAG para sus datos.
- KAG: KAG es un marco de generación mejorado por el conocimiento basado en el motor OpenSPG, que se utiliza para construir servicios de toma de decisiones rigurosos y de recuperación de información mejorados por el conocimiento.
- Grazo rápido: trapo que se adapta de manera inteligente a su caso de uso, datos y consultas.
- Pequeño gráfica
- DB-GPT Graphrag: DB-GPT Graphrag integra los gráficos de conocimiento basados en tripletes y los gráficos de la estructura de documentos al tiempo que aprovecha los mecanismos de recuperación de la comunidad y documentos para mejorar las capacidades de RAG, logrando un rendimiento comparable al tiempo que consume el 50% de los tokens requeridos por Microsoft's Graphrag.
- Chonkie: La biblioteca de Chunking Rag sin sentido que es liviana, rayo y lista para hacer tus textos.
↥ De vuelta a la cima
Agentes
- Autógen: Autogen es un marco que permite el desarrollo de aplicaciones LLM utilizando múltiples agentes que pueden conversar entre sí para resolver tareas.
- Crewai: Marco para orquestar el juego de roles, agentes de IA autónomos.
- Cochinillo
- AgentGPT: ensamblar, configurar e implementar agentes de IA autónomos en su navegador.
- Xagent: un agente de LLM autónomo para la resolución de tareas complejas.
- MobileAgent: la poderosa Familia Asistente de Operación del Dispositivo Móvil.
- LAGENT: un marco liviano para construir agentes basados en LLM.
- QWEN-AGENT: AGENTE MARCO Y APLICACIONES construidas sobre Qwen2, con llamadas de función, intérprete de código, trapo y extensión de Chrome.
- Linkai: plataforma de construcción inteligente de IA única
- Baidu AppBuilder
- AgentUniverse: AgentUniverse es un marco de agente múltiple LLM que permite a los desarrolladores construir fácilmente aplicaciones de múltiples agentes.
- Lazyllm: herramienta de desarrollo para construir aplicaciones a gran escala de múltiples agentes con código bajo
- AgentsCope: Iniciar aplicaciones de agentes múltiples empoderadas con LLM de manera más fácil.
- MOA: la mezcla de agentes (MOA) es un enfoque novedoso que aprovecha las fortalezas colectivas de múltiples LLM para mejorar el rendimiento, logrando resultados de última generación.
- AGLENTE: Marco de desarrollo de aplicaciones de agente de IA.
- Omagent: un marco de agente multimodal para resolver tareas complejas.
- Tribu: No hay herramienta de código para construir y coordinar rápidamente equipos de múltiples agentes.
- Camel: Primer marco de agente múltiple LLM y una comunidad de código abierto dedicada a encontrar la ley de escala de los agentes.
- Praisonai: la aplicación Praisponei combina autógenos y crewai o marcos similares en una solución de bajo código para construir y administrar sistemas LLM de múltiples agentes, centrándose en la simplicidad, la personalización y la colaboración eficiente del agente humano.
- IOA: Un marco de código abierto para agentes de IA colaborativos, que permite la diversidad, agentes distribuidos para combinar y abordar tareas complejas a través de la conectividad similar a Internet.
- LLAMA-AGENTIC-SYSTEM: componentes de agente de las API de la pila LLAMA.
- Agente cero: el agente cero no es un marco de agente predefinido.
- Agentes: un marco de código abierto para agentes de lenguaje autónomo centrado en los datos y auto evolucionamiento.
- AgentsCope: Iniciar aplicaciones de agentes múltiples empoderadas con LLM de manera más fácil.
- Fastagency: la forma más rápida de llevar flujos de trabajo de múltiples agentes a la producción.
- Swarm: Marco para construir, orquestar y implementar sistemas de agentes múltiples.
- Agente-S: un marco de agente abierto que usa computadoras como un humano.
↥ De vuelta a la cima
Buscar
- OpenSearch GPT: Searchgpt / Perplexity Clone, pero personalizado para usted.
- MindSearch: un marco múltiple de agente múltiple basado en LLM del motor de búsqueda web (como Perplexity.ai Pro y SearchGPT).
- nanoperplexyai: la implementación de código abierto más simple de perplejidad.
- Curiosidad: trate de construir una experiencia de usuario similar a la perplejidad.
↥ De vuelta a la cima
Libros
- Modelo de lenguaje a gran escala: de teoría a práctica
- "Big Language Model"
- "Mankup manual en LLM"
- "Agente de IA manual"
- Construya un modelo de idioma grande (desde cero)
- "Maqueta multimodal"
- Manual generativo de IA: una hoja de ruta para aprender recursos
- Comprender el aprendizaje profundo
- "Libro ilustrado para aprender sobre Transformers & LLMS"
- Construyendo LLMS para la producción: Mejora de la capacidad de LLM y la confiabilidad con la solicitud, el ajuste y el trapo
- "Guía práctica para modelos de idiomas grandes: práctica de aplicaciones e implementación de escenarios"
- "Modelos de lenguaje grande y práctico"
- Procesamiento del lenguaje natural: gran teoría y práctica de modelos
- "Aprendizaje manual de aprendizaje de refuerzo"
- "Introducción a LLM para desarrolladores"
- "Modelo básico"
↥ De vuelta a la cima
Curso
LLM Resources Hub
- Stanford CS224N: Procesamiento del lenguaje natural con aprendizaje profundo
- Ng: IA generativa para todos
- NG: LLM Serie de cursos
- Tutorial de ACL 2023: modelos de idiomas basados en recuperación y aplicaciones
- LLM-Course: curso para ingresar a modelos de idiomas grandes (LLM) con hojas de ruta y cuadernos Colab.
- Microsoft: IA generativa para principiantes
- Microsoft: estado de GPT
- Curso de NLP de Huggingface
- Tsinghua NLP Liu Zhiyuan Equipo Big Modelo Open Class
- Stanford CS25: Transformers United V4
- Stanford CS324: modelos de idiomas grandes
- Princeton Cos 597g (otoño 2022): Comprender modelos de idiomas grandes
- Johns Hopkins CS 601.471/671 NLP: modelos auto-supervisados
- Curso de Genai de Li Hongyi
- Operai-Cookbook: ejemplos y pautas para usar la API de OpenAI.
- Hands On LLMS: Aprenda sobre LLM, LLMOPS y Vector DBS de forma gratuita diseñando, capacitando e implementando un sistema LLM de asesor financiero en tiempo real.
- Universidad de Waterloo CS 886: Avanzados recientes en modelos de fundaciones
- Mistral: Comenzando con Mistral
- Stanford CS25: Transformers United V4
- Coursera: proyecto de solicitud de solicitud de chatgpt
- LANGGPT: ¡Empoderar a todos para convertirse en un experto rápido!
- Mistralai-Cookbook
- Introducción a la primavera generativa de IA 2024
- Build Nanogpt: Video+Lección de código sobre la construcción de nanogpt desde cero.
- LLM101N: Construyamos un narrador.
- Gráficos de conocimiento para trapo
- LLMS desde cero (versión datawhale)
- Ferrag
- El camino a agi
- Andrej Karpathy - Redes neuronales: cero a héroe
- Visualización interactiva del transformador
- Andysingal/LLM-Course
- Clase LM
- Google Advanced: AI generativa para los desarrolladores de la ruta de aprendizaje
- Antropics: tutorial interactivo de ingeniería rápida
- LLMSBOOK
- Agentes de modelos de idiomas grandes
- Cohere LLM University
- LLMS y Transformers
- Visión SMOL: recetas para reducir, optimizar, personalizar modelos de visión de vanguardia.
- Trapo multimodal: chatear con videos
- Nota de entrevista de LLMS
- Rag ++: de POC a Producción: Curso avanzado de trapo.
- Pesos y prejuicios Academia AI: Finetuning, construcción con LLMS, salidas estructuradas y más cursos de LLM.
- Ingeniería rápida y tutoriales y recursos de AI
- Aprende trapo desde cero - tutorial de Python Ai de un ingeniero de Langchain
- Evaluación de LLM: un curso completo
↥ De vuelta a la cima
Tutorial
- Aprenda el desarrollo de aplicaciones de gran modelo
- Canal de desarrollador de IA
- Estación B: Casa de té Wulidun
- Estación B: Cheney Muyu
- YTB: AI en cualquier momento
- Estación B: Qi Nini
- Guía de ingeniería rápida
- YTB: AI Super Metamorfosis
- Estación B: Comunidad de inteligencia artificial TechBeat
- Estación B: Huang Yihe
- Estación B: Aprendizaje profundo Procesamiento del lenguaje natural
- Visualización de LLM
- Zhihu: humano de piedra cruda
- Estación B: Xiao Heihei habla sobre AI
- Estación B: Ingeniero de vehículos frente a la pared
- Estación B: veterano de AI Wenzhe
- Modelos de idiomas grandes (LLM) con cuadernos Colab
- YTB: Tecnología IBM
- YTB: Grupo de documento de lectura de unificar
- Chip huyen
- Cuanto vram
- Blog: Science Space (Su Jianlin)
- YTB: Hyung Won Chung
- Blog: Tejaswi Kashyap
- Blog: Blog de Xiaosheng
- Zhihu: YBQ
- Artículos de W&B
- Blog de Huggingface
- Blog: Gbyai
- Blog: Mlabonne
- LLM-acción
- Blog: Lil'log (Oponai)
↥ De vuelta a la cima
Papel
Nota
? Hacgingface Daily Papers, papeles geniales, Ml Papers explicó
- Informe de Hermes-3-Técnico
- El rebaño de modelos de Llama 3
- Informe técnico de qwen
- Informe técnico de Qwen2
- Informe técnico QWEN2-VL
- Deepseek LLM: Escala de modelos de lenguaje de código abierto con largo plazo
- Deepseek-V2: un modelo de lenguaje de mezcla fuerte, económica y eficiente
- Baichuan 2: Modelos de lenguaje a gran escala abiertos
- DataComp-LM: en busca de la próxima generación de conjuntos de capacitación para modelos de idiomas
- Olmo: Acelerar la ciencia de los modelos de idiomas
- MAP-NOO: serie de modelos de lenguaje grande altamente capaz y transparente
- Chino Tiny LLM: previamente un modelo de lenguaje grande centrado en el chino
- Informe técnico PHI-3: un modelo de idioma altamente capaz localmente en su teléfono
- Jamba-1.5: modelos híbridos transformador-mamba a escala
- Jamba: un modelo de lenguaje híbrido transformador-mamba
- Los libros de texto son todo lo que necesitas
- Desatar el poder de los datos del tsunami: una encuesta integral sobre evaluación y selección de datos para el ajuste de instrucciones de
data
de los modelos de idiomas. - Olmoe: modelos de lenguaje abiertos de la mezcla de expertos
- Papel de fusión de modelo
- Informe técnico de Baichuan-Omni
- 1,5 pintas Informe técnico: Prueba previa en días, no meses: su modelo de idioma prospera en los datos de calidad
- Informe técnico de alineación de Baichuan
- Hunyuan-Large: un modelo MOE de código abierto con 52 mil millones de parámetros activados por Tencent
- Molmo y Pixmo: pesos abiertos y datos abiertos para modelos multimodales de última generación
- Tülu 3: Empujar fronteras en el modelo de lenguaje abierto después de la capacitación
↥ De vuelta a la cima
Consejos
- Lo que aprendimos de un año de construcción con LLMS (Parte I)
- Lo que aprendimos de un año de construcción con LLMS (Parte II)
- Lo que aprendimos de un año de construcción con LLMS (Parte III): Estrategia
- Fácil de comenzar con el Big Language Model (LLM)
- LLMS para la clasificación de texto: una guía para el aprendizaje supervisado
- Clasificación de texto no supervisada: Categorice el lenguaje natural con LLMS
- Clasificación de texto con LLM: un resumen de los mejores métodos
- Precio de LLM
- Uncensor cualquier LLM con abstracción
- Tiny LLM Universe
- Cero-chatgpt
- Cero-qwen-vl
- finetune-qwen2-vl
- MPP-LLAVA
- build_minillm_from_scratch
- Tiny LLM
- Mínimo: 3 horas de entrenamiento Un pequeño parámetro GPT con solo 26 m, y se requiere al menos 2 g de la tarjeta gráfica para inferir el entrenamiento de inferencia.
- LLM-Travel: dedicado a una comprensión profunda, discusión e implementación de diversas tecnologías, principios y aplicaciones relacionadas con modelos grandes
- Destilación del conocimiento: enseñanza de LLM con datos sintéticos
- Parte 1: Métodos para adaptar modelos de idiomas grandes
- Parte 2: ajustar o no tune
- Parte 3: Cómo ajustar: concéntrese en conjuntos de datos efectivos
- Reader-LM: Modelos de lenguaje pequeño para limpiar y convertir HTML a Markdown
- Experiencia de construcción de aplicaciones LLMS por un año
- Pretrain de entrenamiento LLM
- Pytorch-llama: Llama 2 implementado desde cero en Pytorch.
- Optimización de preferencias para modelos de lenguaje de visión con TRL 【Modelo de soporte】
- Modelos de lenguaje visual ajustado con SFTTrainer 【Docios】
- Una guía visual para la mezcla de expertos (MOE)
- Rol-Raying en modelos de idiomas grandes como chatgpt
- Guía de capacitación distribuida: Mejores prácticas y guías sobre cómo escribir código de capacitación de Pytorch distribuido.
- Plantillas de chat
- Top 20+ preguntas de entrevista de trapo
↥ De vuelta a la cima
Si le resulta útil este proyecto, por favor cita:
@misc { wang2024llm ,
title = { awesome-LLM-resourses } ,
author = { Rongsheng Wang } ,
year = { 2024 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/WangRongsheng/awesome-LLM-resourses} } ,
}