txtai es una base de datos integrada todo en uno para búsqueda semántica, orquestación de LLM y flujos de trabajo de modelos de lenguaje.
Las bases de datos integradas son una unión de índices vectoriales (escasos y densos), redes de gráficos y bases de datos relacionales.
Esta base permite la búsqueda de vectores y/o sirve como una poderosa fuente de conocimiento para aplicaciones de modelos de lenguaje grandes (LLM).
Cree agentes autónomos, procesos de recuperación de generación aumentada (RAG), flujos de trabajo multimodelo y más.
Resumen de características del txtai:
txtai está construido con Python 3.9+, Hugging Face Transformers, Sentence Transformers y FastAPI. txtai es de código abierto bajo una licencia Apache 2.0.
¿Está interesado en una forma fácil y segura de ejecutar aplicaciones txtai alojadas? Entonces únete a la vista previa de txtai.cloud para obtener más información.
Diariamente surgen nuevas bases de datos vectoriales, marcos LLM y todo lo demás. ¿Por qué construir con txtai?
# Get started in a couple lines
import txtai
embeddings = txtai . Embeddings ()
embeddings . index ([ "Correct" , "Not what we hoped" ])
embeddings . search ( "positive" , 1 )
#[(0, 0.29862046241760254)]
# app.yml
embeddings :
path : sentence-transformers/all-MiniLM-L6-v2
CONFIG=app.yml uvicorn " txtai.api:app "
curl -X GET " http://localhost:8000/search?query=positive "
Las siguientes secciones presentan casos de uso comunes de txtai. También está disponible un conjunto completo de más de 60 cuadernos y aplicaciones de ejemplo.
Cree aplicaciones de búsqueda semántica/de similitud/vectorial/neural.
Los sistemas de búsqueda tradicionales utilizan palabras clave para encontrar datos. La búsqueda semántica comprende el lenguaje natural e identifica resultados que tienen el mismo significado, no necesariamente las mismas palabras clave.
Comience con los siguientes ejemplos.
Computadora portátil | Descripción | |
---|---|---|
Presentando txtai | Descripción general de la funcionalidad proporcionada por txtai | |
Búsqueda de similitudes con imágenes. | Insertar imágenes y texto en el mismo espacio de búsqueda | |
Construir una base de datos de control de calidad | Coincidencia de preguntas con búsqueda semántica | |
Gráficos semánticos | Explore temas, conectividad de datos y ejecute análisis de red |
Agentes autónomos, recuperación de generación aumentada (RAG), chat con sus datos, canalizaciones y flujos de trabajo que interactúan con grandes modelos de lenguaje (LLM).
Consulte a continuación para obtener más información.
Computadora portátil | Descripción | |
---|---|---|
Plantillas de avisos y cadenas de tareas | Cree indicaciones de modelo y conecte tareas junto con flujos de trabajo | |
Integrar marcos LLM | Integre llama.cpp, LiteLLM y marcos de generación personalizados | |
Cree gráficos de conocimiento con LLM | Cree gráficos de conocimiento con extracción de entidades impulsada por LLM |
Los agentes conectan incorporaciones, canalizaciones, flujos de trabajo y otros agentes para resolver de forma autónoma problemas complejos.
Los agentes txtai están construidos sobre el marco de Transformers Agent. Esto es compatible con todos los LLM que txtai admite (Hugging Face, llama.cpp, OpenAI / Claude / AWS Bedrock a través de LiteLLM).
Consulte el enlace a continuación para obtener más información.
Computadora portátil | Descripción | |
---|---|---|
Novedades de txtai 8.0 | Agentes con txtai | |
Análisis de publicaciones con caras de abrazos con gráficos y agentes | Explore un rico conjunto de datos con análisis de gráficos y agentes | |
Otorgar autonomía a los agentes | Agentes que resuelven problemas de forma iterativa como mejor les parezca. |
La recuperación de generación aumentada (RAG) reduce el riesgo de alucinaciones LLM al limitar la salida con una base de conocimientos como contexto. RAG se usa comúnmente para "chatear con tus datos".
Una característica novedosa de txtai es que puede proporcionar tanto una respuesta como una cita de la fuente.
Computadora portátil | Descripción | |
---|---|---|
Construye oleoductos RAG con txtai | Guía sobre recuperación de generación aumentada que incluye cómo crear citas. | |
Cómo funciona RAG con txtai | Cree procesos RAG, servicios API e instancias Docker | |
RAG avanzado con recorrido de ruta de gráfico | Recorrido de ruta de gráfico para recopilar conjuntos complejos de datos para RAG avanzado | |
Discurso a discurso RAG | Ciclo completo de flujo de trabajo de voz a voz con RAG |
Los flujos de trabajo de modelos de lenguaje, también conocidos como flujos de trabajo semánticos, conectan modelos de lenguaje para crear aplicaciones inteligentes.
Si bien los LLM son potentes, existen muchos modelos más pequeños y especializados que funcionan mejor y más rápido para tareas específicas. Esto incluye modelos de respuesta extractiva a preguntas, resúmenes automáticos, conversión de texto a voz, transcripción y traducción.
Computadora portátil | Descripción | |
---|---|---|
Ejecutar flujos de trabajo de canalización | Construcciones simples pero poderosas para procesar datos de manera eficiente | |
Creación de resúmenes de texto abstractivos | Ejecutar resumen de texto abstractivo | |
Transcribir audio a texto | Convertir archivos de audio a texto | |
Traducir texto entre idiomas | Optimice la traducción automática y la detección de idiomas |
La forma más sencilla de instalar es mediante pip y PyPI.
pip install txtai
Se admite Python 3.9+. Se recomienda utilizar un entorno virtual Python.
Consulte las instrucciones de instalación detalladas para obtener más información sobre dependencias opcionales, requisitos previos específicos del entorno, instalación desde el código fuente, soporte de conda y cómo ejecutar con contenedores.
Consulte la siguiente tabla para conocer los modelos recomendados actualmente. Todos estos modelos permiten el uso comercial y ofrecen una combinación de velocidad y rendimiento.
Componente | Modelo(s) |
---|---|
Incrustaciones | todo-MiniLM-L6-v2 |
Pies de foto | PUNTO LUMINOSO EN UN RADAR |
Etiquetas - Tiro Cero | BART-Grande-MNLI |
Etiquetas - Fijas | Afinar el proceso de formación |
Modelo de lenguaje grande (LLM) | Llama 3.1 Instrucción |
Resumen | DistilBART |
Texto a voz | ESPnet JETS |
Transcripción | Susurro |
Traducción | Serie de modelos OPUS |
Los modelos se pueden cargar como una ruta desde Hugging Face Hub o como un directorio local. Las rutas del modelo son opcionales, los valores predeterminados se cargan cuando no se especifican. Para tareas sin modelo recomendado, txtai utiliza los modelos predeterminados como se muestra en la guía Tareas de Hugging Face.
Consulte los siguientes enlaces para obtener más información.
Las siguientes aplicaciones funcionan con txtai.
Solicitud | Descripción |
---|---|
chatear | Búsqueda impulsada por recuperación de generación aumentada (RAG) |
papelai | Búsqueda semántica y flujos de trabajo para artículos médicos/científicos. |
pregunta clave | Búsqueda semántica para desarrolladores. |
historia | Búsqueda semántica de titulares y texto de historias. |
Además de esta lista, también hay muchos otros proyectos de código abierto, investigaciones publicadas y proyectos privados/comerciales cerrados que se han basado en txtai en producción.
Está disponible la documentación completa sobre txtai, incluidos los ajustes de configuración para incrustaciones, canalizaciones, flujos de trabajo, API y preguntas frecuentes con preguntas/problemas comunes.
Para aquellos que quieran contribuir con txtai, consulte esta guía.