txtai เป็นฐานข้อมูลแบบฝังแบบครบวงจรสำหรับการค้นหาเชิงความหมาย การจัดการ LLM และเวิร์กโฟลว์โมเดลภาษา
ฐานข้อมูลการฝังเป็นการรวมกันของดัชนีเวกเตอร์ (เบาบางและหนาแน่น) เครือข่ายกราฟ และฐานข้อมูลเชิงสัมพันธ์
รากฐานนี้ช่วยให้สามารถค้นหาเวกเตอร์และ/หรือทำหน้าที่เป็นแหล่งความรู้ที่มีประสิทธิภาพสำหรับแอปพลิเคชันโมเดลภาษาขนาดใหญ่ (LLM)
สร้างตัวแทนอัตโนมัติ กระบวนการดึงข้อมูลการสร้างเสริม (RAG) เวิร์กโฟลว์หลายโมเดล และอื่นๆ
สรุปคุณสมบัติของ txtai:
txtai สร้างขึ้นด้วย Python 3.9+, Hugging Face Transformers, Sentence Transformers และ FastAPI txtai เป็นโอเพ่นซอร์สภายใต้ลิขสิทธิ์ Apache 2.0
สนใจวิธีที่ง่ายและปลอดภัยในการรันแอปพลิเคชัน txtai ที่โฮสต์หรือไม่ จากนั้นเข้าร่วมการแสดงตัวอย่าง txtai.cloud เพื่อเรียนรู้เพิ่มเติม
ฐานข้อมูลเวกเตอร์ใหม่ กรอบงาน LLM และทุกสิ่งในระหว่างนั้นกำลังเติบโตขึ้นทุกวัน ทำไมต้องสร้างด้วย txtai?
# Get started in a couple lines
import txtai
embeddings = txtai . Embeddings ()
embeddings . index ([ "Correct" , "Not what we hoped" ])
embeddings . search ( "positive" , 1 )
#[(0, 0.29862046241760254)]
# app.yml
embeddings :
path : sentence-transformers/all-MiniLM-L6-v2
CONFIG=app.yml uvicorn " txtai.api:app "
curl -X GET " http://localhost:8000/search?query=positive "
ส่วนต่อไปนี้จะแนะนำกรณีการใช้งาน txtai ทั่วไป นอกจากนี้ยังมีชุดโน้ตบุ๊กและแอปพลิเคชันตัวอย่างที่ครอบคลุมกว่า 60 รายการให้เลือกอีกด้วย
สร้างแอปพลิเคชันการค้นหาความหมาย/ความคล้ายคลึง/เวกเตอร์/ประสาท
ระบบการค้นหาแบบเดิมใช้คำสำคัญเพื่อค้นหาข้อมูล การค้นหาความหมายมีความเข้าใจในภาษาธรรมชาติและระบุผลลัพธ์ที่มีความหมายเหมือนกัน ไม่จำเป็นต้องเป็นคำหลักเดียวกัน
เริ่มต้นด้วยตัวอย่างต่อไปนี้
โน๊ตบุ๊ค | คำอธิบาย | |
---|---|---|
แนะนำ txtai | ภาพรวมของฟังก์ชันที่มีให้โดย txtai | |
ค้นหาความคล้ายคลึงกันด้วยรูปภาพ | ฝังรูปภาพและข้อความลงในพื้นที่เดียวกันเพื่อค้นหา | |
สร้างฐานข้อมูลประกันคุณภาพ | การจับคู่คำถามกับการค้นหาเชิงความหมาย | |
กราฟความหมาย | สำรวจหัวข้อ การเชื่อมต่อข้อมูล และดำเนินการวิเคราะห์เครือข่าย |
ตัวแทนอัตโนมัติ, การดึงข้อมูล Augmented Generation (RAG), แชทกับข้อมูล ไปป์ไลน์ และเวิร์กโฟลว์ของคุณที่เชื่อมต่อกับโมเดลภาษาขนาดใหญ่ (LLM)
ดูด้านล่างเพื่อเรียนรู้เพิ่มเติม
โน๊ตบุ๊ค | คำอธิบาย | |
---|---|---|
เทมเพลตและสายงานพร้อมท์ | สร้างพรอมต์โมเดลและเชื่อมต่องานร่วมกับเวิร์กโฟลว์ | |
บูรณาการกรอบงาน LLM | ผสานรวม llama.cpp, LiteLLM และเฟรมเวิร์กการสร้างแบบกำหนดเอง | |
สร้างกราฟความรู้ด้วย LLM | สร้างกราฟความรู้ด้วยการแยกเอนทิตีที่ขับเคลื่อนด้วย LLM |
เอเจนต์เชื่อมต่อการฝัง ไปป์ไลน์ เวิร์กโฟลว์ และเอเจนต์อื่นๆ เข้าด้วยกันเพื่อแก้ไขปัญหาที่ซับซ้อนโดยอัตโนมัติ
เอเจนต์ txtai ถูกสร้างขึ้นบนเฟรมเวิร์ก Transformers Agent สิ่งนี้รองรับการรองรับ txtai ของ LLM ทั้งหมด (Hugging Face, llama.cpp, OpenAI / Claude / AWS Bedrock ผ่าน LiteLLM)
ดูลิงค์ด้านล่างเพื่อเรียนรู้เพิ่มเติม
โน๊ตบุ๊ค | คำอธิบาย | |
---|---|---|
มีอะไรใหม่ใน txtai 8.0.1 | ตัวแทนที่มี txtai | |
วิเคราะห์โพสต์กอดใบหน้าด้วยกราฟและตัวแทน | สำรวจชุดข้อมูลที่หลากหลายด้วยการวิเคราะห์กราฟและเอเจนต์ | |
การให้เอกราชแก่ตัวแทน | ตัวแทนที่แก้ไขปัญหาซ้ำๆ ตามที่เห็นสมควร |
การดึงข้อมูล Augmented Generation (RAG) ช่วยลดความเสี่ยงของภาพหลอน LLM โดยการจำกัดผลลัพธ์โดยมีฐานความรู้เป็นบริบท RAG มักใช้เพื่อ "สนทนากับข้อมูลของคุณ"
คุณลักษณะใหม่ของ txtai คือสามารถให้ทั้งคำตอบและการอ้างอิงแหล่งที่มาได้
โน๊ตบุ๊ค | คำอธิบาย | |
---|---|---|
สร้างไปป์ไลน์ RAG ด้วย txtai | คำแนะนำเกี่ยวกับการดึงข้อมูลรุ่นเสริม รวมถึงวิธีสร้างข้อมูลอ้างอิง | |
RAG กับ txtai ทำงานอย่างไร | สร้างกระบวนการ RAG, บริการ API และอินสแตนซ์ Docker | |
RAG ขั้นสูงพร้อมการข้ามเส้นทางกราฟ | การข้ามเส้นทางด้วยกราฟเพื่อรวบรวมชุดข้อมูลที่ซับซ้อนสำหรับ RAG ขั้นสูง | |
คำพูดเป็นคำพูด RAG | เวิร์กโฟลว์คำพูดเป็นคำพูดแบบเต็มวงจรด้วย RAG |
เวิร์กโฟลว์โมเดลภาษาหรือที่เรียกว่าเวิร์กโฟลว์เชิงความหมาย เชื่อมต่อโมเดลภาษาเข้าด้วยกันเพื่อสร้างแอปพลิเคชันอัจฉริยะ
แม้ว่า LLM จะมีประสิทธิภาพ แต่ก็มีโมเดลขนาดเล็กและเฉพาะทางอีกมากมายที่ทำงานได้ดีขึ้นและเร็วขึ้นสำหรับงานเฉพาะด้าน ซึ่งรวมถึงแบบจำลองสำหรับการตอบคำถามแบบดึงข้อมูล การสรุปอัตโนมัติ การแปลงข้อความเป็นคำพูด การถอดเสียง และการแปล
โน๊ตบุ๊ค | คำอธิบาย | |
---|---|---|
เรียกใช้เวิร์กโฟลว์ไปป์ไลน์ | โครงสร้างที่เรียบง่ายแต่ทรงพลังเพื่อประมวลผลข้อมูลอย่างมีประสิทธิภาพ | |
การสร้างบทสรุปข้อความเชิงนามธรรม | เรียกใช้การสรุปข้อความเชิงนามธรรม | |
ถอดเสียงเป็นข้อความ | แปลงไฟล์เสียงเป็นข้อความ | |
แปลข้อความระหว่างภาษา | ปรับปรุงการแปลด้วยเครื่องและการตรวจจับภาษา |
วิธีติดตั้งที่ง่ายที่สุดคือผ่าน pip และ PyPI
pip install txtai
รองรับ Python 3.9+ แนะนำให้ใช้สภาพแวดล้อมเสมือน Python
ดูคำแนะนำในการติดตั้งโดยละเอียดสำหรับข้อมูลเพิ่มเติมที่ครอบคลุมการขึ้นต่อกันที่เป็นตัวเลือก ข้อกำหนดเบื้องต้นเฉพาะสภาพแวดล้อม การติดตั้งจากแหล่งที่มา การสนับสนุน conda และวิธีการรันด้วยคอนเทนเนอร์
ดูตารางด้านล่างสำหรับรุ่นที่แนะนำในปัจจุบัน รุ่นเหล่านี้อนุญาตให้ใช้ในเชิงพาณิชย์และมีการผสมผสานระหว่างความเร็วและประสิทธิภาพ
ส่วนประกอบ | โมเดล |
---|---|
การฝัง | ทั้งหมด-MiniLM-L6-v2 |
คำบรรยายภาพ | บลิ๊พ |
ป้ายกำกับ - ซีโร่ช็อต | BART-ขนาดใหญ่-MNLI |
ป้ายกำกับ - แก้ไขแล้ว | ปรับแต่งด้วยไปป์ไลน์การฝึกอบรม |
โมเดลภาษาขนาดใหญ่ (LLM) | ลามะ 3.1 คำสั่งสอน |
การสรุป | DitilBART |
ข้อความเป็นคำพูด | อีเอสเน็ต เจ็ตส์ |
การถอดเสียง | กระซิบ |
การแปล | ซีรีย์โมเดล OPUS |
โมเดลสามารถโหลดเป็นเส้นทางจาก Hugging Face Hub หรือไดเร็กทอรีภายในเครื่องได้ เส้นทางโมเดลเป็นทางเลือก โดยค่าเริ่มต้นจะถูกโหลดเมื่อไม่ได้ระบุ สำหรับงานที่ไม่มีโมเดลที่แนะนำ txtai จะใช้โมเดลเริ่มต้นตามที่แสดงในคู่มือ Hugging Face Tasks
ดูลิงก์ต่อไปนี้เพื่อเรียนรู้เพิ่มเติม
แอปพลิเคชั่นต่อไปนี้ขับเคลื่อนโดย txtai
แอปพลิเคชัน | คำอธิบาย |
---|---|
ส่งข้อความแชท | การค้นหาที่ขับเคลื่อนด้วย Augmented Generation (RAG) |
กระดาษปาย | การค้นหาความหมายและขั้นตอนการทำงานสำหรับเอกสารทางการแพทย์/วิทยาศาสตร์ |
คำถามรหัส | การค้นหาความหมายสำหรับนักพัฒนา |
เรื่องราว | การค้นหาความหมายสำหรับหัวข้อข่าวและข้อความเรื่องราว |
นอกเหนือจากรายการนี้ ยังมีโครงการโอเพ่นซอร์สอื่นๆ อีกมากมาย งานวิจัยที่ตีพิมพ์ และโครงการที่เป็นกรรมสิทธิ์/เชิงพาณิชย์แบบปิดซึ่งสร้างขึ้นบน txtai ในการผลิต
มีเอกสารฉบับสมบูรณ์เกี่ยวกับ txtai รวมถึงการตั้งค่าสำหรับการฝัง ไปป์ไลน์ เวิร์กโฟลว์ API และคำถามที่พบบ่อยพร้อมคำถาม/ปัญหาทั่วไป
สำหรับผู้ที่ต้องการสนับสนุน txtai โปรดดูคำแนะนำนี้