paperai เป็นแอปพลิเคชันการค้นหาเชิงความหมายและเวิร์กโฟลว์สำหรับเอกสารทางการแพทย์/วิทยาศาสตร์
แอปพลิเคชันมีตั้งแต่ดัชนีการค้นหาเชิงความหมายที่ค้นหารายการที่ตรงกันสำหรับการสืบค้นทางการแพทย์/วิทยาศาสตร์ ไปจนถึงแอปพลิเคชันการรายงานเต็มรูปแบบที่ขับเคลื่อนโดยการเรียนรู้ของเครื่อง
paperai และ/หรือ NeuML ได้รับการยอมรับในบทความต่อไปนี้:
วิธีติดตั้งที่ง่ายที่สุดคือผ่าน pip และ PyPI
pip install paperai
รองรับ Python 3.8+ แนะนำให้ใช้สภาพแวดล้อมเสมือน Python
paperai ยังสามารถติดตั้งได้โดยตรงจาก GitHub เพื่อเข้าถึงฟีเจอร์ล่าสุดที่ยังไม่ได้เผยแพร่
pip install git+https://github.com/neuml/paperai
ดูลิงก์นี้เพื่อช่วยแก้ไขปัญหาการติดตั้งเฉพาะสภาพแวดล้อม
ทำตามขั้นตอนด้านล่างเพื่อสร้างอิมเมจนักเทียบท่าด้วย paperai และการขึ้นต่อกันทั้งหมด
wget https://raw.githubusercontent.com/neuml/paperai/master/docker/Dockerfile
docker build -t paperai .
docker run --name paperai --rm -it paperai
สามารถเพิ่ม paperetl เพื่อให้มีรูปภาพเดียวในการจัดทำดัชนีและค้นหาเนื้อหา ทำตามคำแนะนำเพื่อสร้างอิมเมจนักเทียบท่า paperetl จากนั้นเรียกใช้สิ่งต่อไปนี้
docker build -t paperai --build-arg BASE_IMAGE=paperetl --build-arg START=/scripts/start.sh .
docker run --name paperai --rm -it paperai
โน้ตบุ๊กและแอปพลิเคชันต่อไปนี้สาธิตความสามารถที่ Paperai มีให้
โน๊ตบุ๊ค | คำอธิบาย | |
---|---|---|
แนะนำกระดาษปาย | ภาพรวมของฟังก์ชันการทำงานที่จัดทำโดย Paperai |
แอปพลิเคชัน | คำอธิบาย |
---|---|
ค้นหา | ค้นหาดัชนีกระดาษปาย ตั้งค่าพารามิเตอร์การค้นหา ดำเนินการค้นหา และแสดงผลลัพธ์ |
paperai จัดทำดัชนีฐานข้อมูลที่สร้างไว้ก่อนหน้านี้ด้วย paperetl ต่อไปนี้จะแสดงวิธีการสร้างดัชนีกระดาษปายใหม่
(ไม่บังคับ) สร้างไฟล์ index.yml
paperai ใช้การกำหนดค่าการฝัง txtai เริ่มต้นเมื่อไม่ได้ระบุ อีกทางหนึ่ง สามารถระบุไฟล์ index.yml ที่ใช้ตัวเลือกเดียวกันทั้งหมดเป็นอินสแตนซ์ที่ฝัง txtai ได้ ดูเอกสารประกอบ txtai สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกที่เป็นไปได้ ตัวอย่างง่ายๆแสดงไว้ด้านล่าง
path: sentence-transformers/all-MiniLM-L6-v2
content: True
สร้างดัชนีการฝัง
python -m paperai.index <path to input data> <optional index configuration>
กระบวนการ paperai.index ต้องการเส้นทางข้อมูลอินพุต และอาจใช้การกำหนดค่าดัชนีก็ได้ การกำหนดค่านี้อาจเป็นพาธโมเดลเวกเตอร์หรือไฟล์การกำหนดค่า index.yml
วิธีที่เร็วที่สุดในการเรียกใช้แบบสอบถามคือการเริ่มเชลล์กระดาษ
paperai <path to model directory>
พรอมต์จะปรากฏขึ้น สามารถพิมพ์ข้อความค้นหาลงในคอนโซลได้โดยตรง
รายงานรองรับการสร้างเอาต์พุตในหลายรูปแบบ ตัวอย่างการโทรรายงาน:
python -m paperai.report report.yml 50 md <path to model directory>
รองรับรูปแบบรายงานต่อไปนี้:
ในตัวอย่างข้างต้น ไฟล์ชื่อ report.md จะถูกสร้างขึ้น สามารถดูตัวอย่างไฟล์การกำหนดค่ารายงานได้ที่นี่
paperai เป็นการผสมผสานระหว่างดัชนีการฝัง txtai และฐานข้อมูล SQLite พร้อมบทความ แต่ละบทความจะถูกแยกวิเคราะห์เป็นประโยคและจัดเก็บไว้ใน SQLite พร้อมกับข้อมูลเมตาของบทความ การฝังถูกสร้างขึ้นเหนือคลังข้อมูลทั้งหมด
มีจุดเริ่มต้นหลายจุดเพื่อโต้ตอบกับโมเดล