تنزيل DocsScraper.jl - تنزيل كود المصدر DocsScraper.jl

DocsScraper.jl

كود الذكاء الاصطناعي

v0.1.0

تنزيل

DocsScraper: "منشئ حزمة معارف RAG الفعال من وثائق جوليا عبر الإنترنت"

DocsScraper عبارة عن حزمة مصممة لإنشاء "حزم معرفية" من مواقع التوثيق عبر الإنترنت للغة جوليا.

يقوم باستخلاص عناوين URL وتحليلها وبمساعدة PromptingTools.jl، يقوم بإنشاء فهرس للأجزاء وتضميناتها التي يمكن استخدامها في تطبيقات RAG. فهو يتكامل مع AIHelpMe.jl وPromptingTools.jl لتقديم استرجاع استعلام عالي الكفاءة وملائم، مما يضمن أن الاستجابات التي يولدها النظام خاصة بالمحتوى الموجود في قاعدة البيانات التي تم إنشاؤها.

سمات

استخراج عناوين URL وتحليلها : يقوم تلقائيًا باستخلاص عناوين URL المدخلة وتحليلها لاستخراج المعلومات ذات الصلة، مع إيلاء اهتمام خاص لمقتطفات التعليمات البرمجية وكتل التعليمات البرمجية. يعطي خيارًا لتخصيص أحجام القطع
الزحف إلى عنوان URL : يزحف بشكل اختياري إلى عناوين URL المدخلة للبحث عن صفحات متعددة في نفس المجال.
إنشاء فهرس المعرفة : يعمل على الاستفادة من PromptingTools.jl لإنشاء عمليات التضمين باستخدام نموذج التضمين القابل للتخصيص وحجمه ونوعه (Bool وFloat32).

تثبيت

لتثبيت DocsScraper، استخدم مدير حزم Julia واسم الحزمة (لم يتم تسجيلها بعد):

 using Pkg
Pkg . add (url = " https://github.com/JuliaGenAI/DocsScraper.jl " )

المتطلبات الأساسية:

جوليا (الإصدار 1.10 أو الأحدث).
اتصال بالإنترنت للوصول إلى API.
مفاتيح OpenAI API مع الاعتمادات المتاحة. راجع كيفية الحصول على مفاتيح API.

بناء المؤشر

 using DocsScraper
crawlable_urls = [ " https://juliagenai.github.io/DocsScraper.jl/dev " ]

index_path = make_knowledge_packs (crawlable_urls;
    index_name = " docsscraper " , embedding_dimension = 1024 , embedding_bool = true , target_path = " knowledge_packs " )

[ Info : robots . txt unavailable for https : // juliagenai . github . io : / DocsScraper . jl / dev / home /
[ Info : Scraping link : https : // juliagenai . github . io : / DocsScraper . jl / dev / home /
[ Info : robots . txt unavailable for https : // juliagenai . github . io : / DocsScraper . jl / dev
[ Info : Scraping link : https : // juliagenai . github . io : / DocsScraper . jl / dev
. . .
[ Info : Processing https : // juliagenai . github . io : / DocsScraper . jl / dev ...
[ Info : Parsing URL : https : // juliagenai . github . io : / DocsScraper . jl / dev
[ Info : Scraping done : 44 chunks
[ Info : Removed 0 short chunks
[ Info : Removed 1 duplicate chunks
[ Info : Created embeddings for docsscraper. Cost : $ 0. 001
a docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. hdf5
[ Info : ARTIFACT : docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. tar . gz
┌ Info : sha256 :
└   sha = " 977c2b9d9fe30bebea3b6db124b733d29b7762a8f82c9bd642751f37ad27ee2e "
┌ Info : git - tree - sha1 :
└   git_tree_sha = " eca409c0a32ed506fbd8125887b96987e9fb91d2 "
[ Info : Saving source URLS in Julia  knowledge_packs  docsscraper  docsscraper_URL_mapping . csv      
" Julia \ knowledge_packs \ docsscraper \ Index \ docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5 "

make_knowledge_packs هي نقطة الدخول إلى الحزمة. تأخذ هذه الوظيفة عناوين URL لتحليلها وإرجاع الفهرس. يمكن تمرير هذا الفهرس إلى AIHelpMe.jl للإجابة على الاستعلامات الموجودة على حزم المعرفة المضمنة.

معلمات make_knowledge_packs الافتراضية:

نوع التضمين الافتراضي هو Float32. قم بالتغيير إلى القيمة المنطقية بواسطة المعلمة الاختيارية: embedding_bool = true .
حجم التضمين الافتراضي هو 3072. قم بالتغيير إلى الحجم المخصص بواسطة المعلمة الاختيارية: embedding_dimension = custom_dimension .
النموذج الافتراضي المستخدم هو text-embedding-3-large الخاص بـ OpenAI.
الحد الأقصى لحجم القطعة الافتراضي هو 384 وحجم القطعة الأدنى هو 40. يمكنك التغيير حسب المعلمات الاختيارية: max_chunk_size = custom_max_size و min_chunk_size = custom_min_size .

ملاحظة: للاستخدام اليومي، حجم التضمين = 1024 ونوع التضمين = Bool كافٍ. هذا متوافق مع خطوط أنابيب AIHelpMe :bronze و :silver ( update_pipeline(:bronze) ). للحصول على نتائج أفضل، استخدم حجم التضمين = 3072 ونوع التضمين = Float32. يتطلب هذا استخدام :gold (انظر المزيد ?RAG_CONFIGURATIONS )

استخدام الفهرس للأسئلة

 using AIHelpMe
using AIHelpMe : pprint, load_index!

# set it as the "default" index, then it will be automatically used for every question
load_index! (index_path)

aihelp ( " what is DocsScraper.jl? " ) |> pprint

[ Info : Updated RAG pipeline to ` :bronze ` (Configuration key : " textembedding3large-1024-Bool " ) .
[ Info : Loaded index from packs : julia into MAIN_INDEX
[ Info : Loading index from Julia  DocsScraper . jl  docsscraper  Index  docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. hdf5
[ Info : Loaded index a file Julia  DocsScraper . jl  docsscraper  Index  docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. hdf5 into MAIN_INDEX
[ Info : Done with RAG. Total cost : $ 0. 009
--------------------
AI Message
--------------------
DocsScraper . jl is a Julia package designed to create a vector database from input URLs. It scrapes and parses the URLs and, with the assistance of      
PromptingTools . jl, creates a vector store that can be utilized in RAG (Retrieval - Augmented Generation) applications. DocsScraper . jl integrates with     
AIHelpMe . jl and PromptingTools . jl to provide efficient and relevant query retrieval, ensuring that the responses generated by the system are specific to the content in the created database.

نصيحة: استخدم pprint للحصول على مخرجات أفضل مع المصادر و last_result للحصول على مخرجات أكثر تفصيلاً (مع المصادر).

 using AIHelpMe : last_result
# last_result() returns the last result from the RAG pipeline, ie, same as running aihelp(; return_all=true)
print ( last_result ())

الإخراج

يقوم make_knowledge_packs بإنشاء الملفات التالية:

 index_name
│
├── Index
│   ├── index_name__artifact__info.txt
│   ├── index_name__vDate__model_embedding_size-embedding_type__v1.0.hdf5
│   └── index_name__vDate__model_embedding_size-embedding_type__v1.0.tar.gz 
│
├── Scraped_files
│   ├── scraped_hostname-chunks-max-chunk_size-min-min_chunk_size.jls
│   ├── scraped_hostname-sources-max-chunk_size-min-min_chunk_size.jls
│   └── . . .
│
└── index_name_URL_mapping.csv

الفهرس: يحتوي على ملفات .hdf5 و.tar.gz بالإضافة إلى ملف artifact__info.txt. تحتوي معلومات القطعة الأثرية على تجزئة sha256 وgit-tree-sha1.
Scraped_files: يحتوي على الأجزاء والمصادر المسروقة. يتم فصلها بواسطة أسماء المضيفين لعناوين URL.
يحتوي URL_mapping.csv على عناوين URL المسروقة التي تعينها باسم الحزمة المقدرة.

جوجل صيف البرمجة 2024

تم تطوير هذا المشروع كجزء من برنامج Google Summer of Code (GSoC). GSoC هو برنامج عالمي يقدم للمطورين الطلاب رواتب لكتابة التعليمات البرمجية للمشاريع مفتوحة المصدر. نحن ممتنون للدعم والفرصة التي قدمتها Google ومجتمع المصادر المفتوحة من خلال هذه المبادرة.

يوسع

معلومات إضافية

الإصدار v0.1.0
النوع كود الذكاء الاصطناعي
وقت التحديث 2024-12-25
الحجم 36.98KB
من Github

تطبيقات ذات صلة

Lib.Net.Http.WebPush

2024-11-10
الخوف 3

2022-09-05
منشئ الكتلة

2022-08-29
حيلة

2022-08-20
كوما

2022-08-11
زار

2022-07-30

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
node telegram bot api

كود الذكاء الاصطناعي

v0.50.0
typebot.io

كود الذكاء الاصطناعي

v3.1.2
python wechaty getting started

كود الذكاء الاصطناعي

1.0.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
termwind

فئات أخرى

v2.3.0
wp functions

فئات أخرى

1.0.0

أخبار ذات صلة الكل