Загрузка DocsScraper.jl - DocsScraper.jl Загрузка исходного кода

DocsScraper.jl

AI Исходный код

v0.1.0

Скачать

DocsScraper: «Эффективное создание пакетов знаний RAG из онлайн-документации Julia»

DocsScraper — это пакет, предназначенный для создания «пакетов знаний» из сайтов онлайн-документации для языка Julia.

Он очищает и анализирует URL-адреса и с помощью PromptingTools.jl создает индекс фрагментов и их вложений, которые можно использовать в приложениях RAG. Он интегрируется с AIHelpMe.jl и PromptingTools.jl, обеспечивая высокоэффективный и релевантный поиск запросов, гарантируя, что ответы, генерируемые системой, соответствуют содержимому созданной базы данных.

Функции

Очистка и анализ URL-адресов : автоматически очищает и анализирует входные URL-адреса для извлечения соответствующей информации, уделяя особое внимание фрагментам кода и блокам кода. Дает возможность настроить размеры кусков
Сканирование URL-адресов : опционально сканирует входные URL-адреса для поиска нескольких страниц в одном домене.
Создание индекса знаний : использует PromptingTools.jl для создания вложений с настраиваемой моделью внедрения, размером и типом (Bool и Float32).

Установка

Чтобы установить DocsScraper, используйте менеджер пакетов Julia и имя пакета (он еще не зарегистрирован):

 using Pkg
Pkg . add (url = " https://github.com/JuliaGenAI/DocsScraper.jl " )

Предпосылки:

Юлия (версия 1.10 или новее).
Подключение к Интернету для доступа к API.
Ключи API OpenAI с доступными кредитами. См. раздел «Как получить ключи API».

Создание индекса

 using DocsScraper
crawlable_urls = [ " https://juliagenai.github.io/DocsScraper.jl/dev " ]

index_path = make_knowledge_packs (crawlable_urls;
    index_name = " docsscraper " , embedding_dimension = 1024 , embedding_bool = true , target_path = " knowledge_packs " )

[ Info : robots . txt unavailable for https : // juliagenai . github . io : / DocsScraper . jl / dev / home /
[ Info : Scraping link : https : // juliagenai . github . io : / DocsScraper . jl / dev / home /
[ Info : robots . txt unavailable for https : // juliagenai . github . io : / DocsScraper . jl / dev
[ Info : Scraping link : https : // juliagenai . github . io : / DocsScraper . jl / dev
. . .
[ Info : Processing https : // juliagenai . github . io : / DocsScraper . jl / dev ...
[ Info : Parsing URL : https : // juliagenai . github . io : / DocsScraper . jl / dev
[ Info : Scraping done : 44 chunks
[ Info : Removed 0 short chunks
[ Info : Removed 1 duplicate chunks
[ Info : Created embeddings for docsscraper. Cost : $ 0. 001
a docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. hdf5
[ Info : ARTIFACT : docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. tar . gz
┌ Info : sha256 :
└   sha = " 977c2b9d9fe30bebea3b6db124b733d29b7762a8f82c9bd642751f37ad27ee2e "
┌ Info : git - tree - sha1 :
└   git_tree_sha = " eca409c0a32ed506fbd8125887b96987e9fb91d2 "
[ Info : Saving source URLS in Julia  knowledge_packs  docsscraper  docsscraper_URL_mapping . csv      
" Julia \ knowledge_packs \ docsscraper \ Index \ docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5 "

make_knowledge_packs — это точка входа в пакет. Эта функция принимает URL-адреса для анализа и возвращает индекс. Этот индекс можно передать в AIHelpMe.jl для ответа на запросы по созданным пакетам знаний.

Параметры make_knowledge_packs по умолчанию:

Тип внедрения по умолчанию — Float32. Измените на логическое значение с помощью необязательного параметра: embedding_bool = true .
Размер встраивания по умолчанию — 3072. Измените размер на собственный с помощью необязательного параметра: embedding_dimension = custom_dimension .
По умолчанию используется модель text-embedding-3-large от OpenAI.
Максимальный размер чанка по умолчанию — 384, а минимальный размер чанка — 40. Измените его с помощью необязательных параметров: max_chunk_size = custom_max_size и min_chunk_size = custom_min_size .

Примечание. Для повседневного использования достаточно размера встраивания = 1024 и типа встраивания = Bool. Это совместимо с конвейерами :bronze и :silver AIHelpMe ( update_pipeline(:bronze) ). Для получения лучших результатов используйте размер встраивания = 3072 и тип встраивания = Float32. Для этого необходимо использовать конвейер :gold (подробнее см. ?RAG_CONFIGURATIONS ).

Использование указателя для вопросов

 using AIHelpMe
using AIHelpMe : pprint, load_index!

# set it as the "default" index, then it will be automatically used for every question
load_index! (index_path)

aihelp ( " what is DocsScraper.jl? " ) |> pprint

[ Info : Updated RAG pipeline to ` :bronze ` (Configuration key : " textembedding3large-1024-Bool " ) .
[ Info : Loaded index from packs : julia into MAIN_INDEX
[ Info : Loading index from Julia  DocsScraper . jl  docsscraper  Index  docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. hdf5
[ Info : Loaded index a file Julia  DocsScraper . jl  docsscraper  Index  docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. hdf5 into MAIN_INDEX
[ Info : Done with RAG. Total cost : $ 0. 009
--------------------
AI Message
--------------------
DocsScraper . jl is a Julia package designed to create a vector database from input URLs. It scrapes and parses the URLs and, with the assistance of      
PromptingTools . jl, creates a vector store that can be utilized in RAG (Retrieval - Augmented Generation) applications. DocsScraper . jl integrates with     
AIHelpMe . jl and PromptingTools . jl to provide efficient and relevant query retrieval, ensuring that the responses generated by the system are specific to the content in the created database.

Совет: используйте pprint для более качественного вывода с источниками и last_result для более подробного вывода (с источниками).

 using AIHelpMe : last_result
# last_result() returns the last result from the RAG pipeline, ie, same as running aihelp(; return_all=true)
print ( last_result ())

Выход

make_knowledge_packs создает следующие файлы:

 index_name
│
├── Index
│   ├── index_name__artifact__info.txt
│   ├── index_name__vDate__model_embedding_size-embedding_type__v1.0.hdf5
│   └── index_name__vDate__model_embedding_size-embedding_type__v1.0.tar.gz 
│
├── Scraped_files
│   ├── scraped_hostname-chunks-max-chunk_size-min-min_chunk_size.jls
│   ├── scraped_hostname-sources-max-chunk_size-min-min_chunk_size.jls
│   └── . . .
│
└── index_name_URL_mapping.csv

Индекс: содержит файлы .hdf5 и .tar.gz, а также артефакт__info.txt. Информация об артефакте содержит хеши sha256 и git-tree-sha1.
Scraped_files: содержит очищенные фрагменты и исходники. Они разделены именами хостов URL-адресов.
URL_mapping.csv содержит очищенные URL-адреса, сопоставляющие их с предполагаемым именем пакета.

Google Лето кода 2024

Этот проект был разработан в рамках программы Google Summer of Code (GSoC). GSoC — это глобальная программа, которая предлагает студентам-разработчикам стипендии для написания кода для проектов с открытым исходным кодом. Мы благодарны Google и сообществу разработчиков ПО с открытым исходным кодом за поддержку и возможности, предоставленные в рамках этой инициативы.

Расширять

Дополнительная информация