Descargar DocsScraper.jl - Descarga del código fuente DocsScraper.jl

DocsScraper.jl

Código Fuente de IA

v0.1.0

Descargar

DocsScraper: "Creador eficiente de paquetes de conocimientos RAG a partir de la documentación en línea de Julia"

DocsScraper es un paquete diseñado para crear "paquetes de conocimientos" a partir de sitios de documentación en línea para el idioma Julia.

Extrae y analiza las URL y, con la ayuda de PromptingTools.jl, crea un índice de fragmentos y sus incrustaciones que se pueden utilizar en aplicaciones RAG. Se integra con AIHelpMe.jl y PromptingTools.jl para ofrecer una recuperación de consultas relevante y altamente eficiente, asegurando que las respuestas generadas por el sistema sean específicas del contenido de la base de datos creada.

Características

Raspado y análisis de URL : raspa y analiza automáticamente las URL de entrada para extraer información relevante, prestando especial atención a los fragmentos y bloques de código. Ofrece una opción para personalizar los tamaños de los fragmentos.
Rastreo de URL : opcionalmente rastrea las URL de entrada para buscar varias páginas en el mismo dominio.
Creación de índice de conocimiento : aprovecha PromptingTools.jl para crear incrustaciones con un modelo, tamaño y tipo de incrustación personalizables (Bool y Float32).

Instalación

Para instalar DocsScraper, use el administrador de paquetes de Julia y el nombre del paquete (aún no está registrado):

 using Pkg
Pkg . add (url = " https://github.com/JuliaGenAI/DocsScraper.jl " )

Requisitos previos:

Julia (versión 1.10 o posterior).
Conexión a Internet para acceso API.
Claves API de OpenAI con créditos disponibles. Consulte Cómo obtener claves API.

Construyendo el índice

 using DocsScraper
crawlable_urls = [ " https://juliagenai.github.io/DocsScraper.jl/dev " ]

index_path = make_knowledge_packs (crawlable_urls;
    index_name = " docsscraper " , embedding_dimension = 1024 , embedding_bool = true , target_path = " knowledge_packs " )

[ Info : robots . txt unavailable for https : // juliagenai . github . io : / DocsScraper . jl / dev / home /
[ Info : Scraping link : https : // juliagenai . github . io : / DocsScraper . jl / dev / home /
[ Info : robots . txt unavailable for https : // juliagenai . github . io : / DocsScraper . jl / dev
[ Info : Scraping link : https : // juliagenai . github . io : / DocsScraper . jl / dev
. . .
[ Info : Processing https : // juliagenai . github . io : / DocsScraper . jl / dev ...
[ Info : Parsing URL : https : // juliagenai . github . io : / DocsScraper . jl / dev
[ Info : Scraping done : 44 chunks
[ Info : Removed 0 short chunks
[ Info : Removed 1 duplicate chunks
[ Info : Created embeddings for docsscraper. Cost : $ 0. 001
a docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. hdf5
[ Info : ARTIFACT : docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. tar . gz
┌ Info : sha256 :
└   sha = " 977c2b9d9fe30bebea3b6db124b733d29b7762a8f82c9bd642751f37ad27ee2e "
┌ Info : git - tree - sha1 :
└   git_tree_sha = " eca409c0a32ed506fbd8125887b96987e9fb91d2 "
[ Info : Saving source URLS in Julia  knowledge_packs  docsscraper  docsscraper_URL_mapping . csv      
" Julia \ knowledge_packs \ docsscraper \ Index \ docsscraper__v20240823__textembedding3large-1024-Bool__v1.0.hdf5 "

make_knowledge_packs es el punto de entrada al paquete. Esta función toma las URL para analizar y devuelve el índice. Este índice se puede pasar a AIHelpMe.jl para responder consultas sobre los paquetes de conocimientos creados.

Parámetros predeterminados make_knowledge_packs :

El tipo de incrustación predeterminado es Float32. Cambie a booleano mediante el parámetro opcional: embedding_bool = true .
El tamaño de incrustación predeterminado es 3072. Cambie al tamaño personalizado mediante el parámetro opcional: embedding_dimension = custom_dimension .
El modelo predeterminado que se utiliza es el text-embedding-3-large de OpenAI.
El tamaño máximo predeterminado del fragmento es 384 y el tamaño mínimo del fragmento es 40. Cambie mediante los parámetros opcionales: max_chunk_size = custom_max_size y min_chunk_size = custom_min_size .

Nota: Para el uso diario, el tamaño de incrustación = 1024 y el tipo de incrustación = Bool son suficientes. Esto es compatible con los oleoductos :bronze y :silver de AIHelpMe ( update_pipeline(:bronze) ). Para obtener mejores resultados, utilice el tamaño de incrustación = 3072 y el tipo de incrustación = Float32. Esto requiere el uso de :gold pipeline (ver más ?RAG_CONFIGURATIONS )

Uso del índice para preguntas

 using AIHelpMe
using AIHelpMe : pprint, load_index!

# set it as the "default" index, then it will be automatically used for every question
load_index! (index_path)

aihelp ( " what is DocsScraper.jl? " ) |> pprint

[ Info : Updated RAG pipeline to ` :bronze ` (Configuration key : " textembedding3large-1024-Bool " ) .
[ Info : Loaded index from packs : julia into MAIN_INDEX
[ Info : Loading index from Julia  DocsScraper . jl  docsscraper  Index  docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. hdf5
[ Info : Loaded index a file Julia  DocsScraper . jl  docsscraper  Index  docsscraper__v20240823__textembedding3large - 1024 - Bool__v1. 0. hdf5 into MAIN_INDEX
[ Info : Done with RAG. Total cost : $ 0. 009
--------------------
AI Message
--------------------
DocsScraper . jl is a Julia package designed to create a vector database from input URLs. It scrapes and parses the URLs and, with the assistance of      
PromptingTools . jl, creates a vector store that can be utilized in RAG (Retrieval - Augmented Generation) applications. DocsScraper . jl integrates with     
AIHelpMe . jl and PromptingTools . jl to provide efficient and relevant query retrieval, ensuring that the responses generated by the system are specific to the content in the created database.

Consejo: utilice pprint para obtener mejores resultados con fuentes y last_result para resultados más detallados (con fuentes).

 using AIHelpMe : last_result
# last_result() returns the last result from the RAG pipeline, ie, same as running aihelp(; return_all=true)
print ( last_result ())

Producción

make_knowledge_packs crea los siguientes archivos:

 index_name
│
├── Index
│   ├── index_name__artifact__info.txt
│   ├── index_name__vDate__model_embedding_size-embedding_type__v1.0.hdf5
│   └── index_name__vDate__model_embedding_size-embedding_type__v1.0.tar.gz 
│
├── Scraped_files
│   ├── scraped_hostname-chunks-max-chunk_size-min-min_chunk_size.jls
│   ├── scraped_hostname-sources-max-chunk_size-min-min_chunk_size.jls
│   └── . . .
│
└── index_name_URL_mapping.csv

Índice: contiene los archivos .hdf5 y .tar.gz junto con el artefacto__info.txt. La información del artefacto contiene hashes sha256 y git-tree-sha1.
Scraped_files: contiene los fragmentos y las fuentes raspados. Estos están separados por los nombres de host de las URL.
URL_mapping.csv contiene las URL extraídas y las asigna al nombre estimado del paquete.

Google Verano del Código 2024

Este proyecto fue desarrollado como parte del programa Google Summer of Code (GSoC). GSoC es un programa global que ofrece estipendios a estudiantes desarrolladores para escribir código para proyectos de código abierto. Agradecemos el apoyo y la oportunidad brindada por Google y la comunidad de código abierto a través de esta iniciativa.

Expandir

Información adicional

Versión v0.1.0
Tipo Código Fuente de IA
Fecha de actualización 2024-12-25
tamaño 36.98KB
Proviene de Github

Aplicaciones relacionadas

Lib.Net.Http.WebPush

2024-11-10
MIEDO 3

2022-09-05
Constructor de masa

2022-08-29
ARDID

2022-08-20
KOMA

2022-08-11
ZAR

2022-07-30

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo