ภาษาอังกฤษ | 中文 | 日本語 | 한국어 | руский | Türkçe
Scrapegraphai เป็นเว็บ ที่ขูดไลบรารี Python ที่ใช้ LLM และตรรกะกราฟโดยตรงเพื่อสร้างท่อขูดสำหรับเว็บไซต์และเอกสารท้องถิ่น (XML, HTML, JSON, Markdown ฯลฯ )
เพียงแค่บอกว่าข้อมูลใดที่คุณต้องการแยกและห้องสมุดจะทำเพื่อคุณ!
หน้าอ้างอิงสำหรับ Scrapegraph-AI มีอยู่ในหน้าอย่างเป็นทางการของ PYPI: PYPI
PIP ติดตั้ง scrapegraphai การติดตั้งบทละคร
หมายเหตุ : ขอแนะนำให้ติดตั้งไลบรารีในสภาพแวดล้อมเสมือนจริงเพื่อหลีกเลี่ยงความขัดแย้งกับไลบรารีอื่น ๆ ?
โมเดลภาษาเพิ่มเติม : มีการติดตั้งแบบจำลองภาษาเพิ่มเติมเช่นดอกไม้ไฟ, Groq, มานุษยวิทยา, ใบหน้ากอดและจุดสิ้นสุดของ Nvidia AI
กลุ่มนี้ช่วยให้คุณสามารถใช้แบบจำลองภาษาเพิ่มเติมเช่นดอกไม้ไฟ, Groq, มานุษยวิทยา, AI, Hugging Face และจุดสิ้นสุดของ Nvidia AI
PIP ติดตั้ง scrapegraphai [รูปแบบภาษาอื่น ๆ ]
ตัวเลือกความหมาย : กลุ่มนี้มีเครื่องมือสำหรับการประมวลผลความหมายขั้นสูงเช่น GraphViz
PIP ติดตั้ง scrapegraphai [ตัวเลือกที่มีความหมายมากขึ้น]
ตัวเลือกเบราว์เซอร์ : กลุ่มนี้มีเครื่องมือ/บริการการจัดการเบราว์เซอร์เพิ่มเติมเช่นเบราว์เซอร์เบส
PIP ติดตั้ง scrapegraphai [ตัวเลือกอื่น ๆ ของเบราว์เซอร์]
มีท่อขูดมาตรฐานหลายรายการที่สามารถใช้ในการดึงข้อมูลจากเว็บไซต์ (หรือไฟล์ท้องถิ่น)
สิ่งที่พบบ่อยที่สุดคือ SmartScraperGraph
ซึ่งแยกข้อมูลจากหน้าเดียวให้พร้อมกับพรอมต์ของผู้ใช้และ URL แหล่งที่มา
นำเข้า jsonfrom scrapegraphai.graphs นำเข้า smartscrapergraph# กำหนดค่าสำหรับการขูด pipelinegraph_config = {"llm": {"api_key": "your_openai_apikey", "model": "openai/gpt-4o-mini" }, "verbose": จริง, "headless": false, }# สร้าง smartscrapergraph อินสแตนซ์ mart_scraper_graph = smartscrapergraph (พรอมต์ = "ค้นหาข้อมูลบางอย่างเกี่ยวกับสิ่งที่ บริษัท ทำชื่อและอีเมลติดต่อ", source = "https://scrapegraphai.com/", config = graph_config)# pipelinerEsult = smart_scraper_graph.run () พิมพ์ (json.dumps (ผลลัพธ์, intent = 4)
ผลลัพธ์จะเป็นพจนานุกรมดังต่อไปนี้:
{"บริษัท ": "scrapegraphai", "ชื่อ": "scrapegraphai แยกเนื้อหาจากเว็บไซต์และเอกสารท้องถิ่นโดยใช้ LLM", "contact_email": "[email protected]"}
มีท่ออื่น ๆ ที่สามารถใช้ในการดึงข้อมูลจากหลายหน้าสร้างสคริปต์ Python หรือแม้แต่สร้างไฟล์เสียง
ชื่อท่อ | คำอธิบาย |
---|---|
smartscrapergraph | มีดโกนหน้าเดียวที่ต้องการพรอมต์ของผู้ใช้และแหล่งอินพุตเท่านั้น |
กราฟค้นหา | มีดโกนหลายหน้าซึ่งแยกข้อมูลจากผลการค้นหา N อันดับต้น ๆ ของเครื่องมือค้นหา |
คำพูด | มีดโกนหน้าเดียวที่ดึงข้อมูลจากเว็บไซต์และสร้างไฟล์เสียง |
ScriptCreatorGraph | มีดโกนหน้าเดียวที่ดึงข้อมูลจากเว็บไซต์และสร้างสคริปต์ Python |
smartscrapermultigraph | มีดโกนหลายหน้าซึ่งแยกข้อมูลจากหลาย ๆ หน้าให้พร้อมกับรายการเดียวและรายการแหล่งที่มา |
ScriptCreatormultigraph | มีดโกนหลายหน้าซึ่งสร้างสคริปต์ Python สำหรับการดึงข้อมูลจากหลายหน้าและแหล่งข้อมูล |
สำหรับแต่ละกราฟเหล่านี้มีหลายเวอร์ชัน อนุญาตให้โทรของ LLM แบบขนาน
เป็นไปได้ที่จะใช้ LLM ที่แตกต่างกันผ่าน APIs เช่น Openai , Groq , Azure และ Gemini หรือรุ่นท้องถิ่นโดยใช้ Ollama
อย่าลืมติดตั้ง Ollama และดาวน์โหลดโมเดลโดยใช้คำสั่ง Ollama Pull หากคุณต้องการใช้โมเดลท้องถิ่น
การสาธิตอย่างเป็นทางการ:
ลองใช้โดยตรงบนเว็บโดยใช้ Google Colab:
เอกสารสำหรับ Scrapegraphai สามารถพบได้ที่นี่
ตรวจสอบ Docusaurus ที่นี่ด้วย
เรารวบรวมตัวชี้วัดการใช้งานที่ไม่ระบุชื่อเพื่อปรับปรุงคุณภาพและประสบการณ์ผู้ใช้ของแพ็คเกจของเรา ข้อมูลช่วยให้เราจัดลำดับความสำคัญของการปรับปรุงและให้แน่ใจว่าเข้ากันได้ หากคุณต้องการยกเลิกการตั้งค่าตัวแปรสภาพแวดล้อม scrapegraphai_telemetry_enabled = false สำหรับข้อมูลเพิ่มเติมโปรดดูเอกสารที่นี่
หากคุณใช้ห้องสมุดของเราเพื่อวัตถุประสงค์ในการวิจัยโปรดอ้างอิงเราพร้อมข้อมูลอ้างอิงต่อไปนี้:
@misc{scrapegraph-ai,
author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
title = {Scrapegraph-ai},
year = {2024},
url = {https://github.com/VinciGit00/Scrapegraph-ai},
note = {A Python library for scraping leveraging large language models}
}