ดาวน์โหลด Scrapegraph ai - Scrapegraph ai Source Source Download

Scrapegraph ai

ซอร์สโค้ดอื่น ๆ

v1.31.0

ดาวน์โหลด

Scrapegraphai: คุณขูดเพียงครั้งเดียว

ภาษาอังกฤษ | 中文 | 日本語 | 한국어 | руский | Türkçe

Scrapegraphai เป็นเว็บ ที่ขูดไลบรารี Python ที่ใช้ LLM และตรรกะกราฟโดยตรงเพื่อสร้างท่อขูดสำหรับเว็บไซต์และเอกสารท้องถิ่น (XML, HTML, JSON, Markdown ฯลฯ )

เพียงแค่บอกว่าข้อมูลใดที่คุณต้องการแยกและห้องสมุดจะทำเพื่อคุณ!

การติดตั้งอย่างรวดเร็ว

หน้าอ้างอิงสำหรับ Scrapegraph-AI มีอยู่ในหน้าอย่างเป็นทางการของ PYPI: PYPI

 PIP ติดตั้ง scrapegraphai

การติดตั้งบทละคร

หมายเหตุ : ขอแนะนำให้ติดตั้งไลบรารีในสภาพแวดล้อมเสมือนจริงเพื่อหลีกเลี่ยงความขัดแย้งกับไลบรารีอื่น ๆ ?

การพึ่งพาตัวเลือก

สามารถเพิ่มการพึ่งพาได้ในขณะที่ติดตั้งไลบรารี:

โมเดลภาษาเพิ่มเติม : มีการติดตั้งแบบจำลองภาษาเพิ่มเติมเช่นดอกไม้ไฟ, Groq, มานุษยวิทยา, ใบหน้ากอดและจุดสิ้นสุดของ Nvidia AI
กลุ่มนี้ช่วยให้คุณสามารถใช้แบบจำลองภาษาเพิ่มเติมเช่นดอกไม้ไฟ, Groq, มานุษยวิทยา, AI, Hugging Face และจุดสิ้นสุดของ Nvidia AI
```
 PIP ติดตั้ง scrapegraphai [รูปแบบภาษาอื่น ๆ ]
```
ตัวเลือกความหมาย : กลุ่มนี้มีเครื่องมือสำหรับการประมวลผลความหมายขั้นสูงเช่น GraphViz
```
 PIP ติดตั้ง scrapegraphai [ตัวเลือกที่มีความหมายมากขึ้น]
```
ตัวเลือกเบราว์เซอร์ : กลุ่มนี้มีเครื่องมือ/บริการการจัดการเบราว์เซอร์เพิ่มเติมเช่นเบราว์เซอร์เบส
```
 PIP ติดตั้ง scrapegraphai [ตัวเลือกอื่น ๆ ของเบราว์เซอร์]
```

การใช้งาน

มีท่อขูดมาตรฐานหลายรายการที่สามารถใช้ในการดึงข้อมูลจากเว็บไซต์ (หรือไฟล์ท้องถิ่น)

สิ่งที่พบบ่อยที่สุดคือ SmartScraperGraph ซึ่งแยกข้อมูลจากหน้าเดียวให้พร้อมกับพรอมต์ของผู้ใช้และ URL แหล่งที่มา

 นำเข้า jsonfrom scrapegraphai.graphs นำเข้า smartscrapergraph# กำหนดค่าสำหรับการขูด pipelinegraph_config = {"llm": {"api_key": "your_openai_apikey", "model": "openai/gpt-4o-mini"
    }, "verbose": จริง, "headless": false,
}# สร้าง smartscrapergraph อินสแตนซ์ mart_scraper_graph = smartscrapergraph (พรอมต์ = "ค้นหาข้อมูลบางอย่างเกี่ยวกับสิ่งที่ บริษัท ทำชื่อและอีเมลติดต่อ", source = "https://scrapegraphai.com/", config = graph_config)# pipelinerEsult = smart_scraper_graph.run () พิมพ์ (json.dumps (ผลลัพธ์, intent = 4)

ผลลัพธ์จะเป็นพจนานุกรมดังต่อไปนี้:

 {"บริษัท ": "scrapegraphai", "ชื่อ": "scrapegraphai แยกเนื้อหาจากเว็บไซต์และเอกสารท้องถิ่นโดยใช้ LLM", "contact_email": "[email protected]"}

มีท่ออื่น ๆ ที่สามารถใช้ในการดึงข้อมูลจากหลายหน้าสร้างสคริปต์ Python หรือแม้แต่สร้างไฟล์เสียง

ชื่อท่อ	คำอธิบาย
smartscrapergraph	มีดโกนหน้าเดียวที่ต้องการพรอมต์ของผู้ใช้และแหล่งอินพุตเท่านั้น
กราฟค้นหา	มีดโกนหลายหน้าซึ่งแยกข้อมูลจากผลการค้นหา N อันดับต้น ๆ ของเครื่องมือค้นหา
คำพูด	มีดโกนหน้าเดียวที่ดึงข้อมูลจากเว็บไซต์และสร้างไฟล์เสียง
ScriptCreatorGraph	มีดโกนหน้าเดียวที่ดึงข้อมูลจากเว็บไซต์และสร้างสคริปต์ Python
smartscrapermultigraph	มีดโกนหลายหน้าซึ่งแยกข้อมูลจากหลาย ๆ หน้าให้พร้อมกับรายการเดียวและรายการแหล่งที่มา
ScriptCreatormultigraph	มีดโกนหลายหน้าซึ่งสร้างสคริปต์ Python สำหรับการดึงข้อมูลจากหลายหน้าและแหล่งข้อมูล

สำหรับแต่ละกราฟเหล่านี้มีหลายเวอร์ชัน อนุญาตให้โทรของ LLM แบบขนาน

เป็นไปได้ที่จะใช้ LLM ที่แตกต่างกันผ่าน APIs เช่น Openai , Groq , Azure และ Gemini หรือรุ่นท้องถิ่นโดยใช้ Ollama

อย่าลืมติดตั้ง Ollama และดาวน์โหลดโมเดลโดยใช้คำสั่ง Ollama Pull หากคุณต้องการใช้โมเดลท้องถิ่น

การสาธิต

การสาธิตอย่างเป็นทางการ:

ลองใช้โดยตรงบนเว็บโดยใช้ Google Colab:

เอกสาร

เอกสารสำหรับ Scrapegraphai สามารถพบได้ที่นี่

ตรวจสอบ Docusaurus ที่นี่ด้วย

telemetry

เรารวบรวมตัวชี้วัดการใช้งานที่ไม่ระบุชื่อเพื่อปรับปรุงคุณภาพและประสบการณ์ผู้ใช้ของแพ็คเกจของเรา ข้อมูลช่วยให้เราจัดลำดับความสำคัญของการปรับปรุงและให้แน่ใจว่าเข้ากันได้ หากคุณต้องการยกเลิกการตั้งค่าตัวแปรสภาพแวดล้อม scrapegraphai_telemetry_enabled = false สำหรับข้อมูลเพิ่มเติมโปรดดูเอกสารที่นี่

การอ้างอิง

หากคุณใช้ห้องสมุดของเราเพื่อวัตถุประสงค์ในการวิจัยโปรดอ้างอิงเราพร้อมข้อมูลอ้างอิงต่อไปนี้:

  @misc{scrapegraph-ai,
    author = {Marco Perini, Lorenzo Padoan, Marco Vinciguerra},
    title = {Scrapegraph-ai},
    year = {2024},
    url = {https://github.com/VinciGit00/Scrapegraph-ai},
    note = {A Python library for scraping leveraging large language models}
  }

ขยาย

ข้อมูลเพิ่มเติม