crawlee python下载crawlee python源码下载

crawlee python

Python

0.4.5

下载

网页抓取和浏览器自动化库

Crawlee 涵盖了端到端的爬行和抓取，并帮助您构建可靠的抓取工具。快速地。

Crawlee for Python 向早期采用者开放！

即使使用默认配置，您的爬虫也会看起来几乎像人类一样，并且在现代机器人保护的雷达下飞行。 Crawlee 为您提供了在网络上抓取链接、抓取数据并将其持久存储为机器可读格式的工具，而无需担心技术细节。得益于丰富的配置选项，如果默认设置无法满足您的项目需求，您几乎可以调整 Crawlee 的任何方面。

在 Crawlee 项目网站上查看完整的文档、指南和示例？

我们还有 Crawlee 的 TypeScript 实现，您可以在您的项目中探索和利用它。请访问我们的 GitHub 存储库，了解 GitHub 上 Crawlee for JS/TS 的更多信息。

安装

我们建议访问 Crawlee 文档中的简介教程以获取更多信息。

Crawlee 可作为crawlee PyPI 包使用。核心功能包含在基础包中，附加功能可作为可选附加功能，以最大限度地减少包大小和依赖性。要安装 Crawlee 的所有功能，请运行以下命令：

pip install ' crawlee[all] '

然后，安装 Playwright 依赖项：

playwright install

验证Crawlee是否安装成功：

python -c ' import crawlee; print(crawlee.__version__) '

有关详细的安装说明，请参阅设置文档页面。

使用 Crawlee CLI

开始使用 Crawlee 的最快方法是使用 Crawlee CLI 并选择准备好的模板之一。首先，确保您已安装 Pipx：

pipx --help

然后，运行 CLI 并从可用模板中进行选择：

pipx run crawlee create my-crawler

如果您已经安装了crawlee ，您可以通过运行以下命令来启动它：

crawlee create my-crawler

示例

以下是一些实际示例，可帮助您开始使用 Crawlee 中的不同类型的爬虫。每个示例都演示了如何针对特定用例设置和运行爬网程序，无论您需要处理简单的 HTML 页面还是与 JavaScript 较多的网站进行交互。爬虫运行将在您当前的工作目录中创建一个storage/目录。

美丽汤爬虫

BeautifulSoupCrawler使用 HTTP 库下载网页并向用户提供 HTML 解析的内容。默认情况下，它使用HttpxHttpClient进行 HTTP 通信，使用 BeautifulSoup 解析 HTML。它非常适合需要从 HTML 内容中高效提取数据的项目。该爬虫由于不使用浏览器而具有非常好的性能。但是，如果您需要执行客户端 JavaScript 来获取内容，这还不够，您需要使用PlaywrightCrawler 。另外，如果你想使用这个爬虫，请确保你安装了crawlee并额外安装了beautifulsoup 。

 import asyncio

from crawlee . beautifulsoup_crawler import BeautifulSoupCrawler , BeautifulSoupCrawlingContext


async def main () -> None :
    crawler = BeautifulSoupCrawler (
        # Limit the crawl to max requests. Remove or increase it for crawling all links.
        max_requests_per_crawl = 10 ,
    )

    # Define the default request handler, which will be called for every request.
    @ crawler . router . default_handler
    async def request_handler ( context : BeautifulSoupCrawlingContext ) -> None :
        context . log . info ( f'Processing { context . request . url } ...' )

        # Extract data from the page.
        data = {
            'url' : context . request . url ,
            'title' : context . soup . title . string if context . soup . title else None ,
        }

        # Push the extracted data to the default dataset.
        await context . push_data ( data )

        # Enqueue all links found on the page.
        await context . enqueue_links ()

    # Run the crawler with the initial list of URLs.
    await crawler . run ([ 'https://crawlee.dev' ])

if __name__ == '__main__' :
    asyncio . run ( main ())

剧作家爬行者

PlaywrightCrawler使用无头浏览器下载网页并提供用于数据提取的 API。它基于 Playwright，一个专为管理无头浏览器而设计的自动化库。它擅长检索依赖客户端 JavaScript 生成内容的网页，或需要与 JavaScript 驱动的内容交互的任务。对于不需要执行 JavaScript 或需要更高性能的场景，可以考虑使用BeautifulSoupCrawler 。另外，如果您想使用此爬虫，请确保您安装了带有playwright extra 的crawlee 。

 import asyncio

from crawlee . playwright_crawler import PlaywrightCrawler , PlaywrightCrawlingContext


async def main () -> None :
    crawler = PlaywrightCrawler (
        # Limit the crawl to max requests. Remove or increase it for crawling all links.
        max_requests_per_crawl = 10 ,
    )

    # Define the default request handler, which will be called for every request.
    @ crawler . router . default_handler
    async def request_handler ( context : PlaywrightCrawlingContext ) -> None :
        context . log . info ( f'Processing { context . request . url } ...' )

        # Extract data from the page.
        data = {
            'url' : context . request . url ,
            'title' : await context . page . title (),
        }

        # Push the extracted data to the default dataset.
        await context . push_data ( data )

        # Enqueue all links found on the page.
        await context . enqueue_links ()

    # Run the crawler with the initial list of requests.
    await crawler . run ([ 'https://crawlee.dev' ])


if __name__ == '__main__' :
    asyncio . run ( main ())

特征

为什么 Crawlee 是网页抓取和爬行的首选？

为什么使用 Crawlee 而不是仅仅使用带有 HTML 解析器的随机 HTTP 库？

HTTP 和无头浏览器爬行的统一接口。
基于可用系统资源的自动并行爬行。
用 Python 编写，带有类型提示- 增强 DX（IDE 自动完成）并减少错误（静态类型检查）。
出现错误或被阻止时自动重试。
集成代理轮换和会话管理。
可配置的请求路由- 将 URL 定向到适当的处理程序。
要抓取的 URL 的持久队列。
表格数据和文件的可插入存储。
强大的错误处理能力。

为什么使用Crawlee而不是Scrapy？

基于 Asyncio – 利用标准 Asyncio 库，Crawlee 提供了更好的性能以及与其他现代异步库的无缝兼容性。
类型提示– 使用现代 Python 构建的新项目，以及完整的类型提示覆盖，以提供更好的开发人员体验。
简单集成– Crawlee 爬虫是常规 Python 脚本，不需要额外的启动器执行器。这种灵活性允许将爬虫直接集成到其他应用程序中。
状态持久性– 支持中断期间的状态持久性，避免出现问题后需要从头开始重新启动抓取管道，从而节省时间和成本。
有组织的数据存储– 允许在一次抓取运行中保存多种类型的结果。提供多种存储选项（请参阅数据集和键值存储）。

运行在Apify平台上

Crawlee 是开源的，可以在任何地方运行，但由于它是由 Apify 开发的，因此很容易在 Apify 平台上设置并在云端运行。访问 Apify SDK 网站，了解有关将 Crawlee 部署到 Apify 平台的更多信息。

支持

如果您发现 Crawlee 存在任何错误或问题，请在 GitHub 上提交问题。如有疑问，您可以在 Stack Overflow 上、GitHub 讨论中提问，也可以加入我们的 Discord 服务器。

贡献

欢迎您贡献代码，您将受到永远的赞扬！如果您有任何改进想法，请提交问题或创建拉取请求。有关贡献指南和行为准则，请参阅 CONTRIBUTING.md。

执照

该项目根据 Apache License 2.0 获得许可 - 有关详细信息，请参阅许可证文件。

展开

附加信息

版本 0.4.5
类型 Python
更新时间 2024-12-21
大小 22.6MB
来自于 Github

crawlee python

网页抓取和浏览器自动化库

安装

使用 Crawlee CLI

示例

美丽汤爬虫

剧作家爬行者

更多示例

特征

为什么使用 Crawlee 而不是仅仅使用带有 HTML 解析器的随机 HTTP 库？

为什么使用Crawlee而不是Scrapy？

运行在Apify平台上

支持

贡献

执照

Python Portfolio

datamule python

stripe python

automaited python

Python源代码 python管理系统 python源码 python案例 python系统

Python

chat.petals.dev

GPT Prompt Templates

GPTyped

Nuitka

azure storage python

Google Blog Converters(博客数据转换器)

wp functions

waymo open dataset

slugify