自动化 Python 库提供从任何 Python 3.10+ 应用程序方便地访问自动化 REST API。该库包含所有请求参数和响应字段的类型定义,并提供由 httpx 提供支持的同步和异步客户端。
重要的
文档提取服务目前处于封闭测试阶段。
# 从 PyPIpip install 自动安装
定义要填充的目标模型,并将其与要处理的 PDF 一起传递到.extract_model()
方法中。您的前 1000 个文档是免费的,只需确保替换API_KEY
中的电子邮件即可。首次运行提取后,您将收到一封带有链接的验证邮件。第一次运行将会失败,因为您的电子邮件(在 api 密钥中定义)尚未经过验证。验证后,您可以重新运行脚本,它应该可以工作。这是一个例子:
from datetime import datefrom pydantic import Field, BaseModelfrom automaited import DocExtClient# from automaited import AsyncDocExtClientclass 文章(BaseModel):文章编号:str | None = Field(None, description="通常按字母或字母数字排列。") 描述:str | None = Field(None, description="商品描述。") 数量:float | None = Field(None, description="件数。")class PurchaseOrder(BaseModel): customer_name: str | None = Field(None, description="示例:Kaladent Inc.、Henkel GmbH") order_number: str | None = Field(None, description="采购订单编号。") order_date: 日期 | None = Field(None, description="采购订单日期。") items: list[Article] = Field(default_factory=list, description="所有订购商品的列表。")client = DocExtClient(API_KEY="TEST_BETA:you @company.com") # 将电子邮件替换为您的电子邮件。一旦我们结束测试版,您将收到用于生产的正确 API 密钥。结果:PurchaseOrder = client.extract_model(PurchaseOrder, "./po.pdf") # automaited.dev/samplesprint(result)
您可以在此处下载示例 PDF:automaited.dev/samples 如果您想了解有关如何定义目标模型的更多信息,只需查看 pydantic 文档