clerk下载 - clerk源码下载

clerk

其他源码

1.0.0

下载

# 文员

用例

您有大量组织不良的文件，这些文件属于一定数量的标签或类别，并且您希望自动化与这些标签关联的过程，以便更好地组织它们。

关于

文员使用法学硕士神奇地提供有关您的文件的上下文！

Clerk 在当前目录上工作，需要 YAML 配置。该文件的默认名称是clerk.yml ，它应该位于工作目录中。

配置示例：

 categories :
  genre:
     - autobiography
     - fantasy
     - historical fiction
     - non fiction
     - romance
     - science fiction

LLM的魔力是如何洒在上面的？

对于从当前工作目录递归向下的每个文件，我们为 LLM 构造一个提示，要求它根据文件名和文件的一些内容将每个类别值之一归因于该文件。

LLM 对代币数量有硬性限制；这会影响作为提示的一部分可以发送的类别数量和文件内容数量。

作为提示的一部分发送的文件内容量可以增加或减少。如果减少它，您将在提示中为类别值留出更多空间。如果增加它，您可能会获得更高的准确性。

输出

目前，职员为每个文件输出一个 JSON 行，其中包含文件的路径、每个类别的键、值以及来自 LLM 的类别值的预测

 { "path": "/some/long/path/book1.pdf", "genre": "fiction" }
{ "path": "/some/long/path/book2_2022-01-03-harry-potter.pdf", "genre": "fiction" }

当前支持的文件类型

文本
PDF

用法

目前clerk仅支持OpenAI GPT-4模型；您必须在环境变量OPENAI_API_KEY中使用该模型和 API 密钥

 Usage: clerk [OPTIONS]

Options:
  -m, --max-read-length <MAX_READ_LENGTH>
          Maximum length of content to read from files for matching [default: 10000]
  -e, --exclude-file-type <EXCLUDE_FILE_TYPE>
          Excluded File Type [default: zip xlsx yml]
  -c, --config-file <CONFIG_FILE>
          Location of Configuration file that defines file categories [default: clerk.yml]
  -h, --help
          Print help
  -V, --version
          Print version

展开

附加信息