clerk
1.0.0
# 文员
您有大量组织不良的文件,这些文件属于一定数量的标签或类别,并且您希望自动化与这些标签关联的过程,以便更好地组织它们。
文员使用法学硕士神奇地提供有关您的文件的上下文!
Clerk 在当前目录上工作,需要 YAML 配置。该文件的默认名称是clerk.yml
,它应该位于工作目录中。
categories :
genre:
- autobiography
- fantasy
- historical fiction
- non fiction
- romance
- science fiction
对于从当前工作目录递归向下的每个文件,我们为 LLM 构造一个提示,要求它根据文件名和文件的一些内容将每个类别值之一归因于该文件。
作为提示的一部分发送的文件内容量可以增加或减少。如果减少它,您将在提示中为类别值留出更多空间。如果增加它,您可能会获得更高的准确性。
目前,职员为每个文件输出一个 JSON 行,其中包含文件的路径、每个类别的键、值以及来自 LLM 的类别值的预测
{ "path": "/some/long/path/book1.pdf", "genre": "fiction" }
{ "path": "/some/long/path/book2_2022-01-03-harry-potter.pdf", "genre": "fiction" }
目前clerk仅支持OpenAI GPT-4模型;您必须在环境变量OPENAI_API_KEY
中使用该模型和 API 密钥
Usage: clerk [OPTIONS]
Options:
-m, --max-read-length <MAX_READ_LENGTH>
Maximum length of content to read from files for matching [default: 10000]
-e, --exclude-file-type <EXCLUDE_FILE_TYPE>
Excluded File Type [default: zip xlsx yml]
-c, --config-file <CONFIG_FILE>
Location of Configuration file that defines file categories [default: clerk.yml]
-h, --help
Print help
-V, --version
Print version