clerk
1.0.0
# 文員
您有大量組織不良的文件,這些文件屬於一定數量的標籤或類別,您希望自動化與這些標籤關聯的流程,以便更好地組織它們。
文員使用法學碩士神奇地提供有關您的文件的上下文!
Clerk 在目前目錄上工作,需要 YAML 配置。該檔案的預設名稱是clerk.yml
,它應該位於工作目錄中。
categories :
genre:
- autobiography
- fantasy
- historical fiction
- non fiction
- romance
- science fiction
對於從目前工作目錄遞歸向下的每個文件,我們為 LLM 建構一個提示,要求它根據文件名稱和文件的一些內容將每個類別值之一歸因於該文件。
作為提示的一部分發送的文件內容量可以增加或減少。如果減少它,您將在提示中為類別值留出更多空間。如果增加它,您可能會獲得更高的準確性。
目前,職員為每個檔案輸出一個 JSON 行,其中包含檔案的路徑、每個類別的鍵、值以及來自 LLM 的類別值的預測
{ "path": "/some/long/path/book1.pdf", "genre": "fiction" }
{ "path": "/some/long/path/book2_2022-01-03-harry-potter.pdf", "genre": "fiction" }
目前clerk僅支援OpenAI GPT-4模型;您必須在環境變數OPENAI_API_KEY
中使用該模型和 API 金鑰
Usage: clerk [OPTIONS]
Options:
-m, --max-read-length <MAX_READ_LENGTH>
Maximum length of content to read from files for matching [default: 10000]
-e, --exclude-file-type <EXCLUDE_FILE_TYPE>
Excluded File Type [default: zip xlsx yml]
-c, --config-file <CONFIG_FILE>
Location of Configuration file that defines file categories [default: clerk.yml]
-h, --help
Print help
-V, --version
Print version