clerk
1.0.0
# 店員
設定された数のタグまたはカテゴリに分類される、整理整頓が不十分なファイルが大量にあるため、それらのタグに関連付けるプロセスを自動化して、より適切に整理できるようにしたいと考えています。
Clerk は LLM を使用して、ファイルに関するコンテキストを魔法のように提供します。
Clerk は現在のディレクトリで動作し、YAML 構成が必要です。このファイルのデフォルト名はclerk.yml
で、作業ディレクトリにあることが想定されます。
categories :
genre:
- autobiography
- fantasy
- historical fiction
- non fiction
- romance
- science fiction
現在の作業ディレクトリから再帰的に移動するファイルごとに、ファイル名とファイルの内容の一部に基づいて、各カテゴリ値の 1 つをファイルに帰属させるよう LLM に求めるプロンプトを作成します。
プロンプトの一部として送信されるファイル コンテンツの量は増減できます。この値を減らすと、プロンプトにカテゴリ値を入力できる余地が広がります。増やすと精度が上がる可能性があります。
現在、クラークは、ファイルへのパス、各カテゴリのキー、値、LLM からのカテゴリ値の予測を含む JSON 行をファイルごとに出力します。
{ "path": "/some/long/path/book1.pdf", "genre": "fiction" }
{ "path": "/some/long/path/book2_2022-01-03-harry-potter.pdf", "genre": "fiction" }
現在、clacker は OpenAI GPT-4 モデルのみをサポートしています。そのモデルと環境変数OPENAI_API_KEY
の API キーにアクセスする必要があります。
Usage: clerk [OPTIONS]
Options:
-m, --max-read-length <MAX_READ_LENGTH>
Maximum length of content to read from files for matching [default: 10000]
-e, --exclude-file-type <EXCLUDE_FILE_TYPE>
Excluded File Type [default: zip xlsx yml]
-c, --config-file <CONFIG_FILE>
Location of Configuration file that defines file categories [default: clerk.yml]
-h, --help
Print help
-V, --version
Print version