# Клерк
У вас есть большое количество плохо организованных файлов, которые попадают в определенное количество тегов или категорий, и вы хотите автоматизировать процесс связывания с этими тегами, чтобы их можно было лучше организовать.
Клерк использует LLM, чтобы волшебным образом предоставить контекст ваших файлов!
Клерк работает с текущим каталогом и требует конфигурации YAML. Имя этого файла по умолчанию — clerk.yml
, и ожидается, что он будет находиться в рабочем каталоге.
categories :
genre:
- autobiography
- fantasy
- historical fiction
- non fiction
- romance
- science fiction
Для каждого файла, рекурсивно перемещающегося из текущего рабочего каталога, мы создаем запрос для LLM, прося его присвоить файлу одно из значений каждой категории на основе имени файла и некоторой части содержимого файла.
Объем содержимого файла, отправляемого в рамках запроса, можно увеличить или уменьшить. Если вы уменьшите его, у вас будет больше места для значений категорий в подсказке. Если вы увеличите его, вы можете получить большую точность.
В настоящее время клерк выводит строку JSON для каждого файла с путем к файлу, а также ключом, значением для каждой категории и прогнозом значения категории из LLM.
{ "path": "/some/long/path/book1.pdf", "genre": "fiction" }
{ "path": "/some/long/path/book2_2022-01-03-harry-potter.pdf", "genre": "fiction" }
В настоящее время клерк поддерживает только модель OpenAI GPT-4; вам понадобится эта модель и ключ API в переменной среды OPENAI_API_KEY
Usage: clerk [OPTIONS]
Options:
-m, --max-read-length <MAX_READ_LENGTH>
Maximum length of content to read from files for matching [default: 10000]
-e, --exclude-file-type <EXCLUDE_FILE_TYPE>
Excluded File Type [default: zip xlsx yml]
-c, --config-file <CONFIG_FILE>
Location of Configuration file that defines file categories [default: clerk.yml]
-h, --help
Print help
-V, --version
Print version