# Atendente
Você tem uma grande quantidade de arquivos mal organizados que se enquadram em um determinado número de tags ou categorias e deseja automatizar o processo de associação a essas tags para que possam ser melhor organizados.
Clerk usa LLMs para fornecer contexto mágico sobre seus arquivos!
Clerk trabalha no diretório atual e requer uma configuração YAML. O nome padrão para este arquivo é clerk.yml
e é esperado no diretório de trabalho.
categories :
genre:
- autobiography
- fantasy
- historical fiction
- non fiction
- romance
- science fiction
Para cada arquivo que desce recursivamente do diretório de trabalho atual, construímos um prompt para o LLM solicitando que ele atribua um de cada um dos valores de categoria ao arquivo com base no nome do arquivo e parte do conteúdo do arquivo.
A quantidade de conteúdo do arquivo enviado como parte do prompt pode ser aumentada ou diminuída. Se você diminuí-lo, terá mais espaço para valores de categoria no prompt. Se você aumentá-lo, poderá ter mais precisão.
Atualmente, o funcionário gera uma linha JSON para cada arquivo com o caminho para o arquivo e uma chave, valor para cada categoria e a previsão para o valor da categoria do LLM
{ "path": "/some/long/path/book1.pdf", "genre": "fiction" }
{ "path": "/some/long/path/book2_2022-01-03-harry-potter.pdf", "genre": "fiction" }
Atualmente o funcionário oferece suporte apenas ao modelo OpenAI GPT-4; você terá que usar esse modelo e uma chave de API na variável de ambiente OPENAI_API_KEY
Usage: clerk [OPTIONS]
Options:
-m, --max-read-length <MAX_READ_LENGTH>
Maximum length of content to read from files for matching [default: 10000]
-e, --exclude-file-type <EXCLUDE_FILE_TYPE>
Excluded File Type [default: zip xlsx yml]
-c, --config-file <CONFIG_FILE>
Location of Configuration file that defines file categories [default: clerk.yml]
-h, --help
Print help
-V, --version
Print version