# Oficinista
Tiene una gran cantidad de archivos mal organizados que se encuentran en una cantidad determinada de etiquetas o categorías y desea automatizar el proceso de asociación con esas etiquetas para que puedan organizarse mejor.
¡Clerk utiliza LLM para proporcionar mágicamente contexto sobre sus archivos!
Clerk trabaja en el directorio actual y requiere una configuración YAML. El nombre predeterminado para este archivo es clerk.yml
y se espera que esté en el directorio de trabajo.
categories :
genre:
- autobiography
- fantasy
- historical fiction
- non fiction
- romance
- science fiction
Para cada archivo que baja recursivamente desde el directorio de trabajo actual, construimos un mensaje para el LLM pidiéndole que atribuya uno de cada uno de los valores de categoría al archivo según el nombre del archivo y parte del contenido del archivo.
La cantidad de contenido del archivo enviado como parte del mensaje se puede aumentar o disminuir. Si lo reduce, tendrá más espacio para los valores de categoría en el mensaje. Si lo aumentas es posible que tengas más precisión.
Actualmente, el empleado genera una línea JSON para cada archivo con la ruta al archivo y una clave, un valor para cada categoría y la predicción del valor de la categoría del LLM.
{ "path": "/some/long/path/book1.pdf", "genre": "fiction" }
{ "path": "/some/long/path/book2_2022-01-03-harry-potter.pdf", "genre": "fiction" }
Actualmente, el empleado solo admite el modelo OpenAI GPT-4; Tendrás que acceder a ese modelo y una clave API en la variable de entorno OPENAI_API_KEY
Usage: clerk [OPTIONS]
Options:
-m, --max-read-length <MAX_READ_LENGTH>
Maximum length of content to read from files for matching [default: 10000]
-e, --exclude-file-type <EXCLUDE_FILE_TYPE>
Excluded File Type [default: zip xlsx yml]
-c, --config-file <CONFIG_FILE>
Location of Configuration file that defines file categories [default: clerk.yml]
-h, --help
Print help
-V, --version
Print version