clerk
1.0.0
# 사무원
정해진 수의 태그 또는 카테고리에 속하는 제대로 정리되지 않은 파일이 많이 있고 더 잘 정리할 수 있도록 해당 태그와 연결하는 프로세스를 자동화하려고 합니다.
사무원은 LLM을 사용하여 마술처럼 파일에 대한 컨텍스트를 제공합니다!
사무원은 현재 디렉터리에서 작업하며 YAML 구성이 필요합니다. 이 파일의 기본 이름은 clerk.yml
이며 작업 디렉터리에 있어야 합니다.
categories :
genre:
- autobiography
- fantasy
- historical fiction
- non fiction
- romance
- science fiction
현재 작업 디렉터리에서 재귀적으로 이동하는 각 파일에 대해 LLM이 파일 이름과 파일 내용 중 일부를 기반으로 각 범주 값 중 하나를 파일에 할당하도록 요청하는 프롬프트를 구성합니다.
프롬프트의 일부로 전송되는 파일 콘텐츠의 양을 늘리거나 줄일 수 있습니다. 이를 줄이면 프롬프트에서 범주 값을 입력할 공간이 더 많아집니다. 늘리면 정확도가 더 높아질 수 있습니다.
현재 점원은 파일 경로, 각 카테고리의 키, 값 및 LLM의 카테고리 값 예측과 함께 각 파일에 대한 JSON 라인을 출력합니다.
{ "path": "/some/long/path/book1.pdf", "genre": "fiction" }
{ "path": "/some/long/path/book2_2022-01-03-harry-potter.pdf", "genre": "fiction" }
현재 점원은 OpenAI GPT-4 모델만 지원합니다. 환경 변수 OPENAI_API_KEY
에 해당 모델과 API 키가 있어야 합니다.
Usage: clerk [OPTIONS]
Options:
-m, --max-read-length <MAX_READ_LENGTH>
Maximum length of content to read from files for matching [default: 10000]
-e, --exclude-file-type <EXCLUDE_FILE_TYPE>
Excluded File Type [default: zip xlsx yml]
-c, --config-file <CONFIG_FILE>
Location of Configuration file that defines file categories [default: clerk.yml]
-h, --help
Print help
-V, --version
Print version