이 저장소에는 Fishing for Magikarp: 대규모 언어 모델에서 훈련되지 않은 토큰 자동 감지 논문에 대한 코드 및 확장 결과가 포함되어 있습니다.
이 저장소에서 가장 흥미로운 점은 아마도 results/에 있는 세부 보고서와 요약 테이블일 것입니다. 각 모델마다 '전체' 보고서와 '미니' 보고서가 있습니다. '미니' 버전은 언제든지 github에서 열 수 있지만, 전체 버전은 파일 크기 제한으로 인해 로컬로 다운로드하고 확인해야 할 수 있습니다.
이 보고서에서:
▁
(그러나 _
아님).¿entry?
예상대로 인코딩되지 않은 어휘 entry
이 있는 토큰을 나타냅니다. poetry shell # make/activate your virtual environment
poetry install # only the first time or on updates
일부 최신 모델의 경우 pip install git+https://github.com/huggingface/transformers.git
사용하여 최신 변환기 버전을 설치해야 할 수도 있습니다.
새 모델 실행을 위한 몇 가지 예제 명령은 run_verification.sh
참조하세요. 스크립트 자체는 주로 재현성을 위한 참고용이므로 실행하지 않는 것이 좋습니다.
묶인 임베딩이 있는 모델의 경우 또는 더 나은 시각화 및 결과를 얻으려면 magikarp/unused_tokens.py
에 사용되지 않은 일부 토큰 ID를 하드 코딩해야 합니다.
[0]
과 같이 추측하거나 토크나이저 어휘를 사용하여 일부를 선택하세요.magikarp/fishing.py
스크립트를 실행하고 확인이 시작되면 종료합니다.results/verifications/yourmodel.jsonl
이 있습니다.generate_results.py
: 플롯 및 마크다운 보고서를 생성합니다. 이는 확인 후 자동으로 발생하지만 다시 생성하려면 python generate_results.py [your_model_id]
다음 results
를 살펴보세요. 추가 모델에 대한 결과를 제공하려면 다음을 포함하십시오.
UNUSED_TOKENS
항목pytest
통해)가 통과하는지 확인하세요.run_verification.sh
의 한 줄.gitignore
'd가 아닌 results
의 모든 파일 분석하기에 흥미로울 수 있는 모델을 알고 있지만 직접 실행할 리소스가 없는 경우 자유롭게 문제를 열어주세요. Hugging Face ID와 토큰화 측면에서 얼마나 흥미로운지에 대한 정보를 추가해 주세요. 모델이 클수록 우선순위가 낮아질 가능성이 있다는 점을 명심하세요.