พื้นที่เก็บข้อมูลนี้มีโค้ดและผลลัพธ์เพิ่มเติมสำหรับกระดาษ Fishing for Magikarp: การตรวจจับโทเค็นที่ไม่ได้รับการฝึกอบรมโดยอัตโนมัติในโมเดลภาษาขนาดใหญ่
สิ่งที่น่าสนใจที่สุดใน repository นี้น่าจะเป็นรายงานโดยละเอียดและตารางสรุปที่พบในผลลัพธ์/ สำหรับแต่ละรุ่นจะมีรายงาน 'ฉบับเต็ม' และ 'มินิ' เวอร์ชัน 'มินิ' สามารถเปิดได้บน GitHub เสมอ แต่เวอร์ชันเต็มอาจจำเป็นต้องดาวน์โหลดและดูในเครื่องเนื่องจากข้อจำกัดด้านขนาดไฟล์
ในรายงานเหล่านี้:
▁
ช่องว่าง (แต่ไม่ใช่ _
)¿entry?
แสดงถึงโทเค็นที่มี entry
คำศัพท์ซึ่งไม่ได้เข้ารหัสตามที่คาดไว้ poetry shell # make/activate your virtual environment
poetry install # only the first time or on updates
สำหรับรุ่นที่ใหม่กว่าบางรุ่นคุณอาจต้องติดตั้ง Transformers รุ่นใหม่โดยใช้ pip install git+https://github.com/huggingface/transformers.git
ดู run_verification.sh
สำหรับคำสั่งตัวอย่างสำหรับการรันโมเดลใหม่ สคริปต์นั้นมีการอ้างอิงสำหรับการทำซ้ำเป็นหลัก และไม่แนะนำให้เรียกใช้
สำหรับโมเดลที่มีการฝังแบบเชื่อมโยง หรือเพื่อให้เห็นภาพและผลลัพธ์ที่สวยงามยิ่งขึ้น คุณจะต้องฮาร์ดโค้ดรหัสโทเค็นที่ไม่ได้ใช้บางส่วนใน magikarp/unused_tokens.py
[0]
หรือใช้คำศัพท์โทเค็นเพื่อเลือกบางส่วนmagikarp/fishing.py
และปิดมันเมื่อเริ่มการตรวจสอบresults/verifications/yourmodel.jsonl
ซึ่งช่วยให้คุณสามารถดูคำศัพท์และอัปเดตโทเค็นที่เหมาะสมได้generate_results.py
: สร้างแปลงและรายงานมาร์กดาวน์ สิ่งนี้จะเกิดขึ้นโดยอัตโนมัติหลังการตรวจสอบ แต่หากต้องการสร้างใหม่ คุณสามารถ python generate_results.py [your_model_id]
แล้วดูใน results
ได้ หากคุณต้องการสนับสนุนผลลัพธ์สำหรับโมเดลเพิ่มเติม โปรดระบุ:
UNUSED_TOKENS
pytest
) ผ่านสำหรับโมเดลใหม่ ซึ่งใช้อาร์เรย์นี้เป็นรีจิสตรีโมเดลrun_verification.sh
results
ที่ไม่ใช่ .gitignore
'd หากคุณรู้จักแบบจำลองที่อาจสนใจในการวิเคราะห์ แต่ไม่มีทรัพยากรพอที่จะดำเนินการด้วยตนเอง อย่าลังเลที่จะเปิดประเด็น โปรดเพิ่มรหัส Hugging Face ซึ่งเป็นข้อมูลบางอย่างเกี่ยวกับความน่าสนใจในแง่ของโทเค็น และโปรดจำไว้ว่ายิ่งโมเดลมีขนาดใหญ่เท่าใด โอกาสที่จะถูกจัดลำดับความสำคัญก็จะน้อยลงเท่านั้น