Download Otter - ดาวน์โหลดซอร์สโค้ด Otter

Otter

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

เครดิตโครงการ กระดาษนาก กระดาษ otterhd | Mimic-It Paper

จุดตรวจ:

Luodian/Otter-Image-MPT7B
Luodian/Otter-Video-llama7b-densecaption

สำหรับใครในจีนแผ่นดินใหญ่: |

ข้อจำกัดความรับผิดชอบ: รหัสอาจไม่ได้รับการขัดและ refactored อย่างสมบูรณ์แบบ แต่ รหัส opensourced ทั้งหมดได้รับการทดสอบและเรียกใช้งานได้ เนื่องจากเราใช้รหัสเพื่อสนับสนุนการวิจัยของเรา หากคุณมีคำถามใด ๆ โปรดเปิดปัญหา เรารอคอยที่จะได้รับคำแนะนำและ PRS เพื่อปรับปรุงคุณภาพรหัส

- อัปเดต

[2023-11]: สนับสนุนการประเมินของ GPT4V ใน 8 เกณฑ์มาตรฐาน; anouncing otterhd-8b ปรับปรุงจาก Fuyu-8b Checkout Otterhd สำหรับรายละเอียด

- เพิ่ม Otterhd ซึ่งได้รับการปรับแต่งหลายรูปแบบจาก Fuyu-8B เพื่ออำนวยความสะดวกในการตีความการป้อนข้อมูลภาพความละเอียดสูงอย่างละเอียด โดยไม่มีโมดูลเข้ารหัสการมองเห็นที่ชัดเจน แพทช์รูปภาพทั้งหมดจะถูกแปลงเชิงเส้นและประมวลผลพร้อมกับโทเค็นข้อความ นี่คือการสำรวจที่เป็นนวัตกรรมและสง่างามมาก เราหลงใหลและปูด้วยวิธีนี้เราเปิดสคริปต์ Finetune สำหรับ Fuyu-8b และปรับปรุงปริมาณการฝึกอบรมได้เร็วขึ้น 4-5 เท่าด้วย Flash-Attention-2 ลองใช้สคริปต์ Finetune ของเราที่ Otterhd
- เพิ่ม Magnifierbench ซึ่งเป็นเกณฑ์มาตรฐานการประเมินที่ปรับแต่งเพื่อประเมินว่าโมเดลสามารถระบุข้อมูลของวัตถุขนาดเล็ก (ขนาดภาพ 1%) และความสัมพันธ์เชิงพื้นที่ได้หรือไม่
ปรับปรุงไปป์ไลน์สำหรับ pretrain | SFT | RLHF กับ LMM ชั้นนำ (ส่วนหนึ่ง)
1. รุ่น : นาก | OpenFlamingo | IDEFICS ฟูวู
2. อินเตอร์เฟสชุดข้อมูลการฝึกอบรม: (pretrain) MMC4 | LAION2B | CC3M | CC12M, (SFT) MIMIC-IT | m3it | llavar | LRV | svit ...
  - เราทดสอบชุดข้อมูลข้างต้นสำหรับทั้งการปรับแต่งและการปรับแต่งด้วย OpenFlamingo และ Otter นอกจากนี้เรายังทดสอบชุดข้อมูลด้วย IDEFICS และ FUYU สำหรับการปรับแต่งการเรียนการสอน เราจะ opensource สคริปต์การฝึกอบรมค่อยๆ
3. เบนช์มาร์กอินเตอร์เฟส : MagnifierBench/MMBENCH/MM-VET/MATHVISTA/POPE/MME/SICENCEQA/SEDBENCH เรียกใช้พวกเขาสามารถอยู่ในคลิกเดียวโปรดดูเกณฑ์มาตรฐานสำหรับรายละเอียด
```
    datasets :
    - name : magnifierbench
        split : test
        prompt : Answer with the option's letter from the given choices directly.
        api_key : [Your API Key] # GPT4 or GPT3.5 to evaluate the answers and ground truth.
        debug : true # put debug=true will save the model response in log file.
    - name : mme
        split : test
        debug : true
    - name : mmbench
        split : test
        debug : true

    models :
    - name : gpt4v
        api_key : [Your API Key] # to call GPT4V model.
```
1. การปรับแต่งรหัส สำหรับ การจัดระเบียบชุดข้อมูลหลายกลุ่มด้วยไฟล์ YAML แบบรวม ดูรายละเอียดที่การจัดการชุดข้อมูลในรูปแบบ MIMIC-IT ตัวอย่างเช่น,
```
    IMAGE_TEXT : # Group name should be in [IMAGE_TEXT, TEXT_ONLY, IMAGE_TEXT_IN_CONTEXT]
        LADD : # Dataset name can be assigned at any name you want
            mimicit_path : azure_storage/json/LA/LADD_instructions.json # Path of the instruction json file
            images_path : azure_storage/Parquets/LA.parquet # Path of the image parquet file
            num_samples : -1 # Number of samples you want to use, -1 means use all samples, if not set, default is -1.
        M3IT_CAPTIONING :
            mimicit_path : azure_storage/json/M3IT/captioning/coco/coco_instructions.json
            images_path : azure_storage/Parquets/coco.parquet
            num_samples : 20000
```
นี่คือการเปลี่ยนแปลงที่สำคัญและจะส่งผลให้รหัสก่อนหน้าไม่สามารถเรียกใช้งานได้โปรดตรวจสอบรายละเอียด

[2023-08]

เพิ่มการสนับสนุนสำหรับการใช้ Azure, anthropic, Palm, Models Cohere สำหรับ Instruct ด้วยตัวเองด้วย Pipeline Syphus สำหรับข้อมูลเกี่ยวกับการใช้งานแก้ไขบรรทัดนี้ด้วยรุ่นที่คุณเลือกและตั้งค่าปุ่ม API ของคุณในสภาพแวดล้อม สำหรับข้อมูลเพิ่มเติมดู Litellm

[2023-07]: ชุดข้อมูล anouncing mimic-it สำหรับการปรับแต่งคำสั่ง-ข้อความภาพ/วิดีโอ interleaved หลายรายการ

- Checkout mimic-it บนชุดข้อมูล HuggingFace
- อัปเดตส่วนไข่สำหรับการดาวน์โหลดชุดข้อมูล MIMIC-IT
- ติดต่อเรา หากคุณต้องการพัฒนานากสำหรับสถานการณ์ของคุณ (สำหรับภาพดาวเทียมหรือวิดีโอตลก?) เรามุ่งมั่นที่จะสนับสนุนและช่วยเหลือกรณีการใช้งานที่หลากหลายของ Otter OpenFlamingo และ Otter เป็นรุ่นที่แข็งแกร่งด้วยสถาปัตยกรรมที่ได้รับการออกแบบอย่างยอดเยี่ยมของ Flamingo ที่ยอมรับรูปภาพ/วิดีโอหลายภาพหรืออินพุตอื่น ๆ มาสร้างโมเดลที่น่าสนใจขึ้นด้วยกัน

[2023-06]

- ดาวน์โหลดชุดข้อมูล MIMIC-IT สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการนำทางชุดข้อมูลโปรดดูที่ชุดข้อมูล MIMIC-IT
? ️เรียกใช้นากในพื้นที่ คุณสามารถเรียกใช้โมเดลของเราในเครื่องด้วย GPU MEM อย่างน้อย 16G สำหรับงานต่าง ๆ เช่นการติดแท็กรูปภาพ/วิดีโอและคำบรรยายภาพและการระบุเนื้อหาที่เป็นอันตราย เราแก้ไขข้อผิดพลาดที่เกี่ยวข้องกับการอนุมานวิดีโอโดยที่ frame tensors ไม่คับแคบกับ vision_x ผิดพลาด
ตรวจสอบให้แน่ใจว่าได้ปรับ sys.path.append("../..") อย่างถูกต้องเพื่อเข้าถึง otter.modeling_otter เพื่อเปิดรุ่น
- ตรวจสอบกระดาษของเราแนะนำอย่างละเอียดในรายละเอียด พบกับ MIMIC-IT ซึ่งเป็นชุดข้อมูลการปรับแต่งการเรียนการสอนหลายบริบทครั้งแรกพร้อมคำแนะนำ 2.8 ม.! ตั้งแต่การทำความเข้าใจฉากทั่วไปไปจนถึงการพบความแตกต่างเล็กน้อยและเพิ่มความเข้าใจในมุมมองที่เห็นแก่ตัวสำหรับชุดหูฟัง AR ชุดข้อมูล Mimic-IT ของเรามีทั้งหมด

- ทำไมการปรับแต่งคำสั่งในบริบท?

โมเดลภาษาขนาดใหญ่ (LLMS) ได้แสดงให้เห็นถึงความถนัดสากลที่ยอดเยี่ยมในฐานะผู้เรียนจำนวนน้อย/ศูนย์ช็อตสำหรับงานจำนวนมากเนื่องจากการฝึกอบรมล่วงหน้าเกี่ยวกับข้อมูลข้อความที่กว้างขวาง ในบรรดา LLMs เหล่านี้ GPT-3 โดดเด่นเป็นแบบจำลองที่โดดเด่นด้วยความสามารถที่สำคัญ นอกจากนี้ตัวแปรของ GPT-3 คือคำแนะนำและ chatgpt ได้พิสูจน์แล้วว่ามีประสิทธิภาพในการตีความคำแนะนำภาษาธรรมชาติเพื่อดำเนินงานที่ซับซ้อนในโลกแห่งความเป็นจริงด้วยการปรับแต่งการเรียนการสอน

ได้รับแรงบันดาลใจจากรูปแบบ interleaved ต้นน้ำที่ทำให้โมเดลฟลามิงโกนำเสนอ? Otter โมเดลหลายโมดอลที่ใช้ OpenFlamingo (เวอร์ชั่นเปิดของ Flamingo ของ DeepMind) เราฝึกฝนนากของเราในการปรับแต่งการเรียนการสอนในบริบทใน mi- m odal i n- c ontext i nstruction t uning ( mimic-it ) ชุดข้อมูล Otter Showcases ปรับปรุงความสามารถในการติดตามคำสั่งและการเรียนรู้ในบริบททั้งในภาพและวิดีโอ

- รายละเอียดชุดข้อมูล MIMIC-IT

MIMIC-IT ช่วยให้แอปพลิเคชันของโมเดลผู้ช่วย Visual Egocentric ที่สามารถตอบคำถามที่สามารถตอบคำถามของคุณเช่น เฮ้คุณคิดว่าฉันทิ้งกุญแจไว้บนโต๊ะหรือไม่? - ควบคุมพลังของการเลียนแบบ-มันเพื่อปลดล็อกศักยภาพเต็มรูปแบบของผู้ช่วยด้วยภาพที่ขับเคลื่อนด้วย AI ของคุณและยกระดับงานภาษาวิสัยทัศน์แบบโต้ตอบของคุณให้สูงขึ้น

นอกจากนี้เรายังแนะนำ Syphus ซึ่งเป็นไปป์ไลน์อัตโนมัติสำหรับการสร้างคู่การตอบสนองที่มีคุณภาพสูงในหลายภาษา เมื่อสร้างขึ้นตามกรอบงานที่เสนอโดย LLAVA เราใช้ chatgpt เพื่อสร้างคู่การตอบสนองคำสั่งตามเนื้อหาภาพ เพื่อให้แน่ใจว่าคุณภาพของคู่การตอบสนองคำสั่งที่สร้างขึ้นไปป์ไลน์ของเรารวมข้อความระบบคำอธิบายประกอบภาพและตัวอย่างในบริบทเพื่อแจ้งให้ ChatGPT

สำหรับรายละเอียดเพิ่มเติมโปรดตรวจสอบชุดข้อมูล MIMIC-IT

- รายละเอียดรุ่นนาก

Otter ได้รับการออกแบบมาเพื่อรองรับการปรับแต่งการเรียนการสอนแบบหลายรูปแบบตามโมเดล OpenFlamingo ซึ่งเกี่ยวข้องกับการปรับแต่งรูปแบบภาษาบนสื่อที่เกี่ยวข้องเช่นภาพที่สอดคล้องกับคำบรรยายภาพหรือคู่ตอบโต้คำสั่ง

เราฝึกฝนนากในชุดข้อมูลเลียนแบบด้วยคู่การตอบสนองการสอนในบริบทประมาณ 2.8 ล้านคู่ซึ่งมีโครงสร้างเป็นเทมเพลตที่เหนียวแน่นเพื่ออำนวยความสะดวกในการทำงานต่างๆ Otter รองรับอินพุตวิดีโอ (เฟรมถูกจัดเรียงเป็นการใช้งานของ Flamingo ดั้งเดิม) และอินพุตรูปภาพหลายภาพเป็นตัวอย่างในบริบทซึ่งเป็น โมเดลที่ปรับแต่งแบบหลายรูปแบบครั้งแรก

เทมเพลตต่อไปนี้ครอบคลุมรูปภาพคำแนะนำของผู้ใช้และการตอบสนองที่สร้างจากแบบจำลองโดยใช้ฉลากบทบาท User และ GPT เพื่อเปิดใช้งานการโต้ตอบกับผู้ใช้และผู้ช่วยที่ไร้รอยต่อ

 prompt = f"<image>User: { instruction } GPT:<answer> { response } <endofchunk>"

การฝึกอบรมโมเดลนากบนชุดข้อมูล MIMIC-IT ช่วยให้สามารถรับความสามารถที่แตกต่างกันตามที่แสดงโดยงาน LA และ SD ได้รับการฝึกฝนเกี่ยวกับงาน LA โมเดลแสดงความเข้าใจฉากที่ยอดเยี่ยมความสามารถในการให้เหตุผลและความสามารถในการสนทนาหลายรอบ

 # multi-round of conversation
prompt = f"<image>User: { first_instruction } GPT:<answer> { first_response } <endofchunk>User: { second_instruction } GPT:<answer>"

เกี่ยวกับแนวคิดของการจัดระเบียบตัวอย่างภาษาภาพในบริบทเราแสดงให้เห็นถึงความสามารถที่ได้รับของโมเดลนากเพื่อทำตามคำแนะนำระหว่างบริบทหลังจากการฝึกอบรมเกี่ยวกับงาน LA-T2T รูปแบบข้อมูลอินพุตที่จัดระเบียบมีดังนี้:

 # Multiple in-context example with similar instructions
prompt = f"<image>User: { ict_first_instruction } GPT: <answer> { ict_first_response } <|endofchunk|><image>User: { ict_second_instruction } GPT: <answer> { ict_second_response } <|endofchunk|><image>User: { query_instruction } GPT: <answer>"

สำหรับรายละเอียดเพิ่มเติมโปรดดูภาคผนวกของกระดาษสำหรับงานอื่น ๆ

สภาพแวดล้อม

เปรียบเทียบรุ่น CUDA ที่ส่งคืนโดย NVIDIA-SMI และ NVCC-Version พวกเขาต้องจับคู่ หรืออย่างน้อยเวอร์ชันจะได้รับจาก NVCC-เวอร์ชันควรเป็น <= เวอร์ชันที่ได้รับจาก Nvidia-Smi
ติดตั้ง pytorch ที่ตรงกับรุ่น cuda ของคุณ (เช่น Cuda 11.7 Torch 2.0.0) เราใช้รหัสนี้ได้สำเร็จใน Cuda 11.1 Torch 1.10.1 และ Cuda 11.7 Torch 2.0.0 คุณสามารถอ้างถึงเอกสารของ Pytorch ล่าสุดหรือก่อนหน้า
คุณสามารถติดตั้งผ่าน conda env create -f environment.yml โดยเฉพาะอย่างยิ่งเพื่อให้แน่ใจว่า transformers>=4.28.0 accelerate>=0.18.0

หลังจากกำหนดค่าสภาพแวดล้อมคุณสามารถใช้? Flamingo Model /? โมเดลนากเป็น? กอดนางแบบใบหน้าที่มีเพียงไม่กี่บรรทัด! คลิกเดียวและจากนั้นรุ่นการกำหนดค่า/น้ำหนักจะถูกดาวน์โหลดโดยอัตโนมัติ โปรดดูที่ HuggingFace Otter/Flamingo สำหรับรายละเอียด

☄การฝึกอบรม

นากได้รับการฝึกฝนตาม OpenFlamingo คุณอาจต้องใช้น้ำหนักที่แปลงแล้วที่ Luodian/Otter-9b-init หรือ Luodian/Otter-MPT7B-init พวกเขาจะถูกแปลงตามลำดับจาก OpenFlamingo-LLAMA7B-V1 และ OpenFlamingo-MPT7B-V2 เราได้เพิ่มโทเค็น <answer> สำหรับการปรับแต่งคำสั่งดาวน์สตรีมของ Otter

นอกจากนี้คุณยังสามารถใช้น้ำหนักนากที่ผ่านการฝึกอบรมใด ๆ เพื่อเริ่มต้นด้วยการฝึกอบรมของคุณที่ด้านบนของเราดูที่น้ำหนักนาก คุณสามารถอ้างถึง Mimic-It สำหรับการเตรียมไฟล์ภาพ/คำสั่ง/รถไฟ JSON

 export PYTHONPATH=.
RUN_NAME= " Otter_MPT7B "
GPU=8
WORKERS= $(( ${GPU} * 2 ))

echo " Using ${GPU} GPUs and ${WORKERS} workers "
echo " Running ${RUN_NAME} "

accelerate launch --config_file=./pipeline/accelerate_configs/accelerate_config_zero3.yaml 
    --num_processes= ${GPU} 
    pipeline/train/instruction_following.py 
    --pretrained_model_name_or_path=luodian/OTTER-MPT7B-Init 
    --model_name=otter 
    --instruction_format=simple 
    --training_data_yaml=./shared_scripts/Demo_Data.yaml 
    --batch_size=8 
    --num_epochs=3 
    --report_to_wandb 
    --wandb_entity=ntu-slab 
    --external_save_dir=./checkpoints 
    --run_name= ${RUN_NAME} 
    --wandb_project=Otter_MPTV 
    --workers= ${WORKERS} 
    --lr_scheduler=cosine 
    --learning_rate=2e-5 
    --warmup_steps_ratio=0.01 
    --save_hf_model 
    --max_seq_len=1024

- การอ้างอิง

หากคุณพบว่าที่เก็บนี้มีประโยชน์โปรดพิจารณาอ้าง:

 @article{li2023otter,
  title={Otter: A Multi-Modal Model with In-Context Instruction Tuning},
  author={Li, Bo and Zhang, Yuanhan and Chen, Liangyu and Wang, Jinghao and Yang, Jingkang and Liu, Ziwei},
  journal={arXiv preprint arXiv:2305.03726},
  year={2023}
}

@article{li2023mimicit,
    title={MIMIC-IT: Multi-Modal In-Context Instruction Tuning},
    author={Bo Li and Yuanhan Zhang and Liangyu Chen and Jinghao Wang and Fanyi Pu and Jingkang Yang and Chunyuan Li and Ziwei Liu},
    year={2023},
    eprint={2306.05425},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}