VQ VAE on MNIST ดาวน์โหลด - VQ VAE on MNIST ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

VQ VAE on MNIST

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

Vector-quantized variational autoencoder (VQ-VAE)

ที่เก็บประกอบด้วย VQ-VAE ที่ดำเนินการใน Pytorch และได้รับการฝึกฝนในชุดข้อมูล MNIST

VQ-VAE: ภาพรวม

VQ-vae ทำตามแนวคิดพื้นฐานเดียวกันกับเบื้องหลังการเข้ารหัสอัตโนมัติ Variational (VAE) VQ-VAE ใช้ การฝังแฝงแบบไม่ต่อเนื่องสำหรับการเข้ารหัสอัตโนมัติ Variational นั่นคือแต่ละมิติของ Z (เวกเตอร์แฝง) เป็นจำนวนเต็มแบบแยกส่วนแทนการแจกแจงแบบปกติอย่างต่อเนื่องโดยทั่วไปใช้ในขณะที่เข้ารหัสอินพุต

Vaes ประกอบด้วย 3 ส่วน:

เครือข่ายตัวเข้ารหัสที่ parametrizes หลัง Q (z | x) เหนือแฝง
การกระจายก่อนหน้า p (z)
ตัวถอดรหัสที่มีการกระจาย P (x | z) ผ่านข้อมูลอินพุต

คุณอาจถามเกี่ยวกับความแตกต่าง VQ-VAES นำมาที่โต๊ะ มาแสดงรายการกันเถอะ:

ตัวเข้ารหัสโมเดลการแจกแจงแบบจัดหมวดหมู่การสุ่มตัวอย่างที่คุณจะได้รับค่าอินทิกรัล
ค่าอินทิกรัลเหล่านี้ใช้ในการจัดทำดัชนีพจนานุกรมการฝังตัว
ค่าดัชนีจะถูกส่งไปยังตัวถอดรหัส

ทำไมต้องแนะนำความแตกต่าง?

วัตถุที่สำคัญในโลกแห่งความเป็นจริงหลายแห่งไม่ต่อเนื่อง ตัวอย่างเช่นในภาพเราอาจมีหมวดหมู่เช่น "แมว", "รถยนต์" ฯลฯ และอาจไม่สมเหตุสมผลที่จะแทรกระหว่างหมวดหมู่เหล่านี้ การเป็นตัวแทนที่ไม่ต่อเนื่องก็ง่ายต่อการสร้างแบบจำลอง

สถาปัตยกรรม

ที่ไหน:

n : ขนาดแบทช์
h : ความสูงของภาพ
w : ความกว้างของภาพ
c : จำนวนช่องในภาพอินพุต
d : จำนวนช่องในสถานะที่ซ่อนอยู่

การทำงาน

นี่คือภาพรวมโดยย่อของการทำงานของเครือข่าย VQ-VAE:

VQ-VAE ประกอบด้วย encoder, การฝัง (หรือ codebook) และตัวถอดรหัส
เมื่อภาพถูกส่งเป็นอินพุตมันจะถูกแปลงเป็น เวกเตอร์แฝงโดยใช้เครือข่ายเข้ารหัส

พื้นที่ฝังตัวประกอบด้วยเวกเตอร์แฝงจำนวนมากซึ่งเปรียบเทียบกับอินพุตหนึ่ง
ระยะทางถูกคำนวณและ เวกเตอร์แฝง (ระยะทางน้อยที่สุด) ที่คล้ายกันมากที่สุด (ในพื้นที่ฝังตัว) ไปยังเวกเตอร์แฝงของอินพุต ถูกเลือก
อันที่เลือกจะถูกป้อนเข้าสู่ เครือข่ายตัวถอดรหัสซึ่งสร้างภาพขึ้นใหม่

ชั้นปริมาณเวกเตอร์

การทำงานของชั้น VQ สามารถอธิบายได้ในหกขั้นตอนตามหมายเลขในรูป:

Reshape: มิติทั้งหมดยกเว้นอันสุดท้ายจะรวมกันเป็นหนึ่งเดียวเพื่อให้เรามีเวกเตอร์ N H W แต่ละมิติ D
การคำนวณระยะทาง: สำหรับเวกเตอร์ N H W แต่ละครั้งเราคำนวณระยะทางจากเวกเตอร์ K แต่ละตัวของพจนานุกรมฝังเพื่อให้ได้เมทริกซ์ของรูปร่าง (N H W, K)
Argmin: สำหรับเวกเตอร์ N H W แต่ละตัวเราพบดัชนีของเวกเตอร์ K ที่ใกล้เคียงที่สุดจากพจนานุกรม
ดัชนีจากพจนานุกรม: ดัชนีเวกเตอร์ที่ใกล้ที่สุดจากพจนานุกรมสำหรับเวกเตอร์ N H W แต่ละตัว
Reshape: แปลงกลับเป็นรูปร่าง (n, h, w, d)
การคัดลอกการไล่ระดับสี: เป็นไปไม่ได้ที่จะฝึกอบรมสถาปัตยกรรมนี้ผ่าน backpropagation เนื่องจากการไล่ระดับสีจะไม่ไหลผ่าน Argmin ดังนั้นเราจึงพยายามที่จะประมาณโดยการคัดลอกการไล่ระดับสีจาก z_q กลับไปที่ z_e ด้วยวิธีนี้เราไม่ได้ลดฟังก์ชั่นการสูญเสียให้น้อยที่สุด แต่ยังสามารถส่งข้อมูลกลับมาเพื่อฝึกอบรมได้

ฟังก์ชั่นการสูญเสีย

VQ-VAE ใช้การสูญเสีย 3 ครั้งเพื่อคำนวณการสูญเสียทั้งหมดในระหว่างการฝึกอบรม:

การสูญเสียการสร้างใหม่: เพิ่มประสิทธิภาพตัวถอดรหัสและตัวเข้ารหัสเป็น VAE เช่นความแตกต่างระหว่างภาพอินพุตและการสร้างใหม่:
reconstruction_loss = -log( p(x|z_q) )
การสูญเสียรหัส: เนื่องจากความจริงที่ว่าการไล่ระดับสีผ่านการฝังระบบอัลกอริทึมการเรียนรู้พจนานุกรมซึ่งใช้ข้อผิดพลาด L2 เพื่อย้ายเวกเตอร์ฝังตัว E_I ไปยังเอาต์พุตตัวเข้ารหัส
codebook_loss = ‖ sg[z_e(x)]− e ‖^2
(SG หมายถึงตัวดำเนินการไล่ระดับสีแบบหยุดหมายความว่าไม่มีการไล่ระดับสีไหลผ่านสิ่งที่มันใช้กับอะไร)
การสูญเสียความมุ่งมั่น: เนื่องจากปริมาณของพื้นที่ฝังตัวไม่มีมิติมันสามารถเติบโตได้โดยพลการหาก Embeddings E_I ไม่ฝึกเร็วเท่ากับพารามิเตอร์ของตัวเข้ารหัส
commitment_loss = β‖ z_e(x)− sg[e] ‖^2
(βเป็นไฮเปอร์พารามิเตอร์ที่ควบคุมจำนวนเงินที่เราต้องการชั่งน้ำหนักการสูญเสียความมุ่งมั่นเมื่อเทียบกับส่วนประกอบอื่น ๆ )

สารบัญ

คำแนะนำการตั้งค่า
ฝึกอบรมแบบจำลองของคุณตั้งแต่เริ่มต้น
สร้างภาพจากรุ่น
ภาพรวมที่เก็บข้อมูล
ผลลัพธ์
1. ภาพฝึกอบรม
2. กราฟการฝึกอบรม
3. กราฟทดสอบ
4. ภาพที่สร้างขึ้น
การสังเกตการณ์
เครดิต

1. คำแนะนำการตั้งค่า

คุณสามารถดาวน์โหลด repo หรือโคลนได้โดยเรียกใช้ต่อไปนี้ในพรอมต์ CMD

 https://github.com/praeclarumjj3/VQ-VAE-on-MNIST.git

2. การฝึกอบรมแบบจำลองของคุณตั้งแต่เริ่มต้น

คุณสามารถฝึกอบรมโมเดลได้ตั้งแต่เริ่มต้นด้วยคำสั่งต่อไปนี้ (ใน Google Colab)

 ! python3 VQ-VAE.py --output-folder [NAME_OF_OUTPUT_FOLDER] --data-folder [PATH_TO_MNIST_dataset] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --batch-size [BATCH_SIZE] --num_epoch [NUMBER_OF_EPOCHS] --lr [LEARNING_RATE] --beta [VALUE] --num-workers [NUMBER_OF_WORKERS]

output-folder - ชื่อของโฟลเดอร์ข้อมูล
data-folder - ชื่อของโฟลเดอร์ข้อมูล
device - ตั้งค่าอุปกรณ์ (CPU หรือ CUDA, ค่าเริ่มต้น: CPU)
hidden-size - ขนาดของเวกเตอร์แฝง (ค่าเริ่มต้น: 40)
k - จำนวนเวกเตอร์แฝง (ค่าเริ่มต้น: 512)
batch-size - ขนาดแบทช์ (ค่าเริ่มต้น: 128)
num-epochs - จำนวนยุค (ค่าเริ่มต้น: 10)
lr - อัตราการเรียนรู้สำหรับ Adam Optimizer (ค่าเริ่มต้น: 2E -4)
beta - การมีส่วนร่วมของการสูญเสียความมุ่งมั่นระหว่าง 0.1 ถึง 2.0 (ค่าเริ่มต้น: 1.0)
num-workers - จำนวนคนงานสำหรับการสุ่มตัวอย่างวิถี (ค่าเริ่มต้น: cpu_count () - 1)

โปรแกรมจะดาวน์โหลดชุดข้อมูล MNIST โดยอัตโนมัติและบันทึกไว้ในโฟลเดอร์ PATH_TO_MNIST_dataset (คุณต้องสร้างโฟลเดอร์นี้) สิ่งนี้เกิดขึ้นเพียงครั้งเดียว

นอกจากนี้ยังสร้างโฟลเดอร์ logs และ models โฟลเดอร์และภายในพวกเขาจะสร้างโฟลเดอร์ที่มีชื่อที่คุณส่งผ่านเพื่อบันทึกบันทึกและจุดตรวจสอบรุ่นภายในตามลำดับ

3. การสร้างภาพจากโมเดล

ในการสร้างภาพใหม่จาก Z สุ่มตัวอย่างจากหน่วยเกาส์เซียนเรียกใช้คำสั่งต่อไปนี้ (ใน Google Colab):

 ! python3 generate.py  --model [SAVED_MODEL_FILENAME] --input [MNIST_or_random] --device ['cpu' or 'cuda' ] --hidden-size [SIZE] --k [NUMBER] --filename [SAVING_NAME]

model - ชื่อไฟล์ที่มีโมเดล
input - MNIST หรือแบบสุ่ม
device - ตั้งค่าอุปกรณ์ (CPU หรือ CUDA, ค่าเริ่มต้น: CPU)
hidden-size - ขนาดของเวกเตอร์แฝง (ค่าเริ่มต้น: 40)
k - จำนวนเวกเตอร์แฝง (ค่าเริ่มต้น: 512)
filename - ชื่อที่จะบันทึกไฟล์ใด

มันสร้างภาพ 10*10 กริดซึ่งบันทึกไว้ในโฟลเดอร์ชื่อ generatedImages

คุณสามารถใช้โมเดลที่ผ่านการฝึกอบรมมาก่อนโดยดาวน์โหลดจากลิงค์ใน model.txt

4. ภาพรวมที่เก็บ

ที่เก็บมีไฟล์ต่อไปนี้

modules.py - มีโมดูลต่าง ๆ ที่ใช้ในการสร้างแบบจำลองของเรา
VQ-VAE.py มีฟังก์ชั่นและรหัสสำหรับการฝึกอบรมโมเดล vq-vae ของเรา
vector_quantizer.py - คลาส quantization เวกเตอร์ถูกกำหนดไว้ในไฟล์นี้
generate-py สร้างภาพใหม่จากรุ่นที่ผ่านการฝึกอบรมมาก่อน
model.txt - มีลิงก์ไปยังรุ่นที่ผ่านการฝึกอบรมมาก่อน
README.md - readme ให้ภาพรวมของ repo
references.txt - การอ้างอิงที่ใช้ในขณะสร้าง repo นี้
readme_images - มีภาพต่าง ๆ สำหรับ readme
MNIST - มีชุดข้อมูล MNIST ซิป (แม้ว่าจะถูกดาวน์โหลดโดยอัตโนมัติหากจำเป็น)
Training track for VQ-VAE.txt มีค่าการสูญเสียในระหว่างการฝึกอบรมโมเดล VQ-VAE ของเรา
logs_VQ-VAE มีบันทึก Tensorboard ซิปสำหรับรุ่น VQ-VAE ของเรา (สร้างโดยโปรแกรมโดยอัตโนมัติ)
testers.py - มีฟังก์ชั่นบางอย่างเพื่อทดสอบโมดูลที่กำหนดไว้ของเรา

คำสั่งให้เรียกใช้ Tensorboard (ใน Google Colab):

 %load_ext tensorboard
%tensordboard --logdir [path_to_folder_with_logs]

5. ผลลัพธ์

1. ภาพการฝึกอบรม

ภาพฝึกซ้อม

ภาพจากยุค 0th

ภาพจากยุคที่ 2

ภาพจากยุคที่ 4

ภาพจากยุค 6

ภาพจากยุค 8

ภาพจากยุคที่ 10

การสร้างใหม่ยังคงปรับปรุงและในตอนท้ายเกือบจะคล้ายกับภาพการฝึกอบรม _set ซึ่งสะท้อนให้เห็นในค่าการสูญเสีย (เช็คอินแท Training track for VQ-VAE.txt )

2. กราฟการฝึกอบรม

การสูญเสียการฟื้นฟู

การสูญเสียปริมาณ

total_loss

การสูญเสียทั้งหมดการสูญเสียการฟื้นฟูและการสูญเสียปริมาณลดลงอย่างสม่ำเสมอตามที่คาดไว้

3. กราฟทดสอบ

testing_loss

การสูญเสียการทดสอบลดลงอย่างสม่ำเสมอตามที่คาดไว้

4. ภาพที่สร้างขึ้น

กริดภาพต่อไปนี้ถูกสร้างขึ้นหลังจากผ่านภาพ MNIST เป็นอินพุต:

รุ่นค่อนข้างดี

กริดภาพต่อไปนี้ถูกสร้างขึ้นหลังจากผ่าน AZ ตัวอย่างแบบสุ่มจากหน่วยเกาส์เซียนเป็นอินพุตไปยังแบบจำลองแล้วผ่านตัวถอดรหัส

ภาพไม่ได้ดูสมบูรณ์แบบ การปรับแต่งขนาดของพื้นที่แฝงจำนวนเวกเตอร์ฝัง ฯลฯ สามารถช่วยในการสร้างภาพสุ่มที่ดีขึ้น

6. ข้อสังเกต

โมเดลได้รับการฝึกฝนบน Google Colab เป็นเวลา 10 ยุคโดยมีขนาดแบทช์ 128

หลังจากการฝึกอบรมโมเดลก็สามารถสร้างภาพอินพุตได้ค่อนข้างดีและยังสามารถสร้างภาพใหม่ได้แม้ว่าภาพที่สร้างขึ้นจะไม่ดีนัก
การฝึกอบรมเช่นเดียวกับการสูญเสียการทดสอบยังลดลงเกือบ monotonically

ฉันสังเกตเห็นว่าการฝึกอบรมแบบจำลองสำหรับยุคมากกว่า 10-20 นั้นให้ผลลัพธ์ที่แนะนำสัญญาณที่เป็นไปได้ของการ overfitting ในโมเดล นอกจากนี้ฉันยังทดลองกับมิติที่แตกต่างกันของพื้นที่ latednt และใน dimension = 40 ให้ผลลัพธ์ที่ดีที่สุด ช่วงที่ดีที่สุดสำหรับมิติออกมาอยู่ระหว่าง 16-42

7. เครดิต

แหล่งข้อมูลต่อไปนี้ช่วยให้พื้นที่เก็บข้อมูลนี้ได้มาก

การเรียนรู้การเป็นตัวแทนของระบบประสาท - Aaron van den Oord, Oriol Vinyals, Koray Kavukcuoglu
สร้างภาพความเที่ยงตรงสูงที่หลากหลายด้วย VQ-VAE-2-Ali Razavi, Aaron van den Oord, Oriol Vinyals
https://nbviewer.jupyter.org/github/zalandoresearch/pytorch-vq-vae/blob/master/vq-vae.ipynb
https://www.kaggle.com/ameroyer/keras-vq-vae-for-image-generation
https://blog.usejournal.com/understanding-vector-quantized-variational-autoencoders-vq-vae-323d710a888a
https://christineai.blog/pixelcnn-and-pixelrnn/
https://github.com/ritheshkumar95/pytorch-vqvae
https://github.com/ayushtues/genzoo

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-02-01
ขนาด 34.2MB
มาจาก Github

แอปที่เกี่ยวข้อง

visual try on

2024-11-07
ลากไป

2024-07-17
Spotify บนทีวี

2024-02-23
แอพ Trip On

2023-06-19
ป๊อปออน

2023-04-08
โจมตีไททัน

2022-08-30

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด