imagededup เป็นแพ็คเกจหลามที่ทำให้งานค้นหาสิ่งที่ ซ้ำกัน และ ใกล้เคียงกัน ในคอลเลกชันรูปภาพง่ายขึ้น
แพ็คเกจนี้มีฟังก์ชันการใช้งานเพื่อใช้อัลกอริธึมแฮชที่ดีเป็นพิเศษในการค้นหารายการที่ซ้ำกันทุกประการ รวมถึงโครงข่ายประสาทเทียมแบบ convolutional ซึ่งเชี่ยวชาญในการค้นหารายการที่ซ้ำกันใกล้เคียง นอกจากนี้ยังมีกรอบการประเมินเพื่อตัดสินคุณภาพของการขจัดข้อมูลซ้ำซ้อนสำหรับชุดข้อมูลที่กำหนดอีกด้วย
รายละเอียดฟังก์ชันการทำงานที่ได้รับจากแพ็คเกจต่อไปนี้:
สามารถดูเอกสารประกอบโดยละเอียดสำหรับแพ็คเกจได้ที่: https://idealo.github.io/imagededup/
imagededup เข้ากันได้กับ Python 3.8+ และทำงานบน Linux, MacOS X และ Windows เผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0
มีสองวิธีในการติดตั้ง imagededup:
pip install imagededup
git clone https://github.com/idealo/imagededup.git
cd imagededup
pip install " cython>=0.29 "
python setup.py install
ในการค้นหารายการที่ซ้ำกันในไดเร็กทอรีรูปภาพโดยใช้การแฮชการรับรู้ คุณสามารถใช้เวิร์กโฟลว์ต่อไปนี้:
from imagededup . methods import PHash
phasher = PHash ()
encodings = phasher . encode_images ( image_dir = 'path/to/image/directory' )
duplicates = phasher . find_duplicates ( encoding_map = encodings )
from imagededup . utils import plot_duplicates
plot_duplicates ( image_dir = 'path/to/image/directory' ,
duplicate_map = duplicates ,
filename = 'ukbench00120.jpg' )
ผลลัพธ์มีลักษณะดังนี้:
รหัสที่สมบูรณ์สำหรับเวิร์กโฟลว์คือ:
from imagededup . methods import PHash
phasher = PHash ()
# Generate encodings for all images in an image directory
encodings = phasher . encode_images ( image_dir = 'path/to/image/directory' )
# Find duplicates using the generated encodings
duplicates = phasher . find_duplicates ( encoding_map = encodings )
# plot duplicates obtained for a given file using the duplicates dictionary
from imagededup . utils import plot_duplicates
plot_duplicates ( image_dir = 'path/to/image/directory' ,
duplicate_map = duplicates ,
filename = 'ukbench00120.jpg' )
นอกจากนี้ยังสามารถใช้โมเดลที่คุณกำหนดเองเพื่อค้นหารายการที่ซ้ำกันโดยใช้วิธี CNN ได้อีกด้วย
ตัวอย่างเช่น อ้างถึงส่วนนี้ของที่เก็บ
หากต้องการรายละเอียดเพิ่มเติมเกี่ยวกับการใช้งานฟังก์ชันแพ็คเกจ โปรดดู: https://idealo.github.io/imagededup/
อัปเดต : การวัดประสิทธิภาพที่ให้มานั้นใช้ได้เฉพาะกับ imagededup v0.2.2
เท่านั้น รุ่นถัดไปมีการเปลี่ยนแปลงที่สำคัญกับวิธีการทั้งหมด ดังนั้นการวัดประสิทธิภาพในปัจจุบันอาจไม่คงอยู่
การวัดประสิทธิภาพโดยละเอียดเกี่ยวกับความเร็วและการจำแนกประเภทสำหรับวิธีการต่างๆ มีระบุไว้ในเอกสารประกอบ โดยทั่วไปสามารถสรุปได้ดังต่อไปนี้:
เรายินดีรับการสนับสนุนทุกประเภท ดูคู่มือการบริจาคสำหรับรายละเอียดเพิ่มเติม
โปรดอ้างอิง Imagededup ในสิ่งพิมพ์ของคุณหากสิ่งนี้มีประโยชน์สำหรับการวิจัยของคุณ นี่คือตัวอย่างรายการ BibTeX:
@misc { idealods2019imagededup ,
title = { Imagededup } ,
author = { Tanuj Jain and Christopher Lennan and Zubin John and Dat Tran } ,
year = { 2019 } ,
howpublished = { url{https://github.com/idealo/imagededup} } ,
}
ดูใบอนุญาตสำหรับรายละเอียด