datasketch
v1.6.5
datasketch ช่วยให้คุณมีโครงสร้างข้อมูลที่น่าจะเป็นซึ่งสามารถประมวลผลและค้นหาข้อมูลจำนวนมากได้อย่างรวดเร็ว โดยสูญเสียความแม่นยำเพียงเล็กน้อย
แพ็คเกจนี้ประกอบด้วยภาพร่างข้อมูลต่อไปนี้:
ร่างข้อมูล | การใช้งาน |
---|---|
มินแฮช | ประมาณการความคล้ายคลึงและภาวะเชิงการนับของแจ็กการ์ด |
MinHash แบบถ่วงน้ำหนัก | ประมาณการความคล้ายคลึงกันของแจ็คการ์ดแบบถ่วงน้ำหนัก |
HyperLogLog | การประมาณจำนวนสมาชิก |
ไฮเปอร์ล็อกล็อก++ | การประมาณจำนวนสมาชิก |
ดัชนีต่อไปนี้สำหรับภาพสเก็ตช์ข้อมูลมีไว้เพื่อรองรับเวลาในการสืบค้นแบบซับลิเนียร์:
ดัชนี | สำหรับร่างข้อมูล | ประเภทแบบสอบถามที่รองรับ |
---|---|---|
มินแฮช LSH | MinHash, MinHash แบบถ่วงน้ำหนัก | เกณฑ์แจ็คการ์ด |
มินแฮช LSH ฟอเรสต์ | MinHash, MinHash แบบถ่วงน้ำหนัก | แจ็คการ์ด ท็อปเค |
วงดนตรี MinHash LSH | มินแฮช | เกณฑ์การกักกัน |
สนช | ใดๆ | เมตริกแบบกำหนดเอง Top-K |
datasketch ต้องใช้กับ Python 3.7 ขึ้นไป, NumPy 1.11 ขึ้นไป และ Scipy
โปรดทราบว่า MinHash LSH และ MinHash LSH Ensemble ยังรองรับเลเยอร์พื้นที่จัดเก็บข้อมูล Redis และ Cassandra ด้วย (ดู MinHash LSH ในมาตราส่วน)
วิธีติดตั้ง datasketch โดยใช้ pip
:
pip ติดตั้ง datasketch
สิ่งนี้จะติดตั้ง NumPy เป็นการพึ่งพาด้วย
วิธีติดตั้งด้วยการพึ่งพา Redis:
pip ติดตั้ง datasketch [redis]
วิธีติดตั้งด้วยการพึ่งพา Cassandra:
pip ติดตั้ง datasketch [คาสซานดรา]