ชุมชนผู้พัฒนาและการสนับสนุน | ฟอรั่ม | สังคม | เอกสาร |
---|---|---|---|
Modin สามารถติดตั้งด้วย pip
บน Linux, Windows และ MacOS:
pip install " modin[all] " # (Recommended) Install Modin with Ray and Dask engines.
หากคุณต้องการติดตั้ง Modin ด้วยเอนจิ้นเฉพาะ เราขอแนะนำ:
pip install " modin[ray] " # Install Modin dependencies and Ray.
pip install " modin[dask] " # Install Modin dependencies and Dask.
pip install " modin[mpi] " # Install Modin dependencies and MPI through unidist.
หากต้องการให้ Modin บน MPI ผ่าน unidist (ณ unidist 0.5.0) ทำงานได้อย่างสมบูรณ์ จำเป็นต้องมีการติดตั้งการใช้งาน MPI ที่ใช้งานได้ล่วงหน้า มิฉะนั้น การติดตั้ง modin[mpi]
อาจล้มเหลว โปรดดูส่วนการติดตั้งด้วย pip ของเอกสารประกอบ unidist สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับการติดตั้ง
หมายเหตุ: เนื่องจาก Modin 0.30.0 เราใช้ชุดการพึ่งพา Ray ที่ลดลง: ray
แทน ray[default]
ซึ่งหมายความว่าแดชบอร์ดและตัวเรียกใช้งานคลัสเตอร์ไม่ได้ถูกติดตั้งตามค่าเริ่มต้นอีกต่อไป หากคุณต้องการสิ่งเหล่านั้น ให้ลองติดตั้ง ray[default]
พร้อมกับ modin[ray]
Modin จะตรวจจับโดยอัตโนมัติว่าคุณได้ติดตั้งกลไกใดและใช้สำหรับการคำนวณกำหนดเวลา
การติดตั้งจาก conda forge โดยใช้ modin-all
จะติดตั้ง Modin และเอ็นจิ้นสามตัว: Ray, Dask และ MPI ผ่าน unidist
conda install -c conda-forge modin-all
แต่ละเครื่องยนต์สามารถติดตั้งแยกกันได้ (และรวมถึงเครื่องยนต์หลายตัวรวมกันด้วย):
conda install -c conda-forge modin-ray # Install Modin dependencies and Ray.
conda install -c conda-forge modin-dask # Install Modin dependencies and Dask.
conda install -c conda-forge modin-mpi # Install Modin dependencies and MPI through unidist.
หมายเหตุ: ตั้งแต่ Modin 0.30.0 เราใช้ชุดการพึ่งพา Ray ที่ลดลง: ray-core
แทน ray-default
ซึ่งหมายความว่าแดชบอร์ดและตัวเรียกใช้งานคลัสเตอร์ไม่ได้ถูกติดตั้งตามค่าเริ่มต้นอีกต่อไป หากคุณต้องการสิ่งเหล่านั้น ให้ลองติดตั้ง ray-default
พร้อมกับ modin-ray
โปรดดูส่วนการติดตั้งด้วย conda ของเอกสารประกอบ unidist สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับวิธีการติดตั้งการใช้งาน MPI เฉพาะเพื่อรัน
เพื่อเร่งการติดตั้ง conda เราขอแนะนำให้ใช้โปรแกรมแก้ปัญหา libmamba หากต้องการทำสิ่งนี้ให้ติดตั้งในสภาพแวดล้อมพื้นฐาน:
conda install -n base conda-libmamba-solver
จากนั้นใช้มันในระหว่างการติดตั้งเช่น:
conda install -c conda-forge modin-ray --experimental-solver=libmamba
หรือเริ่มจากเวอร์ชัน conda 22.11 และ libmamba Solver 22.12:
conda install -c conda-forge modin-ray --solver=libmamba
หากคุณต้องการเลือกกลไกการคำนวณเฉพาะเพื่อใช้งาน คุณสามารถตั้งค่าตัวแปรสภาพแวดล้อม MODIN_ENGINE
แล้ว Modin จะทำการคำนวณกับกลไกนั้น:
export MODIN_ENGINE=ray # Modin will use Ray
export MODIN_ENGINE=dask # Modin will use Dask
export MODIN_ENGINE=unidist # Modin will use Unidist
หากคุณต้องการเลือกกลไก Unidist คุณควรตั้งค่าตัวแปรสภาพแวดล้อมเพิ่มเติม UNIDIST_BACKEND
ปัจจุบัน Modin รองรับ MPI ผ่าน unidist เท่านั้น:
export UNIDIST_BACKEND=mpi # Unidist will use MPI backend
ซึ่งสามารถทำได้ภายในสมุดบันทึก/ล่ามก่อนที่คุณจะนำเข้า Modin:
import modin . config as modin_cfg
import unidist . config as unidist_cfg
modin_cfg . Engine . put ( "ray" ) # Modin will use Ray
modin_cfg . Engine . put ( "dask" ) # Modin will use Dask
modin_cfg . Engine . put ( 'unidist' ) # Modin will use Unidist
unidist_cfg . Backend . put ( 'mpi' ) # Unidist will use MPI backend
หมายเหตุ: คุณไม่ควรเปลี่ยนเครื่องยนต์หลังจากการใช้งาน Modin ครั้งแรก เนื่องจากจะส่งผลให้เกิดการทำงานที่ไม่ได้กำหนดไว้
บน Linux, MacOS และ Windows คุณสามารถติดตั้งและใช้ Ray, Dask หรือ MPI ผ่าน unidist ไม่จำเป็นต้องใช้ความรู้ใดๆ ในการใช้เอนจิ้นเหล่านี้ เนื่องจาก Modin ขจัดความซับซ้อนทั้งหมดออกไป ดังนั้นคุณสามารถเลือกอย่างใดก็ได้ตามใจชอบ!
วัตถุหมีแพนด้า | การครอบคลุมเครื่องยนต์ Ray ของ Modin | ความครอบคลุม Dask Engine ของ Modin | ความครอบคลุมของเครื่องยนต์ Unidist ของ Modin |
---|---|---|---|
pd.DataFrame | |||
pd.Series | |||
pd.read_csv | |||
pd.read_table | |||
pd.read_parquet | |||
pd.read_sql | |||
pd.read_feather | |||
pd.read_excel | |||
pd.read_json | |||
pd.read_<other> |
สำหรับเอกสารฉบับสมบูรณ์เกี่ยวกับ Modin โปรดไปที่หน้า ReadTheDocs ของเรา
หมายเหตุ: ในโหมดโลคัล (ไม่มีคลัสเตอร์) Modin จะสร้างและจัดการคลัสเตอร์โลคัล (Dask หรือ Ray) สำหรับการดำเนินการ
หากต้องการใช้ Modin คุณไม่จำเป็นต้องระบุวิธีกระจายข้อมูล หรือแม้แต่ทราบจำนวนคอร์ที่ระบบของคุณมี ในความเป็นจริง คุณสามารถใช้โน้ตบุ๊ก pandas ก่อนหน้าของคุณต่อไปได้ในขณะที่ Modin เร่งความเร็วได้อย่างมาก แม้แต่ในเครื่องเดียวก็ตาม เมื่อคุณเปลี่ยนคำสั่งนำเข้าแล้ว คุณก็พร้อมที่จะใช้ Modin เช่นเดียวกับที่คุณทำกับแพนด้า!
modin.pandas
DataFrame เป็น DataFrame แบบขนานที่มีน้ำหนักเบามาก Modin กระจายข้อมูลและการคำนวณอย่างโปร่งใส เพื่อให้คุณสามารถใช้ pandas API เดิมต่อไปได้ในขณะที่ทำงานกับข้อมูลได้มากขึ้นเร็วขึ้น เนื่องจากมีน้ำหนักเบามาก Modin จึงเพิ่มความเร็วได้สูงสุดถึง 4 เท่าบนแล็ปท็อปที่มี 4 คอร์จริง
ในแพนด้า คุณสามารถใช้คอร์ได้ครั้งละหนึ่งคอร์เท่านั้นเมื่อคุณทำการคำนวณทุกประเภท ด้วย Modin คุณจะสามารถใช้แกน CPU ทั้งหมดบนเครื่องของคุณได้ แม้จะมีงานซิงโครนัสแบบดั้งเดิมเช่น read_csv
แต่เราพบว่ามีการเร่งความเร็วอย่างมากโดยการกระจายงานทั่วทั้งเครื่องของคุณอย่างมีประสิทธิภาพ
import modin . pandas as pd
df = pd . read_csv ( "my_dataset.csv" )
บ่อยครั้งที่นักวิทยาศาสตร์ข้อมูลต้องสลับไปมาระหว่างเครื่องมือต่างๆ เพื่อดำเนินการกับชุดข้อมูลขนาดต่างๆ การประมวลผลดาต้าเฟรมขนาดใหญ่ที่มีแพนด้านั้นช้า และแพนด้าไม่รองรับการทำงานกับดาต้าเฟรมที่มีขนาดใหญ่เกินกว่าจะใส่ลงในหน่วยความจำที่มีอยู่ได้ ด้วยเหตุนี้ เวิร์กโฟลว์ของแพนด้าที่ทำงานได้ดีสำหรับการสร้างต้นแบบบนข้อมูลไม่กี่ MB จึงไม่ปรับขนาดเป็นสิบหรือหลายร้อย GB (ขึ้นอยู่กับขนาดเครื่องของคุณ) Modin รองรับการทำงานกับข้อมูลที่ไม่พอดีกับหน่วยความจำ ดังนั้นคุณจึงสามารถทำงานกับหลายร้อย GB ได้อย่างสะดวกสบายโดยไม่ต้องกังวลกับการชะลอตัวหรือข้อผิดพลาดของหน่วยความจำ ด้วยการสนับสนุนคลัสเตอร์และนอกคอร์ Modin จึงเป็นไลบรารี DataFrame ที่มีทั้งประสิทธิภาพโหนดเดียวที่ยอดเยี่ยมและความสามารถในการปรับขนาดสูงในคลัสเตอร์
เราออกแบบสถาปัตยกรรมของ Modin ให้เป็นโมดูลาร์ เพื่อให้เราสามารถเชื่อมต่อส่วนประกอบต่างๆ ในขณะที่พัฒนาและปรับปรุง:
modin.pandas
กำลังอยู่ระหว่างการพัฒนา ยินดีต้อนรับคำขอและการมีส่วนร่วม!
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการสนับสนุน Modin โปรดดูคู่มือการสนับสนุน Modin
ใบอนุญาต Apache 2.0