cuDF (「KOO-dee-eff」と発音) は、データのロード、結合、集約、フィルタリングなどの操作を行うための GPU DataFrame ライブラリです。 cuDF は、超高速 C++/CUDA データフレーム ライブラリである libcudf と Apache Arrow 列指向形式を利用して、GPU アクセラレーションのパンダ API を提供します。
cudf
直接インポートして、 pandas
のように使用できます。
import cudf
tips_df = cudf . read_csv ( "https://github.com/plotly/datasets/raw/master/tips.csv" )
tips_df [ "tip_percentage" ] = tips_df [ "tip" ] / tips_df [ "total_bill" ] * 100
# display average tip by dining party size
print ( tips_df . groupby ( "size" ). tip_percentage . mean ())
または、 cudf.pandas
を使用して、パンダ用のコード変更不要のアクセラレータとして cuDF を使用することもできます。 cudf.pandas
pandas API を 100% サポートしており、サポートされている操作には cuDF を利用し、必要に応じて pandas にフォールバックします。
% load_ext cudf . pandas # pandas operations now use the GPU!
import pandas as pd
tips_df = pd . read_csv ( "https://github.com/plotly/datasets/raw/master/tips.csv" )
tips_df [ "tip_percentage" ] = tips_df [ "tip" ] / tips_df [ "total_bill" ] * 100
# display average tip by dining party size
print ( tips_df . groupby ( "size" ). tip_percentage . mean ())
cudf.pandas
を探索してください。cuDF およびその他の RAPIDS パッケージをインストールするための最新情報とコマンドについては、RAPIDS インストール ページを参照してください。
cuDF は、NVIDIA Python Package Index からpip
経由でインストールできます。環境で利用可能な CUDA のメジャー バージョンに応じて、適切な cuDF パッケージを必ず選択してください。
CUDA 11.x の場合:
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu11
CUDA 12.x の場合:
pip install --extra-index-url=https://pypi.nvidia.com cudf-cu12
cuDF は、 rapidsai
チャネルから conda を使用して (miniforge 経由で) インストールできます。
conda install -c rapidsai -c conda-forge -c nvidia
cudf=25.02 python=3.12 cuda-version=12.5
また、最新の開発ブランチの HEAD から構築された夜間の Conda パッケージも提供します。
注: cuDF は、Linux および Python バージョン 3.10 以降でのみサポートされます。
OS とバージョンの詳細については、RAPIDS インストール ガイドを参照してください。
ビルド手順を参照してください。
cuDF への貢献についてはガイドをご覧ください。