統計をダウンロードする | メイビン | PyPI | コンダフォージ | クラン | ドッカーハブ |
---|---|---|---|---|---|
アパッチ セドナ | 225,000/月 | ||||
アーカイブされた GeoSpark リリース | 10,000/月 |
Twitter でセドナをフォローして最新ニュースを入手: Sedona@Twitter
セドナ Discord コミュニティに参加してください:
セドナの毎月のコミュニティ オフィス アワーに参加してください: Google カレンダー、太平洋時間火曜日午前 8 時から午前 9 時まで、4 週間ごと
Sedona JIRA: バグ、プル リクエスト、およびその他の同様の問題
セドナ メーリング リスト: [email protected]: プロジェクト開発、一般的な質問、またはチュートリアル。
Apache Sedona™ は、開発者が Apache Spark や Apache Flink などの最新のクラスター コンピューティング システム内であらゆる規模の空間データを簡単に処理できるようにする空間コンピューティング エンジンです。 Sedona 開発者は、空間データ処理タスクを Spatial SQL、Spatial Python、または Spatial R で表現できます。Sedona は内部的に、空間データのロード、インデックス作成、パーティショニング、およびクエリ処理/最適化機能を提供しており、これによりユーザーはあらゆる規模で空間データを効率的に分析できます。
Apache Sedona の主な機能には次のようなものがあります。
これらは Apache Sedona の主要な機能の一部ですが、特定のバージョンと構成に応じて追加の機能を提供する場合があります。
クリックして、インタラクティブな Sedona Python Jupyter Notebook をすぐに再生してください。
Apache Sedona は空間データを操作するために広く使用されているフレームワークであり、さまざまなユースケースとアプリケーションがあります。 Apache Sedona の主な使用例には次のようなものがあります。
この例では、AWS S3 に .CSV ファイルとして保存されているニューヨーク市のタクシー乗車記録とタクシー ゾーン情報をセドナの空間データフレームに読み込みます。次に、タクシー乗車データセットに対して空間 SQL クエリを実行して、ニューヨークのマンハッタン地域内のレコードを除くすべてのレコードをフィルターで除外します。この例では、タクシー旅行がゾーンの地理的範囲内にあるかどうかに基づいて、タクシー旅行レコードをゾーンに照合する空間結合操作も示しています。最後に、最後のコード スニペットは Sedona の出力を GeoPandas と統合し、両方のデータセットの空間分布をプロットします。
taxidf = sedona . read . format ( 'csv' ). option ( "header" , "true" ). option ( "delimiter" , "," ). load ( "s3a://your-directory/data/nyc-taxi-data.csv" )
taxidf = taxidf . selectExpr ( 'ST_Point(CAST(Start_Lon AS Decimal(24,20)), CAST(Start_Lat AS Decimal(24,20))) AS pickup' , 'Trip_Pickup_DateTime' , 'Payment_Type' , 'Fare_Amt' )
zoneDf = sedona . read . format ( 'csv' ). option ( "delimiter" , "," ). load ( "s3a://your-directory/data/TIGER2018_ZCTA5.csv" )
zoneDf = zoneDf . selectExpr ( 'ST_GeomFromWKT(_c0) as zone' , '_c1 as zipcode' )
taxidf_mhtn = taxidf . where ( 'ST_Contains(ST_PolygonFromEnvelope(-74.01,40.73,-73.93,40.79), pickup)' )
taxiVsZone = sedona . sql ( 'SELECT zone, zipcode, pickup, Fare_Amt FROM zoneDf, taxiDf WHERE ST_Contains(zone, pickup)' )
zoneGpd = gpd . GeoDataFrame ( zoneDf . toPandas (), geometry = "zone" )
taxiGpd = gpd . GeoDataFrame ( taxidf . toPandas (), geometry = "pickup" )
zone = zoneGpd . plot ( color = 'yellow' , edgecolor = 'black' , zorder = 1 )
zone . set_xlabel ( 'Longitude (degrees)' )
zone . set_ylabel ( 'Latitude (degrees)' )
zone . set_xlim ( - 74.1 , - 73.8 )
zone . set_ylim ( 40.65 , 40.9 )
taxi = taxiGpd . plot ( ax = zone , alpha = 0.01 , color = 'red' , zorder = 3 )
Python JupyterLab と単一ノード クラスターを備えた Apache Sedona の Docker イメージを提供します。イメージは DockerHub で入手できます
Python パッケージをインストールするには:
pip install apache-sedona
ソースコードをコンパイルするには、セドナの Web サイトを参照してください。
ソースコード内のモジュール
名前 | API | 導入 |
---|---|---|
一般 | ジャワ | コア幾何演算ロジック、シリアル化、インデックス |
スパーク | Spark RDD/データフレーム スカラ/Java/SQL | Apache Spark での分散地理空間データ処理 |
まばたきする | Scala/Java/SQL の Flink DataStream/Table | Apache Flink での分散地理空間データ処理 |
スノーフレーク | スノーフレークSQL | Snowflake での分散地理空間データ処理 |
スパークシェード | ソースコードなし | セドナ スパーク用のシェード付きジャー |
フリンクシェード | ソースコードなし | セドナ フリンク用のシェード付き瓶 |
スノーフレークテスター | ジャワ | Sedona Snowflake のテスター プログラム |
パイソン | Spark RDD/データフレーム Python | Apache Spark での分散地理空間データ処理 |
R | R の Spark RDD/データフレーム | セドナのRラッパー |
ツェッペリン | アパッチ・ツェッペリン | Apache Zeppelin 0.8.1+ 用プラグイン |
詳細については、Apache Sedona Web サイトをご覧ください。