下载统计 | 梅文 | 皮伊 | 康达锻造 | 克兰 | DockerHub |
---|---|---|---|---|---|
阿帕奇塞多纳 | 22.5万/月 | ||||
存档的 GeoSpark 版本 | 1万/月 |
在 Twitter 上关注 Sedona 以获取最新消息:Sedona@Twitter
加入 Sedona Discord 社区:
加入塞多纳每月社区办公时间:Google 日历,太平洋时间周二上午 8 点至上午 9 点,每 4 周一次
Sedona JIRA:错误、拉取请求和其他类似问题
Sedona 邮件列表:[email protected]:项目开发、一般问题或教程。
Apache Sedona™ 是一种空间计算引擎,使开发人员能够在 Apache Spark 和 Apache Flink 等现代集群计算系统中轻松处理任何规模的空间数据。 Sedona 开发人员可以使用 Spatial SQL、Spatial Python 或 Spatial R 来表达他们的空间数据处理任务。在内部,Sedona 提供空间数据加载、索引、分区和查询处理/优化功能,使用户能够高效地分析任何规模的空间数据。
Apache Sedona 的一些主要功能包括:
这些是 Apache Sedona 的一些关键功能,但它可能会根据特定版本和配置提供其他功能。
单击并立即播放交互式 Sedona Python Jupyter Notebook!
Apache Sedona 是一种广泛使用的空间数据处理框架,它有许多不同的用例和应用程序。 Apache Sedona 的一些主要用例包括:
此示例将 AWS S3 上以 .CSV 文件形式存储的纽约市出租车行程记录和出租车区域信息加载到 Sedona 空间数据帧中。然后,它对出租车出行数据集执行空间 SQL 查询,以过滤掉除纽约曼哈顿地区之外的所有记录。该示例还显示了一个空间连接操作,该操作根据出租车行程是否位于区域的地理范围内将出租车行程记录与区域进行匹配。最后,最后一个代码片段将 Sedona 与 GeoPandas 的输出集成,并绘制两个数据集的空间分布。
taxidf = sedona . read . format ( 'csv' ). option ( "header" , "true" ). option ( "delimiter" , "," ). load ( "s3a://your-directory/data/nyc-taxi-data.csv" )
taxidf = taxidf . selectExpr ( 'ST_Point(CAST(Start_Lon AS Decimal(24,20)), CAST(Start_Lat AS Decimal(24,20))) AS pickup' , 'Trip_Pickup_DateTime' , 'Payment_Type' , 'Fare_Amt' )
zoneDf = sedona . read . format ( 'csv' ). option ( "delimiter" , "," ). load ( "s3a://your-directory/data/TIGER2018_ZCTA5.csv" )
zoneDf = zoneDf . selectExpr ( 'ST_GeomFromWKT(_c0) as zone' , '_c1 as zipcode' )
taxidf_mhtn = taxidf . where ( 'ST_Contains(ST_PolygonFromEnvelope(-74.01,40.73,-73.93,40.79), pickup)' )
taxiVsZone = sedona . sql ( 'SELECT zone, zipcode, pickup, Fare_Amt FROM zoneDf, taxiDf WHERE ST_Contains(zone, pickup)' )
zoneGpd = gpd . GeoDataFrame ( zoneDf . toPandas (), geometry = "zone" )
taxiGpd = gpd . GeoDataFrame ( taxidf . toPandas (), geometry = "pickup" )
zone = zoneGpd . plot ( color = 'yellow' , edgecolor = 'black' , zorder = 1 )
zone . set_xlabel ( 'Longitude (degrees)' )
zone . set_ylabel ( 'Latitude (degrees)' )
zone . set_xlim ( - 74.1 , - 73.8 )
zone . set_ylim ( 40.65 , 40.9 )
taxi = taxiGpd . plot ( ax = zone , alpha = 0.01 , color = 'red' , zorder = 3 )
我们为 Apache Sedona 提供了一个带有 Python JupyterLab 和单节点集群的 Docker 镜像。这些图像可在 DockerHub 上获取
要安装 Python 包:
pip install apache-sedona
编译源码请参考Sedona网站
源代码中的模块
姓名 | 应用程序编程接口 | 介绍 |
---|---|---|
常见的 | 爪哇 | 核心几何运算逻辑、序列化、索引 |
火花 | Spark RDD/DataFrame Scala/Java/SQL | Apache Spark 上的分布式地理空间数据处理 |
弗林克 | Scala/Java/SQL 中的 Flink DataStream/Table | Apache Flink 上的分布式地理空间数据处理 |
雪花 | 雪花SQL | Snowflake 上的分布式地理空间数据处理 |
火花阴影 | 没有源代码 | Sedona Spark 的遮光罐 |
flink-shaded | 没有源代码 | Sedona Flink 的阴影罐子 |
雪花测试仪 | 爪哇 | Sedona Snowflake 的测试程序 |
Python | Spark RDD/DataFrame Python | Apache Spark 上的分布式地理空间数据处理 |
右 | R 中的 Spark RDD/DataFrame | Sedona 的 R 包装 |
齐柏林飞艇 | 阿帕奇齐柏林飞艇 | Apache Zeppelin 0.8.1+ 插件 |
请访问 Apache Sedona 网站了解详细信息