该公共存储库是只读的,不再维护。
Data Hub Interactive Education(DINE) 是 SAP Data Hub 的教育内容。我们开发的实践练习是为了向您展示如何使用 SAP Data Hub 功能。 SAP Data Hub 允许您连接到不同的数据源,例如 SAP HANA、SAP ERP、SAP BW、Oracle DB2、SQL Server 等,并且可以处理各种数据类型;使用 Kafka、流引擎、文本和图像分析等进行结构化、半结构化和非结构化。SAP Data Hub 可以将您的所有数据整合在一起,以便您可以无缝地处理它们。您可以在 SAP Data Hub 上快速开发原型,并且结果可以轻松转变为生产级系统,因为 SAP Data Hub 负责执行、编排、调度和监控。 SAP Data Hub 是在 Kubernetes 上开发的,因此它可以部署在本地或云中。它在分布式执行引擎上运行,专为大数据世界而设计,通过证明对大数据环境中元数据的理解。
另请参阅 SAP Data Hub 的官方文档
DINE 使您可以轻松学习如何使用其运算符在 SAP Data Hub 中构建管道。它为应用程序开发人员提供参考,并以易于理解的业务场景展示了Data Hub的功能。该演示内容包括:
样本数据
代码片段
教程
SAP Data Hub 设置 - 按照 SAP Data Hub 安装指南并设置 SAP Data Hub 环境。
您还可以使用 SAP Data Hub Developer Edition 或 SAP Data Hub Trial Edition
我们将通过以下场景学习 SAP Data Hub,这些场景基于名为 SAP Data Hub Market Place 的虚拟实体,这是一个为了演示和学习而开发的电子商务平台,全球各地的客户每天都会进行数千次购买。
场景详述如下:
客户退货预测:此场景用于根据不同的参数来识别客户可以频繁退货的产品。该场景是用Python实现的,并使用sklearn库来实现决策树分类器算法。在此场景中,我们从不同数据源读取数据,并使用 SAP Analytics Cloud 可视化结果数据集。按照教程来实现此场景。
更多场景可以在 teched-2018 分支中找到。
我们针对上述场景的数据集由 6 个文件组成,其中包含客户、产品和销售信息。
CUSTOMER表包含客户的详细信息,该表具有ADDRESSID ,它映射到存储客户地址详细信息的ADDRESS表。
当客户购买产品时,会生成销售订单 ( SO_HEADER ),每个销售订单都有多个订单项目 ( SO_ITEM )。
SO_HEADER有PARTNERID ,一个链接到CUSTOMER表的外键。
SO_ITEM有 SALESORDERID,一个链接到SO_HEADER的外键。
每个SO_ITEM都会有PRODUCTID ,它映射到存储产品详细信息的PRODUCT表。
客户对产品的评论存储在REVIEW表中。
有关客户退货的信息存储在RETURN表中。
所以基本上我们有 7 张桌子。
它是源自 SHINE 的合成数据集,并进行了丰富以适应我们的用例
要访问数据集,请浏览此存储库中的数据文件夹。
没有任何
请使用 GitHub issues 报告任何错误。
版权所有 (c) 2017-2020 SAP SE 或 SAP 附属公司。版权所有。除非 LICENSE 文件中另有说明,该项目已根据 Apache 软件许可证 2.0 版获得许可。