
介绍
Kardio是一个简单的工具,可以配置为在任何端点上执行健康检查。 Kardio的UI富含UI,根据休息端点,TCP端口等的响应显示状态和可用性。它还与Slack和Email集成在一起以进行警告。
在美国T-Mobile,Inc。我们运行了几个庞大的多租户运输仪编排平台,这些平台依靠监视工具,例如Prometheus,Grafana等。如果在主要监视系统的任何部分中的性能降低,则需要。我们启动了Kardio作为平台上服务的简单状态UI,后来随着平台的增长和采用Kubernetes,添加了更多功能。
Quickstart
对于Kardio的快速测试,请在快速启动时按照这些步骤操作
功能
健康检查
Kardio有能力对Web服务进行健康检查:
- 自动发现并执行在Kubernetes和Marathon上部署的服务的健康检查
- 对手动配置的服务进行健康检查
高可用性
Kardio支持高可用性(HA)模式,并具有两个节点群集,并以主动性配置为单位。 HA模式旨在(如果需要)在多个区域工作。
多区域/多环境支持
卡尔迪奥(Kardio)有能力在多个区域运行。 Kardio仪表板显示了每个可用环境/区域的数据。
RBAC
Kardio使用LDAP集成支持基于角色的访问控制/限制。有关更多信息,请参见RBAC集成
功能亮点
- 服务的健康状况每分钟提供最新信息。
- 支持两个服务区域。
- 支持多种环境。
- 为单个服务执行多个状态检查。
- 可以(以Java)为任何服务编写自定义健康检查。
- 公告可以在主页上发布。
- 从仪表板顶部的自定义源显示实时数据,例如总交易,TPS,总容器运行,运行容器,正常运行时间,等等。
- 用户可以通过电子邮件和Slack订阅状态更改警报。
- 每年,月和日期的可用性百分比在仪表板中显示。
- 用户可以轻松地搜索列表中的特定应用程序,服务或组件。
- 最近24小时内具有健康状况变化的服务在最近的事件中突出显示,更改细节作为相应服务的消息显示。
- 登录用户可以为其访问的应用程序和服务添加/编辑消息。例如,用户可以为特定服务添加诸如“维护应用程序以进行维护”之类的消息。
- 管理页面使用户可以管理Kardio配置。
- 通过LDAP集成启用了Marathon应用程序和管理页面的基于角色的访问。
- 历史页面显示了过去7天的服务健康历史。
- Kardio支持Prometheus Push Gateway用于监视服务。
- 使用以下符号显示健康状况:
UI功能
Kardio UI具有以下组件。
- 计数器 -显示总交易(HTTP请求),每秒的当前请求,运行总容器,当前运行容器,运行的服务数量和所有群集的正常运行时间和正常运行时间单独和合并。
- 仪表板 -环境和地区都可以看到群集中的所有服务。
- 历史记录 -将显示每种服务状态的最后7天,并显示出故障和时间戳的原因。
- API仪表板 -服务,容器,RPS和潜伏期的趋势将显示在图中。将显示基于平台,环境,应用程序的过滤器,并以将图在PDF文件中导出的选项。
- Admin Console-身份验证基于LDAP,Admins具有添加/修改/删除计数器,环境和消息的能力。管理员可以添加任何端点以监视并提醒用户,还包括每个环境之上的释放通知。
安装
有关安装说明并从源构建,请遵循“设置指南”
公告博客文章
介绍Kardio
执照
Kardio根据Apache 2.0许可证的条款开源,并根据Apache 2.0许可证第7条的任何形式发行任何保证或条件。