还在手动管理边缘设备?快用“例外管理”实现云原生自动化运维!通过状态监控、策略执行和告警,减少人工干预,聚焦AI模型和固件更新等创新。拥抱Esper平台,解锁Blueprints和Pipelines,让你的Device Fleet实现真正的“自我修复”!
译自:You Need to Stop Managing Your Edge Devices
作者:Sudhir Reddy
随着设备集群的规模和责任不断扩大,开发可扩展的流程来管理它们比以往任何时候都更加重要。由于我们的时间和专业知识非常分散,先进的工具和自动化正在承担大量的 Slack 工作。或者更确切地说,它们应该这样做。
即使在资源充足的企业环境中——存在这样的环境吗?——对于管理设备集群的运营和创新团队来说,现实情况通常比我们在开发人员方面的合作伙伴想象的要手动和重复得多。
通常,团队只能通过繁琐的维护、内部非正式的举手和升级的客户支持票来管理集群——数字标牌、信息亭、销售点和专用手机。这种保持设备在线、合规和功能正常的方法——更不用说保持设备上的内容更新了——使我们始终处于被动状态,不断努力分类和优先处理最严重的问题。
我们大部分宝贵的时间最终都分配给了修复本不应该出现的问题,然后实施必要的修复以防止它们持续(并可能造成灾难性)扩散。我们都知道这是不可持续的。如果集群及其支持的无数关键业务功能要继续以这种爆炸性的速度增长和创新,那就更不可持续了。
对于任何以集群规模部署设备的团队来说,最明显的工作是创新赋能——无论是硬件外形、基础设施集成、AI 实现,还是仅仅为客户提供新的前端软件体验。高管和业务领导者不希望出现阻碍这些关键产品推出的借口。他们现在就想进入市场。
当然,我们都知道“先创新,后提问”的另一面。当专用设备部署遇到意外问题并需要修复时(例如手动、逐个设备地恢复到旧版本的软件),管理该部署的团队的工作量会激增,通常远远超过原始部署的工作量本身。
但是,作为集群运营专家,我们很难说此类事件令人惊讶,即使发生这些事件的具体机制可能出乎意料。如果我们以更积极的方式管理我们的集群,我们就可以在这些“未知的未知”演变成可能破坏整个产品发布的事件之前识别它们。我们可以被视为宝贵的合作者,而不是清理人员。但是如何做到呢?
例外管理是一个简单的概念,至少在原则上是这样。通过使用一系列自动化的状态监视器、策略执行机制和警报,您可以大大减少管理专用设备集群所需的手动工作和重复流程。具体来说,例外管理使您可以:
- 定期自动“签入”您的设备。
- 接收有关集群中设备合规性和漂移的报告,无论是定期还是实时。
- 通过自动漂移管理来维护设备的合规性。
- 将您的时间集中在无法通过自动化合规性执行来补救的问题上(例如自我升级)。
如果您管理一个设备集群,无论是数百个还是数万个,真正实现免人工干预的例外管理都是运营自动化的珠穆朗玛峰。我将第一个承认:我们还没有达到那个水平。即使对于最复杂的集群,在某些情况下,人工干预仍然是现实。机器和软件的故障方式是我们无法预测的,这意味着“人情味”仍然是解决某些问题的唯一方法。但我相信,对于我们大多数人来说,爬到自动化山峰的一半不仅是可以实现的,而且是具有变革意义的。并且它可以释放新的稳定性、可扩展性和创新水平。
在不久的将来,我们将拥有真正能够自我修复的边缘设备。这些设备不仅知道它们何时处于离线状态,而且还知道它们周围的设备是否也处于离线状态——并且以最佳方式响应特定情况(例如,打开和关闭飞行模式,而不是尝试向连接到网络的资源发出更广泛的中断情况的警报)。
即使这个未来尚未完全到来,Esper 的设计初衷就是为了支持它——完全自动化的“例外管理”边缘设备集群。但就目前而言,无论您是部署内容变更、AI 模型、固件更新还是安全策略,我们创新的 Blueprints 和 Pipelines 都是集群自动化的游戏规则改变者。我们邀请您尝试它们,因为 Esper 是一个设备管理平台,适用于构建创新体验并推动集群自动化发展的运营、工程和开发团队。
如果您想了解如何评估您组织的设备管理,请查看此免费资源:“为未来准备边缘设备集群的实用指南”。