现实案例展示了企业如何在多云 AI 中实现成本效益。
译自 Master Multicloud With These Simple Cost Tips for AI Workloads,作者 Advit Patel。
现代人工智能的进步依赖于数据处理、模型训练和实时推理。通过将任务分散到不同的云提供商,多云配置可实现更大的灵活性、更好的性能以及减少对单一供应商的依赖。
然而,随着管理计算能力、存储和云间数据传输变得更加复杂,这种技术经常会增加成本。到 2024 年底,主要由人工智能驱动的全球云服务支出预计将达到 6788 亿美元,Gartner 预测。 因此,成本控制成为运营和战略需求。
通过确定主要的成本驱动因素并实施定制的优化技术,企业可以最大限度地提高其多云投资,同时保持支持 AI 创新所需的可扩展性和效率。本指南探讨了在多云生态系统中实现 AI 工作负载成本效益的成熟成本优化策略。
在多个云服务提供商之间分配人工智能工作负载被称为 AI 的多云架构。这种方法利用每个提供商的优势,例如区域数据中心或特定的 AI 工具,来提高性能、灵活性和可靠性。
此外,它还降低了服务中断和供应商锁定的风险,保证了不间断的运营并遵守各种法律规定。
由于多项实质性优势,多云架构在 AI 应用的实施中正变得越来越普遍。
1. 适应性和防止供应商锁定
组织可以使用各种云提供商来选择最适合特定 AI 工作负载的服务,从而确保成本效益和峰值性能。这种方法可以随着业务需求的变化平稳地切换提供商,避免依赖单一供应商。
2. 改进的可靠性和故障转移能力
提高系统弹性涉及在多个云平台之间分配 AI 工作负载。在出现技术难题或中断时,可以同时将工作负载转移到另一个提供商,从而确保不间断的运营并减少服务中断。
3. 顶级服务的可用性
不同的云提供商擅长不同的领域。通过利用每个提供商的独特优势,例如先进的机器学习工具、专用硬件加速器或区域特定服务,企业可以通过多云策略最大限度地提高 AI 应用的性能。
4. 遵守数据主权
选择在特定地点设有数据中心并跨多个云运行的提供商,可以帮助企业遵守各种监管标准,同时仍然遵守本地数据主权标准。
采用多云方法有助于公司提高其 AI 能力,增强系统弹性,并保持适应快速变化的技术场景所需的灵活性。
了解影响成本的主要因素对于 AI 工作负载中的成本管理至关重要。每个成本因素对于确定总体成本都至关重要,尤其是在多云配置中。以下是主要贡献因素:
- 计算资源
AI 任务需要高性能 GPU、TPU 或 CPU,特别是对于模型训练和推理。这些处理需求可能非常昂贵,特别是对于大规模训练会话或实时应用。如果没有得到充分管理,预留和按需实例会迅速累积成本。
- 数据存储
AI 系统使用庞大的数据集进行部署和训练。类型(例如,SSD 与 HDD)、访问频率和层级(例如,标准与存档)都会影响存储成本。过度配置或无效的数据管理可能会加剧存储费用。
- 数据传输
在多云配置中,云或区域之间的数据传输会增加额外成本。云公司会对平台外的数据迁移收取出口费用,有时会导致意外的成本飙升。频繁地在平台之间移动数据会增加这些费用。
- 网络
服务间通信、负载均衡和带宽使用是网络费用的主要原因。使用流数据管道或分布式系统的人工智能工作负载可能会导致高昂的网络成本。
- 运营和维护成本
持续监控、微调和再训练对于维护AI模型是必要的,这些过程需要人力和资源成本。运营的额外费用包括专有AI技术的许可和底层基础设施的升级。
通过了解这些成本因素,公司可以制定有针对性的优化计划,以减少浪费性支出并提高多云AI环境中的生产力。
使用云原生技术和实施有效程序对于降低多云AI安装中的费用至关重要。以下是降低成本而不牺牲性能的关键策略:
- 解释您的云账单
成本优化始于了解云计费。云账单通常包含复杂而详细的成本。使用计费仪表板或第三方解决方案来评估支出,查找出口费用等隐藏成本,并发现计算或存储成本峰值。
- 构建一个组合的多云视角
对多云利用率的集成视角有助于改进成本控制。CloudHealth 或 Spot.io 通过将云服务组合到单个仪表板中,简化了监控并对比了提供商定价和资源利用率。
- 减少闲置资源的浪费
闲置的计算和存储资源在不提供价值的情况下会耗尽预算。利用 Google Cloud 的 Recommender 或 AWS Trusted Advisor 等资源来查找和消除不必要的实例、卷或服务。
- 获得并保持合适的规模
您可以通过修改实例类型、大小和区域以符合使用模式来确保资源满足工作负载需求。定期审核和自动扩展技术有助于保持理想的成本性能比。
- 随着时间的推移积累节省
承诺储蓄或预留计划,以获得可预测工作负载的降低费率。例如,Google 承诺使用折扣和 Amazon EC2 预留实例可以大幅降低长期计算费用。
- 在风险和成本削减之间取得平衡
在削减费用时,不要牺牲可靠性或性能。在提供商之间策略性地分配工作负载以节省成本,而不会面临中断或服务恶化的风险。
- 建立问责制和一致性
促进 DevOps、IT 和财务部门之间的跨职能合作。使用成本分配工具将成本分配给特定组或项目,以鼓励对坚持预算的问责制。
- 基于数据做出决策
使用分析和人工智能跟踪消费模式、预测未来成本并发现低效率。数据驱动的洞察力有助于改进资源分配和扩展决策。
- 无服务器计算
由于无服务器系统根据需要动态分配资源,因此它们消除了对专用基础设施的需求。AWS Lambda 或 Google Cloud Functions 等无服务器系统可以使推理服务等 AI 应用程序受益匪浅。这种按需付费策略可根据工作负载需求无缝扩展,并降低与闲置时间相关的成本。
通过实施这些策略,公司可以优化利用多云系统进行 AI 工作负载,同时平衡性能和成本。通过监控和改进这些策略,组织可以随着时间的推移节省资金。
在多云系统中有效管理特定于 AI 的云费用需要结合强大的技术和最佳实践。以下是监控、预测和控制这些成本的主要策略和工具:
- 使用云提供商成本管理工具
AWS Cost Explorer:提供对 AWS 消耗和费用的深入洞察,使客户能够评估支出趋势并发现改进领域。
Google Cloud 的成本管理工具:提供详细的计费报告、预算提醒和成本优化技巧,以帮助您更有效地管理支出。
Azure 成本管理和计费:用户可以跟踪云费用、创建预算并接收警告以避免超额支付。
- 实施第三方成本优化平台
- VMware CloudHealth:提供多云成本管理和可操作数据,用于优化和洞察跨多个平台的支出。
- Spot.io:自动并智能地分配资源,以降低成本,同时支持众多云提供商。
- 实施成本管理最佳实践
- 资源标记:使用一致的标记方法,按项目、部门或环境对资源进行分类,以便进行详细的成本跟踪和问责。
- 定期审计:定期评估云资源,以发现和删除未充分利用或闲置的资产,从而降低浪费成本。
- 预算和警报:创建预算并设置警报以监控支出水平,从而能够主动控制成本超支。
- 利用预留实例和节省计划:承诺使用云提供商的预留实例或节省计划,以从预期工作负载的折扣费率中获益。
结合这些工具和方法,公司将能够了解其与 AI 相关的云支出,做出明智的决策,并在多个云设置中应用成功的成本削减措施。
计算资源、数据存储、传输、网络、许可和人力资源都是重要的成本驱动因素。每个因素都有重大影响,其中计算资源通常占最大份额,因为 AI 模型训练和推理需要高处理能力。
数据存储和传输费用会迅速累积,特别是对于经常访问或跨云提供商移动的大型数据集。
网络成本也可能上升,尤其是在多云环境中,服务之间的通信会产生额外费用。AI 技术的许可费用以及开发和维护所需的人力资源增加了总体成本。
- 计算资源: 40%
- 数据存储: 20%
- 数据传输: 15%
- 网络: 10%
- 许可和软件: 10%
- 人力资源: 5%
自动扩缩优化策略工作流:
在多云设置中优化支出存在不同的问题。组织经常会遇到可能导致不必要支出的典型问题。了解这些错误并制定避免这些错误的措施对于有效的成本管理至关重要。
- 过度配置资源
错误:投资于超出满足最大所需输出所需的容量,导致浪费和额外的实施成本。
解决方案:对资源实施自动扩缩,以便它们根据需求动态调节。定期分析使用趋势并调整资源以满足实际需求。
- 忽略闲置资源
错误:未能识别和终止不需要或闲置的资源,这会导致持续收费而没有提供价值。
解决方案:执行定期审计以识别和消除闲置实例、存储和服务。使用云提供商技术自动识别未充分利用的资源。
- 缺乏统一的成本可见性
错误: 使用单一支出视角管理不同的云平台,使跟踪和控制成本更易于管理。
解决方案: 使用具有用于跟踪和评估所有平台支出的统一仪表板的多云成本管理技术。这种方法促进了透明度和明智的决策。
- 忽略数据传输成本
错误: 忽略跨云提供商传输数据所涉及的成本,这些成本会迅速增加。
解决方案: 创建具有最少云间数据交换的架构。如有必要,请在非高峰时段安排传输以利用较低的费用。
- 低估许可和支持费用
错误: 未能考虑软件许可和支持服务的费用,导致预算超支。
解决方案: 彻底审查所有许可协议和支持合同。为了节省资金,请考虑使用开源软件或协商商业协议。
- 培训和治理不足
错误: 缺乏足够的培训和治理法规可能会导致云使用效率低下和支出增加。
解决方案: 投资于培训计划,以教育团队最佳云使用实践。制定治理结构以执行成本优化策略,同时提供监督。
解决和纠正这些常见问题可以使公司应对其多云管理挑战,从而在云环境中实现更好的优化和成本控制。
在多云系统中实施针对 AI 工作负载的成本优化解决方案,已使一些企业在提高性能的同时节省了资金。以下是一些展示这些成功的真实案例研究:
案例研究 1: Arabesque AI:利用抢占式实例进行经济高效的 AI 模型训练
Arabesque AI,一家金融资产管理机构,应用人工智能来创建适应性强的投资策略。该机构在努力扩展 AI 模型训练的计算资源的同时还要保持在预算之内。Arabesque AI 使用 Google Kubernetes Engine (GKE) 中的 Google Cloud 抢占式节点池动态扩展资源,从而使服务器费用减少了 75%,数据处理能力提高了十倍。
案例研究 2: Finder:通过云提供商转换实现成本节约
Finder,一家澳大利亚比价网站,通过从 Amazon Web Services (AWS) 切换到 Google Cloud Platform (GCP),大幅降低了其云计算支出。尽管转移成本很高,Finder 预计成本降低 12%,但实际实现了超过 50% 的下降。与 Google 和 Search 的合作促成了这一转变,这表明了审查和切换云提供商以提高成本效率的潜在好处。
随着越来越多的企业为 AI 工作负载实施多云解决方案,许多新趋势正在影响成本优化的格局:
- AI 驱动的成本优化工具
将人工智能融入成本管理,改变了企业监控和控制支出的方式。先进的 AI 算法检查消费趋势,预测未来支出,并提供可操作的优化建议。例如,像 Sedai 这样的平台使用 AI/ML 来提供持续优化,帮助应用程序团队最大限度地提高性能和规模化的成本效率。
- 可持续且节能的 AI 基础设施
随着人们对环境问题的认识不断提高,人们正在大力创建可持续的 AI 基础设施。公司正在投资节能数据中心并实施更低碳足迹的政策。诸如 AMD 和 Fujitsu 之间的合作,旨在生产将高性能与能源效率相结合的计算机系统,从而促进可持续的 AI 研究。
- 用于复杂多云环境的成本管理工具不断发展
多云架构的复杂性需要复杂的成本管理策略。新兴工具为多个云平台提供一致的仪表板、实时监控和自动化优化。例如,VMware 的 CloudHealth 提供完整的云成本管理,提供对跨多个云平台的支出的可见性以及可操作的优化见解。
在多云系统中,高效地管理 AI 工作负载需要彻底了解成本驱动因素和应用程序优化技术。使用 AI 驱动技术、采用可持续基础设施实践并与不断变化的成本控制解决方案保持同步的组织将能够将运营效率与财务纪律相结合。在日益复杂的环境中,主动的成本优化可确保可扩展性和可持续性,并提高 AI 系统的性能。