将DevOps与金融结合起来可以控制不可预测的AI支出。
译自 Hybrid IT Is Emerging as the Solution to AI's Rising Cost,作者 Jennifer Curry Hendrickson。
随着人工智能的快速发展,支持基础设施中计算资源的成本持续急剧上升。开发人员需要高性能的可扩展计算和存储来有效地训练和测试AI模型,这需要高密度的电力和冷却。
如果没有仔细规划,基础设施成本可能会失控,财务团队可能不知道下一张账单会是多少。
DevOps和财务团队必须密切合作以解决AI基础设施成本的挑战。只有这样,他们才能控制不可预测的云支出并构建面向未来的基础设施,而不会阻碍使企业蓬勃发展的AI计划。
当DevOps团队使用公共云平台进行开发、训练、测试和部署AI模型时,很容易启动新的计算资源。这就是公共云的全部意义所在。DevOps团队喜欢这样,为什么不呢?他们可以专注于让模型大规模运行,并且只需点击一下鼠标就能获得新服务器,从而获得模型所需的所有强大功能。
但是,如果没有人在关注公司如何启动服务器和存储阵列,则运营成本可能会飙升。财务部门收到账单后会疑惑:“发生了什么?”公共云提供商不会提供信用额度,因为DevOps没有监控资源使用情况。
许多企业转向混合基础设施模型来解决不断上升的运营基础设施成本。将本地和托管数据中心与公共和私有云环境相结合,使他们能够灵活地运行工作负载,在性能和成本优化之间取得平衡。
关键在于规划跨所有环境的使用情况并密切监控您的活动。例如,一家游戏公司可以利用多云策略。当使用量增加时,他们可以在公共云中启动额外的资源以应对新游戏发布或节假日。然后,他们可以根据期限调整资源,以减少持续(基线)使用的月度支出。
如果您的业务处理敏感数据,并且有很多安全问题和法规需要遵守——并且您的环境运行在一致的资源级别——您可以与专注于合规性的托管服务提供商合作,该提供商提供私有云。当您需要更多资源时,提供商可以将您迁移到多租户云环境,您可以在其中轻松访问额外的基础设施。
托管数据中心也非常适合灾难恢复。这也许是没有人考虑到的最重要的用例——这就像购买保险一样。您希望永远不需要它。
虽然混合云模型为您提供了更好的财务稳定性,但您不一定能看到成本节省。这是因为AI技术的成本和应用仍然难以预测。
关键因素是您的业务性质和IT需求:您多久将应用程序、工作负载和服务器在环境之间迁移一次?如果您有一个活跃的混合环境,成本可能不如您希望的那样可预测。
为了尽可能控制AI基础设施成本,请从运营成本的角度考虑您需要添加的计算资源以获得新的效率。在训练和测试AI时,避免使用系统配置、应用程序和硬件保持不变的静态IT环境。
在AI的所有阶段——数据收集和准备以及模型设计、测试、训练和推理——考虑一个拥有完整服务套件的基础设施提供商,例如DataBank提供的服务。当您不确定如何控制AI成本并希望避免过于关注成本而影响AI模型训练价值时,托管数据中心是理想的选择。
混合环境控制成本的另一种方式是,当您不想与公共云提供商签订长期合同时。尤其是在AI及其相关法规不断发展的情况下更是如此。谁知道什么可能会颠覆一切,例如扩展用例或监管要求可能会导致基础设施成本飙升?
您实施的控制措施也是预测成本的一个因素。如果任何人都可以启动服务器、下载数据并将其移植到另一个环境,那么成本是不可预测的。但是,如果您准确地了解您可能需要多少弹性,那么在适当的控制和账单监控下,混合云可以更具可预测性。您将知道增加时的成本。当您减少时,您也知道成本节省。
另一个挑战是了解迁移工作负载的成本。如果您让人们在应用程序运行不佳时灵活地迁移应用程序,这将产生成本。例如,如果公共云超大规模提供商存储您的数据,如果您想将其迁移到另一个环境,他们会收取出站费用,这可能会让您感到意外。
控制基础设施成本的一个主要示例是,一位客户计划在几年内将其所有内容迁移到超大规模云平台。当他们关闭我们托管设施中的服务器和存储阵列时,他们使用我们的托管服务程序来规划如何整合机架空间。
他们没有想办法整合他们的三个托管环境,而是利用我们的基础设施即服务 (IaaS) 产品。这使他们能够在控制成本的同时扩展混合环境,从而无需购买和安装新的阵列即可访问数TB的存储空间。
准备就绪后,他们可以快速迁移到公共云提供商。在此期间,我们帮助他们管理他们的三个环境并模拟整个过程中的支出。他们的首席财务官了解成本,并且我们基础设施的灵活性使他们能够管理转型。
与DataBank等托管服务提供商合作时,您的合作伙伴可以在您的IT和财务团队之间充当“婚姻顾问”。当我们与首席财务官交谈时,我们会解释基础设施成本。我们解释哪些成本是可变的,哪些是固定的,以及什么可能会改变预算。
这可以促进与DevOps团队更好地协作,以管理不可预测的AI基础设施成本,并共同规划未知因素,例如软件许可证、硬件和电力成本。通过迁移到托管环境,您可以消除一些不可预测性。提供商可以为您许多服务锁定一个固定的月费。
然后,IT可以与财务部门讨论公司目前的情况以及IT在未来12个月内签署的内容。从那里,您可以讨论开发成本,因为您将更多资金投入到推动业务发展的AI应用程序中。
对话更有意义,因为您对已锁定的基础设施的支出水平有所了解。您可以通过增长来改变它,但您有一个基础,并且成本列在您的合同中。
自行控制AI基础设施成本非常困难。您需要知道您将在每个AI阶段运行多长时间。您也不知道您的AI应用程序多久才能赚钱或提高工作流程效率。
您如何在存在所有这些未知因素的情况下构建您的基础设施?如果您不确定六个月后它会在哪里,您如何购买东西并将其放入您的数据中心?
您可以通过使用混合模型并与主机提供商合作来应对这些未知因素。您将更快地调整以保持同步并测试您的AI假设。在管理基础设施成本的同时,您将获得快速失败的能力——这最终在AI领域取得成功的标志之一。