美国政府正在转向本地云硬件,以保护一些世界上速度最快的超级计算机上对国家安全至关重要的数据。
译自 Oxide Computer Installs On-Premises Servers for Lawrence Livermore,作者 Agam Shah。
世界最快超级计算机(名为El Capitan)的所在地——劳伦斯利弗莫尔国家实验室,正在安装Oxide Computer的极简云服务器,以保护宝贵的资产和数据。
这些云服务器将与实验室托管的高性能计算机并行运行。
El Capitan将用于负责任地维护美国的核武器储备。该系统存储关键数据,而内部部署的云硬件降低了黑客入侵系统的可能性。
Oxide Computer的云服务器设计采用定制主板,去除了商用服务器中通常存在的不必要部件、电线和组件。
该公司已完成在LLNL的利弗莫尔计算HPC中心安装第一台Oxide云计算机。
Oxide Computer首席技术官Bryan Cantrill告诉The New Stack:“我们将继续与他们合作,构建云功能,他们计划在未来部署更多云计算机。”
去除臃肿的组件和软件可以让软件更紧密地与硅片协同工作。云服务器通过自助服务API配置虚拟机和服务,并可以融入HPC作业。
Cantrill表示,这台云计算机“使LLNL能够在其HPC中心内引入类似超大规模的安全的云功能”。
这些功能包括部署关键的持久性服务,例如数据库、Jupyter笔记本、编排工具、Kubernetes集群等等。
Cantrill表示,公共云已经创新并开发了广泛的API、安全层和自动化云环境,这使得传统的内部部署数据中心落后了。
Cantrill说:“目前内部部署计算的最新技术,包括将来自不同供应商的一组相互脱节的硬件和软件组件拼凑在一起。”
Oxide系统通过统一的硬件和软件方法将自身与众不同。Oxide开发了开源软件,其中包括弹性虚拟计算、存储和网络服务。无需许可费用,这可以为实验室节省资金。
Cantrill说:“这允许按需配置虚拟资源,以便与LLNL的Flux资源管理器顺利集成。”
内部部署云服务器还增强了LLNL的数据安全性。出于安全原因,美国政府实验室仍然优先考虑断网的内部部署系统。
Cantrill表示,Oxide的云计算机软件“支持多租户,并允许LLNL为每个团队在机架内提供一个隔离区”。
精简的硬件和软件还减少了黑客入侵硬件并窃取数据的攻击面。黑客可以使用固件和中间件层入侵系统并窃取数据。
他说:“这非常强大,也是他们希望HPC中心未来运作方式的一个例子……增强隔离能力一直是关键。”
Cantrill在开源爱好者中非常有名。他在Sun Microsystems工作期间创建了DTrace,并在2019年共同创立了Oxide。由于组件短缺,该公司在大流行期间面临硬件开发挑战,但去年发货了第一台服务器。
计算滑轨包括所有必要的组件,包括CPU、内存、存储和网络。定制交换机通过外部PCIe到相邻计算滑轨进行通信。网络通过以太网直接连接到交换机。
一些创新包括精简的服务处理器,用于处理电源、串行控制台和环境监控。传统服务器通过其基板管理控制器来实现此功能,这些控制器通常包含客户不需要的固件和组件。
Oxide削减了电源,并在机架背面安装了直流母线,用于向计算滑轨分配电源。这提高了电源效率。控制平面促进了系统中硬件和组件的功能。