面向数据的人工智能可以有助于减少生成式AI系统中的幻觉和偏见,从而提高其输出质量。
译自 The Paradigm Shift from Model-Centric to Data-Centric AI,作者 Rahul Pradhan 拥有16年以上的经验,目前担任Couchbase的产品和战略副总裁。
随着变压器神经网络和生成对抗网络(generative adversarial networks,GAN)人工智能(artificial intelligence,AI)的进步,当前正在出现一次当代科技领域最大的变革。这些技术同时也具有解锁创新和规模化创造力的潜力。
随着AI开发的演变,数据成为至关重要的要素。数据是推动机器学习项目的生命线,将单纯的概念转化为可执行的见解。然而,在AI项目中有效利用数据的道路上充满挑战,这些挑战会阻碍AI的采用并实现转型价值。
为增强AI开发,一个范式的转变正在出现,即从以模型为中心向以数据为中心的AI转型。这种转变可以显著帮助减少生成对抗网络系统中的幻觉和偏见。关注以数据为中心的AI,并将模型更接近数据,将改善AI模型的输出,并使企业能够发掘其全部潜力。
以模型为中心的AI方法是机器学习发展的传统方式。它涉及迭代改进模型的性能,目的是为给定的数据集产生最佳的模型。研究人员和工程师花费大量时间微调模型的参数、层数和其他架构元素。然而,由于历史上构建和微调模型非常复杂和资源密集,需要深厚的专业知识才能产生有意义的输出,因此数据往往被视为次要的。
相比之下,以数据为中心的方法改进了模型训练所基于的数据质量。它包括数据清理、增强和确保数据能代表模型将要部署的真实世界场景。
随着人工智能(AI)模型的成熟、多样化和复杂性的扩展,组织应着力提升数据质量,并在模型和数据之间建立更紧密的联盟。在这种不断发展的叙事中,进行必要而明确的转变是非常重要的:将模型更接近数据,而不是将数据传输到模型。其结果是提高了模型输出质量,并减少了经常困扰AI系统的幻觉。以数据为中心的AI方法是组织的基石,这些组织希望提供以最新数据为基础的生成的和预测的体验。
尽管以数据为中心的AI是未来发展的方向,但以模型为中心的AI仍然发挥着关键作用。它在数据有限或目标是探索模型复杂性和性能极限的场景下尤为重要。它对推进AI研究前沿以及高质量数据可能不容易获得的解决方案至关重要。
通过转变为确保数据质量和相关性的以数据为中心的AI方法,组织可以获得以下好处:
以数据为中心方法的典型优势之一是能够提供与真实世界场景紧密结合的体验。与模型往往在低质量数据的谬误中挣扎的以模型为中心方法不同,以数据为中心的人工智能(AI)力求弥合AI模型与其试图导航的动态现实之间的鸿沟。
AI幻觉主要是由缺陷数据造成的,其特征是生成不正确或虚构的信息。转向以数据为中心的方法可以增强减少这些错误的可能性。在更干净、更具代表性的数据集上训练模型会产生更准确、更可靠的输出。
在高质量数据的坚实基础上,组织可以释放AI预测和生成能力的全部谱系。这种转变使AI更能够解释现有的数据模式,同时也可以生成新的见解和体验,培育创新和明智决策的文化。
从以模型为中心向以数据为中心的人工智能(AI)方法转型,代表了一种基本的思维方式的改变。这是将数据置于AI变革之旅的核心。这种转变不仅仅是一种技术调整,而是一种概念上的重新校准,将数据置于AI的核心。在组织走上这条道路的过程中,他们必须培育一个强大的数据基础设施,培养数据素养,并营造一种重视数据的文化,将数据视为AI承诺的基石。
构建强大的AI解决方案需要对何时强调数据和关注模型创新进行细致的理解。平衡运用以模型为中心和以数据为中心AI的优势,对解决当今的AI挑战至关重要,这样组织才能从AI项目中获得最大价值。为了帮助确保AI模型是在最新的数据上开发的,并且准确可靠,组织必须接受向以数据为中心的AI转型。