某高校语义数据处理课程教授通过哈利波特的案例,解释了高级向量数据库如何提升AI/ML的性能
译自 Vector Databases: Where Geometry Meets Machine Learning,作者 Ivan Yamshchikov 博士是威尔茨堡-施魏因富特应用科技大学人工智能与机器人中心语义数据处理和认知计算教授。他是 Toloka AI 的生态系统战略主管。他的研究兴趣包括......
在过去五年中,语音助手和聊天机器人的领域经历了惊人的变革。 早期与聊天机器人互动的人可能会注意到很大的流畅度,但也会感到意外的健忘,有点像与皮克斯动画片中的角色多里对话。 在过去一年中,随着大型语言模型(Large Language Models,LLM)的引入,发生了一个重要转折。 如 ChatGPT 等顶级现代模型能够保持连贯的对话,并展示出改进的语境相关性。 那么,是什么推动了这种进化? 除了预料之中的数据和计算力的增长,还有一个隐藏的推手:向量数据库。
本文旨在帮助企业决策者通过理解高级向量数据库对提高性能和可扩展性的作用,以完善他们在 AI 和机器学习技术应用方面的策略。
那么什么是向量嵌入呢?嵌入就是用向量来表示词。 它是一个编码信息的数字序列。 让我们再次参考哈利波特的例子来说明。
在哈利波特的魔法世界中,有一个施了魔法的韦斯莱家族时钟。它通过使用独立的时钟指针来跟踪每个韦斯莱家族成员的行踪。每个指针都与一个家庭成员相连,而方向编码了各种状态,如“在家”、“行程中”或“生命垂危”。乍一看,人们可能会认为巫师对几何学的理解很差;否则,为什么不同的位置在表盘上会紧挨在一起?然而,仔细想想就会发现这是有道理的:当韦斯莱先生从魔法部的工作中回家时,时钟指针会稳步地穿过不同的区域(“魔法部——行程中——在家”),而不是在表盘上来回跳动。
数据科学家会将表盘上指针的这些移动称为不同概念的“向量表示”:韦斯莱先生在魔法部,韦斯莱先生在路上,韦斯莱先生在家。时钟指针的方向对应于它所编码的状态与其他状态的语义关系。这就是向量表示如何捕获语义关系的方式。可以把向量想象成长度各异的“指针”;而表盘不是二维表面,而是一个被称为表示空间的多维空间。
在数学中,邻近性或接近度的概念对理解几何学至关重要。我们都已适应于我们古老而舒适的三维空间;即使在如此低的维数下,我们也会尽最大努力利用邻近性的概念来简化我们的生活。例如,如果你有一个衣橱,你可以用一个区域放衣服,而把另一个区域留给你伴侣的衣服。你可以进一步将你的区域分割成更多的区域,在一个地方放内衣,在另一个地方放T恤。这是有道理的:一旦你有了空间和空间中的距离概念,你就可以组织它,从而使它更实用。当你需要一件T恤时,你不需要翻遍整个衣橱,你只需要看看T恤区域。
重要的是,你可以使用几何学来编码你衣服的任何属性。例如,如果你对 Marie Kondo 有点太偏爱,你可以以这样的方式整理你的连衣裙,使得相似颜色的衣服挂得更近,这样你就可以轻松地浏览你的选择的颜色范围。衣橱中两件连衣裙之间的距离编码了这些连衣裙的颜色有多相似。
让我们想象一下,你不是要整理衣橱,而是需要存储一些更大、更复杂的东西,而不仅仅是衣橱。比如说,人类在过去一千年里汇聚的所有知识。我们的三维衣橱无法容纳这些信息。好消息是,一旦你掌握了距离的概念,你就不必局限于三维空间。你可以有尽可能多的维度!
回到韦斯莱钟:它的表盘只是编码了家庭成员的行踪。假设我们想制造韦斯莱钟的新版本,它可以同时跟踪每个家庭成员的行踪以及心情。我们可以构建一个球体,而不仅仅是一个二维表盘:现在每个指针在传统的表盘上都有一个投影,用于编码位置,而指针的垂直方向告诉我相应的家庭成员是高兴还是悲伤、生气或犹豫。可以有几十个、几百个甚至几千个维度。基本思想保持不变,即相似的事物距离更近,不同的事物距离更远。这一基本原则被用于向量数据库。
现在我们理解了向量数据库的概念,让我们看看为什么向量数据库和语言模型如胶似漆。首先,通过表示空间中的嵌入距离来编码语义相似性的想法是自然语言处理中的基本想法之一。因此,向量数据库是为语言模型编码信息的“原生”方式。你可以将任何文本编码成表示空间中的向量,这开启了全新的机遇。
向量数据库存储词或短语的嵌入,使 LLM 能够快速获取上下文相关的信息。当 LLM 遇到一个词时,它们可以从数据库中检索出相似的嵌入,以保持上下文和连贯性。
例如,LLM 在处理长篇文章时会遇到困难,但向量数据库允许它们访问先前的信息。检索到早期部分的嵌入可以确保更长文本生成的连续性和相关性。对于某些应用,您需要模型理解某些名称。例如,您希望您的家庭助理知道您家庭成员的偏好,或者您希望协助法律团队的模型能在法律文件中识别您的公司及其子公司。
向量数据库为命名实体存储嵌入,增强了 LLM 识别和准确利用文本中名词的能力。组织可以为特定领域制定自定义的向量数据库。通过在特定领域的文本上训练嵌入,LLM 可以生成与对应的行业高度相关的内容。
向量数据库可以扩展以容纳大量的嵌入,使 LLM 能够有效地管理大规模数据集。可扩展性对聊天机器人、内容生成和问答系统至关重要。最后,LLM 可以支持多种语言;向量数据库也是如此。存储各种语言的嵌入有助于在语言之间无缝过渡的同时保持跨语言上下文。
在生产环境中实施 LLM 和向量数据库是非常重要的一步,但进行安全检查以确保解决方案是安全、负责任的并提供实际业务价值也很重要。
最终的安全检查,也就是评估阶段,通常由人来执行。以下是一些人工评估可以显著提高向量数据库的可靠性、准确性和有效性的示例,使其在各种业务场景中更实用和更有价值:
- 上下文相关性:AI可能会仅基于向量数据库编码的相似性来对术语进行分类。人工评估可以确保分类在术语通常使用的更广泛语境中也有意义,增加了现实世界的关联性。
- 文化差异:某些术语或词组可能是文化敏感的或可能具有伦理意义。人工评估可以确保向量数据库对这些问题保持敏感,过滤掉或重新分类可能有问题的内容。
- 行业术语:在法律、医疗保健或工程等专业领域,某些术语具有通用 AI 模型可能无法掌握的特定含义。这些领域的人工专家可以确保准确地在向量数据库中表达这些术语。
- 歧义消除:语言通常具有歧义性,词的含义可能因上下文而异。人工评估可以帮助区分这些不同的含义,确保向量数据库更有效地处理歧义。
鉴于语言、文化和语境始终在发展,新的俚语或术语可能会迅速地变得相关,定期的人工评估可以保证向量数据库始终现代化和关联性高。
通过高效存储和检索词和短语的向量表示,这些数据库增强了 LLM 保持上下文、提供相关响应和管理大规模数据的能力。随着组织争取更高效率和个性化服务,投资利用高级向量数据库的 LLM 不仅明智,而且具有战略意义。企业领导者希望最大限度地发挥 AI 的优势,理解这项技术至关重要。现在就是采取行动的时候了,将 AI 采用策略与利用向量数据库全部潜力的解决方案结合起来。