知识图谱如何使数据对组织更有用

知识图谱如何使数据对组织更有用

翻译自 How Knowledge Graphs Make Data More Useful to Organizations 。更多链接查看原文。

凭借揭示不同数据点和数据集之间联系的能力,知识图谱可以帮助支持 IT 和 DevOps。他们是这样工作的。

Image by Conny Schneider on Unsplash.

知识图谱已成为支撑数据科学革命的重要组成部分。机器学习和人工智能 (AI) 可用于推断最初看似完全不同的一组数据点中对象之间的关系。在知识图谱中,这些推论是可视化的——有或没有人工智能——并且经过精心设计,以便人类思维可以轻松处理它们。

知识图谱可以进行的推理和分析通常在其他类型的数据可视化中是不可用的——而且它们通常可以揭示业务洞察力。

对于供应链,知识图谱可以揭示复杂的分布模型。例如,它们可以清楚地显示库存物品与其在世界另一端制造汽车的用途之间的路径和联系。

但他们不仅擅长绘制供应链图。凭借揭示不同数据点和数据集之间联系的能力,知识图谱可以帮助支持 IT 和 DevOps,并证明在交通、硬科学、医疗保健、社会学、犯罪调查、金融科技和许多其他行业中很有用。

Enterprise Management Associates 的分析师 Torsten Volk 告诉 The New Stack,知识图谱中的连接允许业务用户“对现实世界中发生的事情做出更广泛的结论”。

例如,他补充说,你可以“根据看似无关的数据点来预测某人喜欢哪种精酿啤酒,这些数据点显示了此人的工作经历、此人最近购买的汽车以及他或她登记投票的政党的详细信息。 “

事实上,知识图谱可以被认为是“主数据管理解决方案的增强模型视图”,Neo4j 欧洲、中东和非洲地区销售工程高级总监 Jesús Barrasa 告诉 The New Stack。

“因此,您拥有有关客户和产品的信息——您业务中的关键实体表示为连接的实体,这些实体变成了图。它是一个知识库,但以图的形式出现。”

图技术的兴起

知识图谱也代表了数据图和可视化领域的主要部分,这是一个呈指数级增长的市场。分析师预测,到 2025 年,图技术将用于 80% 的数据和分析创新,高于 2021 年的 10%,“促进整个企业的快速决策制定”。

Volk 说,人脑处理知识图谱的能力特别强,因为它们包含现实生活中实体之间的真实关系和依赖关系,以及抽象设置中的实体,例如代码或科学理论。

“这减轻了深度学习模型的巨大压力,因为我们现在可以将这些关系作为输入因素提供,而不是让模型的概率算法根据大量示例找出这些关系,”他说。

“这种大幅减少训练 AI 模型的示例数量的能力很重要,图数据库揭示并可以以简单的方式部分解释看似不相关的数据点之间的因果关系这一事实也是如此。”

Gartner 在 2021 年 10 月关于新兴技术和趋势的报告中写道,人工智能仍然可以在知识图形中发挥关键作用,尤其是当它们用于现代智能业务应用程序时,更具体地说,用于流程增强。知识图谱以及机器学习、决策智能和可解释的人工智能等人工智能技术通过更智能地可视化数据为业务用户提供更多价值。

“在未来,流程增强可以进一步扩展以识别工作模式,从中可以构建和执行流程模型,”Gartner 报告指出。 “当流程或建议因人工智能而发生变化时,负责流程和决策的业务用户必须了解变化的原因——因此,使用可解释的人工智能。”

为什么知识图很重要?

是什么让知识图谱如此独特?为什么数据科学家、数据分析师和开发人员社区对它们如此感兴趣?

要回答这个问题,我们可以从定义什么是知识图谱开始。但是,虽然人们通常在看到知识图谱时就能认出它,但定义却各不相同。

就本文而言,知识图谱是不同数据集的关联性的可视化。

例如,看看这张哈利波特人物之间的联系图。

This knowledge graph shows all characters in Harry Potter stories and the connections between them. 哈利波特角色世界,如知识图所示。 (来源:Neo4j)

Volk 指出,通过将哈利波特故事中的这些角色与来自不同数据源的对象联系起来,这张图甚至可以变得更加有趣。这些数据源可能包括咒语、波特书中所有的各种魔药名称,或者其中提到的所有食物和餐馆。

“这为我们提供了一个统一的数据模型,可以立即揭示那些本来隐藏着的可操作见解,” Volk 说。“将这个模型与其他“世界”的数据模型连接起来,将是一个合乎逻辑的下一步,因为我们可以基于这些其他世界中巫师的相似之处和不同之处,让深度学习模型预测《权力的游戏》或《指环王》中巫师的行为或特征。”

这样,一个知识图谱就建立在一个图平台上,它在上面被创建和部署。

“你可能会发现自称为‘知识图谱提供者’的公司,”Barrasa 说。 “我的观点是,知识图谱是一种方法,更像是一种数据解决方案,而不是一种产品。”

研究数据模式以创建可视化

概念化知识图谱提供的数据类型和推理类型很简单。例如,通过 Facebook 和 LinkedIn,一个用户可能直接与 100 个人建立联系,而这些用户中的每一个都与另外 200 个人建立联系。有些可能属于用户共享的群组,并且每个群组中有超过 25 个共同好友。

通过节点的知识图谱可以说明这些人中的每个人是如何联系在一起的。

“在这种情况下,Facebook 和 LinkedIn 使用 AI 算法研究图中的模式,并使用它来个性化您的体验并为您创建建议,”Barrasa 说。 “这正是 Neo4j 所提供的,通过提供一个环境,您可以在其中以一种非常直接和简单的方式复制这些类型的解决方案和数据产品。”

很容易开始创建知识图谱并从中得出推论,因为对于初学者或公民开发者来说存在许多可能性。

例如,借助 Neo4j 的 Sandbox,可以使用该公司的 Cypher 语言在知识图谱中可视化 2000 年之后上映的电影。有了它,您可以将结果限制为特定数量,例如五部电影,同时还可以可视化演员,制片人和与这些电影的其他联系。在 Sandbox 站点上,只需几分钟即可生成此数据图。

Neo4j's Sandbox tool allows you to create knowledge graphs, like this one of movie titles and actors. 使用 Neo4j 的 Sandbox 平台的 easy-to-start 电影数据库知识图谱示例。 (来源:Neo4j)

同样,虽然知识图谱的结果简单明了且易于访问,但计算——以及 Neo4j 算法如何在幕后挖掘数据集——却完全不同,Barrasa 说。

“数据集非常复杂,但它在知识图谱中看起来很简单,因为这是我们在将其放入表格或为数据集创建 SQL 环境之前的思考方式,”他说。 “但是,这些间接连接分析仍然很复杂。”

可视化复杂关系

超越公民开发者可以创建的非常简单类型的知识图谱,Neo4j 的平台在成千上万种场景中得到了应用。由于规模的复杂性以及看似不同的数据类型和来源被汇集在一起,最初的设置可能具有挑战性。

在 11 月举行的 Neo4j 年度开发者虚拟会议 NODES 22 期间演示了几个更有趣、更复杂的项目。

DeepMind 的基础设施和安全工程师 Alex Kaskasoli 在 NODES 22 上的一个特别演讲强调了 GitOPs 存储库的不安全程度,以及知识图谱如何提供​​有关对 secret 和攻击者活动信息的受损访问的见解。

在 Kaskasoli 为他的演示创建的场景中,攻击者利用一个名为“Alice”的管理员的权限访问了 GitHub 存储库中的 secrets 文件。使用 GitHub token 创建了一张地图,并使用 Neo4j 知识图谱可视化数据。这样可以查询攻击路径。

“我们可以看到我们有不同类型的节点,我们在这里有标签来帮助我们识别它们是什么,”卡斯卡索利在会议上说,并指出了他在“Alice”示例中创建的知识图谱的细节。

作为一项雄心勃勃的项目的一部分,该项目涉及使用来自 60 多个体育联盟的 30,000 多名受访者的数据对体育比赛进行“纵向调查”,两名研究人员在 NODES ‘22 上展示了 Neo4j 查询和知识图谱分析

据来自马萨诸塞大学阿默斯特分校的副教授 B. David Tyler 和来自北肯塔基大学 Haile 商学院的教授和系主任 Joe Cobbs 介绍,知识产权竞争研究项目连接不同的数据来源,并建立体育联赛不一致的分层结构模型。

在许多方面,知识图谱数据建模是获取大量信息和推论的跳板,一旦建立建模,这些信息和推论就可以访问。 “建模是我们花费大量时间和努力的地方,而 Neo4j 做得很好,”Tyler 说。 “但我们真正可以做得很好的另一件事是与其他系统的数据库集成。”

数据源包括许多数据库和调查结果以及外部数据源,例如维基数据。 “假设我们想知道不同场地的容量,”泰勒说。 “我们可以对此进行查询。我们可以获得不同的场地及其容量,并将其整合到我们的数据库中。”

要试用知识图并了解它们如何帮助您的组织可视化数据点之间的连接并增强您的数据分析能力,请查看 Neo4j 的沙盒。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注