通过充分利用元数据,您可以为更强大、更相关的AI和大数据分析奠定基础。
译自 Use AI to Improve Your Organization’s Metadata 。
在训练AI模型时,AI应用的准确性取决于它收到的训练材料质量。自然地,给它提供过多或不足的训练数据要么成本高,要么导致模型效果差。使用AI时,您希望快速、低成本获取结果。最佳方式是只提供所需数据。但考虑到非结构化数据规模(多数企业为PB级)和跨存储池分布,准备和分割特定数据集很困难。
此时元数据发挥作用,它是关于数据的信息。元数据由存储技术自动创建,提供数据更多见解,如: 谁拥有数据,文件类型,存储位置,访问者等。此系统级信息对管理数据非常有用,但缺少用户和应用额外上下文。
附加元数据可增强信息,例如根据内容标记数据(展示乳腺癌或胰腺癌的临床图像,名人或校友图像),标记敏感信息或与项目、地理或人口统计相关信息(对东北地区女性的研究),或与特定计划相关信息(2022年制造X产品的制造测试数据)。元数据为非结构化数据带来结构,可大幅帮助查找AI工具所需数据。
管理和充实元数据是一项时间投入大的流程,需要IT部门与其他部门(数据科学家和数据所有者)协作,准确标记数据。标记以键值对形式为文件数据添加额外元数据,为数据提供上下文。在文件上使用多个标记的一个例子是: 国家=美国,项目ID=123,HIPAA=TRUE。然而,在大型数据集上手动标记几乎不可能。基于机器学习的自动化在这些工作中发挥着越来越重要的作用。具体方式如下:
- 机器学习算法可以帮助识别和纠正元数据中的错误或不一致,提高其整体质量。
- 机器学习可以自动标记和分类数据,提高其可搜索性、可用性和可管理性。
- 丰富的元数据为AI带来新的商业洞见,如客户服务交互的情感分析或发现某种疾病的新原因。
- 机器学习可以改进合规性,通过识别未按规定进行安全存储的数据或分析可能违反公司政策的数据访问模式。
- 减少手动工作和错误带来的效率和成本节省。
- 通过更好利用数据做出更明智决策,甚至开拓新的收入来源,获得竞争优势。大多数企业数据都未被利用,而是隐藏在昂贵的存储池中。元数据可以增强数据质量并使数据更易被发现新的用途。
具有持久化这些信息能力的数据管理系统可以更有效丰富元数据,无论数据存储在哪里。这样,您不必每次需要额外上下文时都运行AI/ML算法。丰富的元数据与数据一样持久。与存储无关的数据管理系统可以在数据从一个存储系统移动到另一个时维护此元数据的索引,并基于此增强的元数据提供一种简单的方法来搜索、策划和提取正确的数据。
元数据增强可在任何行业发挥强大效益。以汽车行业为例,电动汽车和自动驾驶汽车收集大量传感器数据,有助车辆实时调整和采取行动,或向驾驶员发出警报。这些数据分析对制造商进行产品增强和客户行为分析非常有价值。
使用非结构化数据管理系统,汽车制造商可以创建如下工作流程:
- 查找与某特定车型突然停止相关的碰撞测试数据;
- 使用AI工具识别和标记测试数据为“原因=突然停止”;
- 只将相关数据移动到云服务进行分析;
- 删除不相关数据或存档到另一个云服务;
- 根据需要持续运行该流程。
以下是其他应用案例:
- 改进客户支持: 某技术公司使用机器学习对呼叫中心录音进行情感分析,并以标记形式记录结果如客户满意度。员工可以找到相关录音用于培训,经理可以改进最佳实践。
- 医学图像搜索: 医院可以对医学图像应用机器学习,然后添加诊断代码标记。研究人员可以通过诊断查找图像以支持项目。
- PII检测和保护: 个人数据可能存在于企业管理的大量文件子集中。使用机器学习如Amazon Macie分析数据集标记PII,然后隔离到安全不可变存储,可以大大节省时间和降低泄露风险。
- 图像搜索: 某大学的营销部门可以使用图像AI分析并标记图像,以便不同项目中后续轻松发现。新元数据标签存储在数据管理系统中,即使图像移动也跟随其。同样流程也可应用于实验室图像的基因组处理。
- 监控/执法: 非结构化数据如视频、社交媒体等是刑事调查的重要证据。AI可以在案件关闭后根据需要标记文件,以支持未来的调查、培训或研究项目。
- 版权保护: 生成AI的一个热点是训练模型中出现受版权保护的素材。一种可能的解决方案是版权所有者使用工具在素材中添加数字水印元数据,以便AI模型在摄入前进行检测。
元数据增强项目很容易失控。如果创建太多新标记,必须适当存储和管理以避免用户访问性能问题。考虑到当今元数据的大量和多样性,大多数IT组织需要实现元数据管理的自动化。
最好使用软件,结合查询和标记。查询可以提供常见问题的结果,如“显示部门在最近6个月访问的数据”。用户可以基于可用元数据创建任意自定义查询。标记不需要保存这些查询,仅用于通过机器学习或用户输入增强可用元数据信息。这种查询加标记方式可以最大程度提高效率、节省时间,并消除标记激增问题。
选择性地增强元数据也很明智。即使在机器学习工具和其他系统帮助下,准备正确的数据进行增强也需要时间和资源来监控结果准确性、保护数据免于滥用,并与数据利益相关方合作以确保元数据满足需求,而不是使AI项目更复杂或产生错误结果。但是,通过投入时间和使用正确的工具及资源来理解和合理利用元数据,IT领导者和数据利益相关方可以为更强大、更相关的AI和大数据分析项目奠定基础。