随着人工智能模型变得更加普遍,即使是旧数据也赋予了新的用途,因此公司需要批判性地评估数据并确定他们真正需要保留什么。
译自 Strategies for Navigating Data Deluge,作者 Bennie Grant。
我们都听说过“数据为王”,并且在我们的个人和职业生活中产生了越来越多的数据。
从历史上看,存储数据通常是事后才想到的——创建数据是优先事项。然而,组织发现越来越难以管理他们创建的数据的增长。
我们看到大多数组织根据短期要求审问他们的数据(例如报告),查看过去一周、一个月或一个季度生成的数据。某些数据类型可用于年同比比较(例如财务数据等)。然而,如果不加以控制,这种数据蔓延可能会变得难以管理。
备份——更重要的是,恢复——可能会变得极其耗时且具有破坏性。如果需要在生产环境中恢复数据,则该过程花费的时间越长,对公司品牌或声誉产生重大影响的可能性就越大。因此,尽可能快速、干净地恢复数据至关重要。
数据蔓延还会使应用程序或报告中使用的数据库查询变得缓慢。没有人愿意等一个小时才能运行报告!
然而,包括最旧元素在内的许多数据可能仍然具有价值并发挥作用。尤其是在当今,随着AI 模型变得越来越普遍,公司寻求保留和使用数据进行培训。即使是最旧的数据也被赋予了新的用途,公司需要解决长期维护和存储数据的日益增长的需求。因此,组织必须批判性地评估其数据并确定他们真正需要保留什么至关重要。
至关重要的一步是确保您组织的运维和开发团队连接并有效协作。DevOps 运动承诺实现这种部门间的和谐。虽然这在理论上听起来很棒,但它并不总是在现实中发挥作用。运维团队和开发人员有非常不同的优先级。虽然开发团队主要关注功能速度和发布节奏,但运维团队专注于数据管理策略(卸载旧数据、归档、清除等)。这种脱节通常会导致僵局,其中没有太多变化,并且同样的旧挑战仍然存在。
因此,至关重要的是识别和实施数据管理策略,以根据其效用和用例对数据进行隔离。毕竟,在不知道数据价值的情况下不可能有效地管理数据,在不知道数据用途的情况下不可能知道其价值。因此,任何有效的数据管理策略——尤其是那些专注于控制蔓延的策略——都应将隔离和分类作为主要目标。
有效使用元数据是实现此类策略的最基本步骤之一。为了有效地隔离和分类数据,组织必须确保元数据一致、详细且健壮,以确保跨应用程序的一致性,并且可以快速准确地识别数据的用途或业务用例。
数据质量是有效管理策略的另一支柱。由于数据孤岛、缺乏标准化流程以及缺乏有效的筛选和验证方法导致的不一致性,组织有效管理数据和控制蔓延的能力经常受到损害。
最终,优先级至关重要——确保旧的遗留数据被归档或清除,并且最新数据或最常使用的数据得到优化、调整并尽可能提高效率。
然而,这让我们回到了有效的协作。为了正确隔离数据,运维团队和开发人员必须共同努力,围绕每个团队的愿望和需求保持开放的沟通渠道。当被归入孤岛时,任何一个团队都不可能有效地识别和优先考虑数据。通常,文化变革是组织可以采用的最强大、最重要的数据管理策略。DevOps 提供了一个有用的范例,但最终,大多数组织都必须以自己的方式解决文化考虑因素。
数据生成和消耗呈指数级增长,人工智能和机器学习将我们推向一个未来,即使是最旧的数据也获得了新的生命。
因此,仅仅“删除旧内容”的做法正迅速成为过去。因此,当今的组织必须认真考虑长期优先考虑数据管理策略。
我的博客即将同步至腾讯云开发者社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=3f44ns31v728s