警惕 AI 污染!YouTube 创作者遭 AI 盗用,通过“污染”字幕反制。企业应重视公共数据安全,防范 AI 驱动的“疾病携带”风险。控制数据源头,避免第三方或 AI 生成内容,维护平台信任根基,打造更安全的云原生环境。
译自:Poisoning the Well and Other Generative AI Risks
作者:David Eastman
最近因非法 AI 生成而受损的群体之一是 YouTube 用户,即在 YouTube 上主持自己节目的视频创作者。有许多 YouTube 视频(特别是信息类或新闻类的视频)被其他方盗用的案例。一种方法是复制目标视频上的字幕。这样,AI 生成的版本可能看起来不同,但可以基于相同的内容。副本会尽可能快速和自动地制作出来,然后在未经署名的情况下发布。有时,这些视频被归类为原始视频的“摘要”,这仍然是一个灰色地带。这种生态系统减少了点击量,并破坏了真实创作者的发现算法,从而使他们变得更穷。
一个有趣的对立面是“污染”这些字幕,通过在字幕中添加无意义的文本。事实证明,某些字幕格式允许编辑者将字幕放置在屏幕区域之外。因此,视频的任何观看者都不会看到它们,但字幕复制者会摄取它们。因此,通过使用一些不同的隐藏式字幕格式转换,YouTube 用户可以编辑自己的字幕以添加这些有毒字幕。因此,这些副本可能会说出荒谬的事情——通常在视频中间,以避免立即被发现。
以这种方式制作有毒视频的 YouTube 用户不太可能被盗用,因为复制者需要额外的清理工作,这将使他们的整个工作流程效率低下。这与将你的自行车锁在更昂贵的自行车旁边或锁在锁较弱的自行车旁边没有太大区别——它利用了攻击者普遍的懒惰。因此,污染源头的概念在整个创意领域流行起来,适用于所有试图保护自己免受 AI 掠夺的人。
滥用公共数据,从而滥用公共身份,会迅速损害平台及其所有者的可信度和功能。
但本文关注的是源头的所有者。将源头视为你平台的所有公共数据。也就是说,你或你的组织与公众分享的任何内容。文字、文档、对话、API、视觉效果,一切。尽可能保持水的清澈代表着公众对你组织的信任。从长远来看,希望你的自行车对你的邻居不那么有吸引力并不是一个长期的防御解决方案,但污染现在是所有公共平台面临的一个严重问题——这里有一个重要的教训。
滥用公共数据,从而滥用公共身份,会迅速损害平台及其所有者的可信度和功能。虽然复制和总结并不新鲜——我可以指出我在这家出版物上发表的帖子被复制或总结,并在其他模糊的在线出版物或平台上使用,可能未经许可。但新的是 AI 驱动的生态系统管道,它威胁的不仅仅是一个创作者一次创作的一件作品。它可以迅速吞噬内容和身份。
数字身份如此脆弱的原因是没有可以依靠的物理实体。制造真实物体的公司至少可以让他们的产品承担很多身份负担。
在 1987 年的愚人节,汽车公司宝马巩固了他们的身份,同时嘲笑了人们并不真正注意细节这一事实。因为他们的产品实际上就在人们面前的道路上,所以他们的笑话中明显的诱导身份混乱并不危险:
很多人都被这个骗了,打电话给宝马报告说他们真正的汽车是假的。
如今,公司徽标的副本经常被用于网络钓鱼攻击。许多初创公司没有任何强大的视觉品牌,这使得冒充变得更加容易。或者他们没有令人难忘的域名,这使得用户更难发现犯罪行为。独特的身份总是更安全。
如果你在世界上没有实体存在,那么你最不想做的就是稀释你的人类存在。人类可能是你平台拥有的唯一非数字的东西。然而,一些小公司使用聊天机器人。这是愚蠢的,因为这意味着他们的大部分公共互动(是的,那是公共数据)甚至不是他们自己产生的。
解决方案的一部分是了解你的平台的公共数据和身份是如何交织在一起的。平台暴露的几乎所有内容都是信任链的一部分。每次你外包一些东西——尤其是外包给其他人训练的 AI 系统时——你都可能削弱这些链接。这就是为什么初创公司应该严格控制所有数据。作为一个平台,如果 YouTube 的 150 亿个视频中有几百个是无稽之谈,这无关紧要,但一个小平台无法承受这种对信任的冒犯。
我们可能会嘲笑公司的使命宣言,但我们都知道完全平淡的声明是 AI 生成的(或者可能是周五下午短暂会议的结果),这只会减少人们对坚实基础的感觉。身份——甚至是使命宣言——是任何平台信任的根源。在生成文档时,避免发布看起来凭空产生的冗长声明。小的互连文档更容易控制,也更容易确定来源。将你的所有沟通都想象成树上的叶子和树枝;是更重要事物的一部分。
我们已经习惯了一些著名 CEO 的古怪行为,但他们有更大的空间来吸收他们的污染。
大型社交媒体网站越来越引起在线安全方面的担忧。像 TikTok 最近与青少年自杀事件有关。 这些平台携带平台本身试图不承担责任的公开生成的数据。经过检查,一个内部系统可能已经在平台内生根,他们无法真正控制。然而,在一个不那么引人注目的层面上,这种形式的疾病携带对运行论坛的小平台也是危险的。
许多公司不得不撤下或暂停论坛,因为愤怒的用户(无论是否是有组织的)可能会在声誉上造成毁灭性的打击。不正确地管理论坛可能会因为疏忽而使相当无害的问题看起来更糟。成功的论坛(通常在 Slack 或 Discord 上)由几乎所有开发人员管理,他们会尽快做出合理的响应。
我们最初的有毒 YouTube 字幕的例子可以被视为一种疾病携带的形式。
你可以看到,我们最初的有毒 YouTube 字幕的例子可以被视为一种疾病携带的形式,因为其中一种字幕格式允许实际上是隐藏文本的内容。这可能看起来像是灵活性,但该示例表明了它为什么对平台具有潜在的危险性。我看到了一个类似的案例,一个帮助商店打折剩余食物的应用程序列出了一家不是商店的企业。这个位于一条安静街道上的郊区住宅,远离主干道,建议深夜取货时间——显然有风险。当联系该应用程序时,他们没有处理这种情况的流程。无论平台设计得多么好,表面上健康的部分都可能被感染。
减少自由表达可以减少有风险的生成数据。大多数带有聊天频道的直播游戏网站都会仔细删除脏话,但有些网站根本不支持用户之间的任何口头交流——或者高度匿名化。在论坛中发布之前应用编辑层是重新获得控制权的一种方式。
不法分子将毒药放入商店食品产品或其他形式的掺假行为有其自身的历史。食品生产商已经通过容器上的各种安全系统来应对这些攻击,以帮助发现它们是否已经被打开。但最好的防御方法是明确说明产品中只使用一小部分经过精心采购的成分,并且任何包装厂都由公司直接控制。同样,软件平台应该严格控制其公共数据,并避免第三方或 AI 生成,直到它们变得更加成熟。
AI 生成的问题之一是该领域正在发展,没有人可以预测接下来会出现什么可能令人震惊的能力。与其等待问题发生,不如严格控制你的所有公共数据和流程。尽可能保持其原创性。观察它的去向,以及它可能如何被改变。