Reddit 将限制网络档案数据库(Internet Archive)旗下的 Wayback Machine 存取论坛上的内容和索引
Reddit 发现有公司透过 Wayback Machine 抓取 Reddit 的历史数据训练 AI 大型语言模型,违反平台政策。Reddit 发言人 Tim Rathschmidt 向 The Verge 表示他们注意到有 AI 公司违反平台政策,通过 Wayback Machine 抓取 Reddit 的资料。因此 Reddit 将逐步限制 Wayback Machine 的索引能力,未来这些第三方公司仅能存取 Reddit 主页,而无法抓取特定贴文、留言和用户个人页面等内容。
Reddit 强调虽然理解网络档案数据库需努力保存网络内容资产的使命,但也必须保护用户隐私与平台政策的完整性。在网络档案数据库能保障网站内容符合隐私规范前,Reddit 将限制 Wayback Machine 的造访,以保障用户利益。
这项封锁措施即日起开始实施,将会逐步加强
Reddit 表示已事先与 Internet Archive 沟通提前告知他们做准备。Wayback Machine 负责人 Mark Graham 回复表示他们与 Reddit 一直保持长期合作关系,将继续就此事进行讨论。
Reddit 的 AI 政策为用户付费
这并非 Reddit 首度对资料存取施加限制,人工智慧大型语言模型(LLM)迅速发展,许多 AI 公司开始利用 Reddit 上用户们大量的公开对话训练语言模型。2023 年起,Reddit 对其 API 政策进行重大调整,要求第三方应用程序使用 API 需要支付费用,此举导致多个第三方 Reddit 客户端关闭,引起社区抗议。Reddit 表示调整的主因是为了防止 AI 公司未经授权使用其内容训练模型。Reddit 也开始限制搜索引擎抓取网站内容,除非第三方公司愿意付费。
2024 年,Reddit 与 Google 达成协议允许使用论坛内容训练 AI 模型与改进搜索功能,该协议价值约 6000 万美元,协议意味着为 AI 训练模型的重要来源,Reddit 平台的内容可以成为商品变现。此外,Reddit 也与 OpenAI 建立合作关系,允许使用内容,不过,2025 年 6 月,Reddit 对另一家 AI 公司 Anthropic 提起诉讼,指控对方声称已停止获取网站数据,但仍持续进行不间断,以此训练 Claude 模型。
这次封锁 Wayback Machine,突显出 Reddit 对 AI 数据主权的重视。虽然 Reddit 长期以来被视为开放自由论坛的模范,但当平台意识到用户内容价值提高可被量化为高价值的 AI 训练时,也开始夺回主控权。
唉,用户变商品吗?
Reddit 上虽然大部分都是匿名,但平台如果开放付费让第三方使用数据让 AI 训练语言模型,那又产生另外个问题,用户的发言是一时的,但网络资料存取是永久的,用户如果改变想法和立场,但所说言论被永久保存,不是会变得更没有隐私权和自主权?
风险提示
加密货币投资具有高度风险,其价格可能波动剧烈,您可能损失全部本金。请谨慎评估风险。