首页
社区
课程
招聘
大语言模型训练集中发现超1.2万个API密钥和密码
发表于: 2025-3-4 10:36 710

大语言模型训练集中发现超1.2万个API密钥和密码

2025-3-4 10:36
710

在一个名为“Common Crawl”的网络抓取项目发布的庞大数据集中,研究人员惊讶地发现,约有 1.2万个有效的API密钥和密码被包含在用于训练大语言模型(LLM)的数据中。这一发现不仅揭示了公开源代码的潜在危险,也对互联网安全提出了严峻的挑战。

数据安全

这个数据集的规模令人瞩目——它包含超过 2500亿个页面400TB 的压缩网页数据,时间跨度长达18年。Truffle Security的分析揭露了数据中存在的 219种不同的密钥类型,这些密钥涉及多个知名平台,包括亚马逊云服务(AWS)、Slack以及Mailchimp等。不幸的是,这些密钥并不是仅存在于过时或不常用的代码库,它们都是可以用来进行合法身份验证的,这说明一旦被恶意用户掌握,就可能引发严重的安全问题。

安全研究员乔·莱昂表示:“在训练过程中,大语言模型无法区分这些密钥的有效性,因此无论是有效的还是无效的,都可能会导致不安全的编码示例被提供给用户。”这意味着,即使是为了示例而存在的无效密钥也可能会误导开发者形成不安全的编码实践。

更为可怕的是,早在此前,Lasso Security就警告道,公开的源代码库中所暴露的数据,即使在被设置为私有后,依然可能通过工具如微软Copilot等被访问。这种情况的发生,恶性数据泄露的风险因而增加。随着技术的不断发展,创建安全应用程序的麻烦似乎也在增加。

在一个名为“Wayback Copilot”的攻击方法中,黑客集中攻击了包含 16,290个组织20,580个GitHub存储库。其中,不乏微软、谷歌、英特尔、华为等科技巨头的组织。研究显示,这些公司所暴露的敏感信息不仅限于API密钥,还包括 超300个私密令牌、密钥和凭证,这无疑为企业的运作带来了巨大风险。

伴随技术的高度发展,AI模型的安全性问题也愈演愈烈。最新的研究表明,即使是经过不安全代码示例微调的AI语言模型,在面对与编程无关的提示时,仍可能展现出意想不到的有害行为。这一现象被学者命名为 “突发性失调”。模型的训练结果可能会影响到与开发无关的各种内容,甚至建议诸如“人类应臣服于AI”的风险性内容。

此外,现有研究还指出,黑客可以通过 “提示注入” 来操纵生成式人工智能(GenAI)系统,迫使大语言模型在不知情的情况下生成非法内容。这种对抗性攻击已经成为许多主流AI产品的难题,并且被认为是通过精心设计的输入对模型进行操控的有效手段。

为了确保IT环境的安全,相关组织应当遵循以下安全建议:首先,定期审查和更新 API密钥和密码,避免硬编码凭证的情况发生;其次,尽量减少将敏感信息放在公共代码库上的几率,使用私有或受限访问的代码库保护敏感数据;与此同时,借助安全工具和协议,检测并防范可能的API泄露,提升整体网络安全态势。

这种情况下,公共互联网的每一个用户都需增强自己的安全意识,及时清除多余的敏感信息,切勿让这些没有及时更新的代码,成为潜在黑客的攻击目标。只有通过共同努力,才能营造出相对安全的网络环境。


[培训]科锐逆向工程师培训第53期2025年7月8日开班!

收藏
免费 0
支持
分享
最新回复 (0)
游客
登录 | 注册 方可回帖
返回