首页 > 网络安全
2025
02-05

独创!Anthropic 推出新型‘宪法分类器’,成功降低 Claude 越狱率

网络安全
jinting
围观1305次
0条评论
发布日期:2025年02月05日 11:38:52

独创!Anthropic 推出新型‘宪法分类器’,成功降低 Claude 越狱率

革新监管!Anthropic 宪法分类器有效挽留逃犯,法治进步再添利器

   2月5日消息,为应对人工智能工具中日益严重的滥用自然语言提示问题,OpenAI的竞争对手Anthropic推出了一项名为“宪法分类器”的新概念。这种技术旨在将一套类似人类价值观的准则(可以理解为一部“宪法”)植入大型语言模型中。这一举措不仅有助于规范AI的行为,还可能成为未来AI伦理研究的一个重要方向。 这项创新性技术有望在一定程度上减少滥用风险,并提升AI系统的可信度与安全性。不过,如何确保这些“宪法”准则能够准确无误地被AI理解和执行,仍然是需要进一步探讨的问题。

   注意到,Anthropic的安全保障研究团队在一篇新学术论文中详细介绍了针对Claude3.5Sonnet的全新安全措施。这款最新的大型语言模型旨在防止生成那些可能超出预设安全防护范围的内容,也就是我们常说的“越狱”。这项新举措无疑为人工智能的安全性设定了更高的标准,也引发了业界对于未来模型监管与控制方式的新一轮讨论。随着技术的发展,如何平衡创新与安全成为了一个日益重要的议题,而Claude3.5Sonnet所采取的这一系列措施或将引领行业风向标。

   作者们发现,实施宪法分类器之后,我们观察到Claude模型的成功越狱情况显著下降了81.6%。这一改进几乎未对系统的整体性能产生负面影响,“生产流量拒绝率仅绝对增加了0.38%,而推理开销也只增加了23.7%”。这项技术的应用无疑大大增强了系统的安全性,同时保持了较高的效率。这种平衡表明,在提高安全性的过程中,我们无需以牺牲用户体验为代价。这不仅是技术上的一个进步,也是对用户信任的一种维护。

   虽然大型语言模型能生成大量各种各样的有害内容,但 Anthropic(以及 OpenAI 等同行)越来越关注与化学、生物、放射和核(CBRN)相关内容的风险。例如,大型语言模型可能会告诉用户如何制造化学制剂。

   因此,Anthropic公司为了证明其宪法分类器的有效性,启动了一项挑战计划,邀请公众尝试攻克八个与化学、生物、放射性和核材料(CBRN)相关的内容限制关卡。然而,此举却引发了争议。有人指责该公司是在借助社区的力量无偿为其进行安全性测试,即所谓的“红队”操作。一位网友在推特上质疑道:“你们是不是想让社区成员无偿帮忙,以便你们能从闭源模型中获取更多利润?” 这项挑战不仅引发了对于伦理道德的讨论,还引发了对开源与闭源模型之间关系的深入思考。它提醒我们,科技公司在追求技术进步的同时,也需要更加透明地对待公众参与,确保这样的合作方式是公平且尊重贡献者的。

   Anthropic指出,针对其宪法分类器防御措施的成功越狱是绕过了这些分类器,而非直接规避它们,特别列举了两种越狱方法。一种是良性释义(例如,将从蓖麻豆糊中提取毒素蓖麻蛋白的表述改为提取蛋白质),另一种是长度利用,即通过无关细节迷惑大型语言模型。Anthropic补充说,已知对没有宪法分类器的模型有效的越狱方法在这一防御措施下并未成功。 这种绕过机制的策略显示了人工智能系统的复杂性和挑战性。良性释义和长度利用这两种方法表明,攻击者正在不断寻找新的方式来突破现有的安全防御。值得注意的是,这些方法并不是直接对抗系统设置的限制,而是通过巧妙地调整输入来实现目标。这不仅反映了技术上的创新,也突显了在构建更加安全的人工智能系统时需要持续关注和改进的安全措施。

   然而,Anthropic公司也承认,在进行宪法分类器测试时,提交的提示“拒绝率异常之高”,并且他们意识到基于规则的测试系统可能存在误报和漏报的问题。这一情况引发了对当前评估方法准确性的质疑,提醒我们在技术测试和验证过程中需要更加谨慎和全面。未来可能需要引入更多元化的检测手段,以确保结果的可靠性,并减少潜在的技术偏见。

本文固定链接: https://www.news9999.cn/arts_content-37612.html 转载请注明出处(科技快讯中文网-www.news9999.cn)
最新发布 抖音客服骗局升级!中老年群体成新目标,小心隐形扣费陷阱  2025-07-31 12:42:16 AI换脸诈骗升级,23人银行卡被盗刷引警醒  2025-07-21 14:26:58 黑客利用Shellter工具植入木马,伪装热门应用发送钓鱼信息  2025-07-14 11:36:21 新型侧通道漏洞威胁主流CPU,AMD与英特尔陷安全风波  2025-07-10 09:33:45 中缅泰联合出击:全面清剿电诈园区,掀起全球追捕风暴  2025-07-06 18:29:17 人脸识别强制使用?北京出手整治,市民可举报!  2025-07-06 15:54:42 国内首张芯片级后量子密码卡发布,开启抗量子攻击新纪元  2025-07-03 21:42:36 澳洲航空遭黑客袭击,数百万用户信息疑被盗  2025-07-02 09:05:39 NFC信用卡遭黑客盗刷?25人犯罪团伙惊现黑科技陷阱  2025-06-29 17:59:11 WinRAR惊现致命漏洞:远程代码执行威胁全面爆发  2025-06-26 10:10:04 黑莓迎网络安全风口,全年营收预期再度上调  2025-06-25 22:22:23 360借条遭山寨陷困境,周鸿祎紧急澄清:非我司产品!  2025-06-25 00:18:29 微软TLS证书过期引争议,Office频繁弹窗暴露安全漏洞  2025-06-24 23:48:08 《揭秘电诈顶峰:刷单返利骗局占据榜首!》  2025-06-23 11:02:49 欧洲或因微软邮箱事件重新审视对美技术依赖:一场信任危机的开端  2025-06-22 08:52:42 瞄准Mac用户:新型Zoom会议深度伪造漏洞暗藏恶意软件危机  2025-06-19 10:34:11 《微软出手!过时认证协议将退役,文件访问安全再升级》  2025-06-19 09:50:07 《AMD AM5主板爆安全漏洞!紧急升级BIOS刻不容缓》  2025-06-15 23:45:13 《上海清朗行动亮剑AI滥用!清理违规信息超82万条,重拳处置账号1400+》  2025-06-13 14:59:09 《美国疫苗官网被篡改:AI垃圾信息大肆入侵》  2025-06-12 10:33:42 《安立佳:携手企业共筑网络安全新未来》  2025-06-05 16:33:39 GitHub漏洞曝光:恶意议题或致私有仓库沦陷,Claude 4隐私泄露风险升级  2025-06-01 08:44:49 《人脸安全新规明日生效:告别唯脸认证时代》  2025-05-31 23:24:26 《6月新规来袭:人脸识别有法可依,自然人网店迎变革》  2025-05-31 23:21:49 周鸿祎央视直言:中国台湾黑客水准不高,技术能力或仅为三流  2025-05-27 12:03:29
友情链接 百度权重≥5友情链接交换
文化潮流网  |  数界探索  |  文化新视界  |  深度文化说  |  智慧科技  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经
© 2015-2025 科技快讯中文网 时光记忆 版权所有 备案号:陇ICP备2025016403号-1

免责声明:本站所有文章来源于网络或投稿,如果任何问题,请联系648751016@qq.com

网站地图  联系我们  用户投稿  关于我们

页面执行时间0.021726秒