独创！Anthropic 推出新型‘宪法分类器’，成功降低 Claude 越狱率-科技快讯中文网

2025

02-05

独创！Anthropic 推出新型‘宪法分类器’，成功降低 Claude 越狱率

网络安全

jinting

围观1305次

0条评论

发布日期：2025年02月05日 11:38:52

独创！Anthropic 推出新型‘宪法分类器’，成功降低 Claude 越狱率

革新监管！Anthropic 宪法分类器有效挽留逃犯，法治进步再添利器

　　 2月5日消息，为应对人工智能工具中日益严重的滥用自然语言提示问题，OpenAI的竞争对手Anthropic推出了一项名为“宪法分类器”的新概念。这种技术旨在将一套类似人类价值观的准则（可以理解为一部“宪法”）植入大型语言模型中。这一举措不仅有助于规范AI的行为，还可能成为未来AI伦理研究的一个重要方向。这项创新性技术有望在一定程度上减少滥用风险，并提升AI系统的可信度与安全性。不过，如何确保这些“宪法”准则能够准确无误地被AI理解和执行，仍然是需要进一步探讨的问题。

　　注意到，Anthropic的安全保障研究团队在一篇新学术论文中详细介绍了针对Claude3.5Sonnet的全新安全措施。这款最新的大型语言模型旨在防止生成那些可能超出预设安全防护范围的内容，也就是我们常说的“越狱”。这项新举措无疑为人工智能的安全性设定了更高的标准，也引发了业界对于未来模型监管与控制方式的新一轮讨论。随着技术的发展，如何平衡创新与安全成为了一个日益重要的议题，而Claude3.5Sonnet所采取的这一系列措施或将引领行业风向标。

　　作者们发现，实施宪法分类器之后，我们观察到Claude模型的成功越狱情况显著下降了81.6%。这一改进几乎未对系统的整体性能产生负面影响，“生产流量拒绝率仅绝对增加了0.38%，而推理开销也只增加了23.7%”。这项技术的应用无疑大大增强了系统的安全性，同时保持了较高的效率。这种平衡表明，在提高安全性的过程中，我们无需以牺牲用户体验为代价。这不仅是技术上的一个进步，也是对用户信任的一种维护。

　　虽然大型语言模型能生成大量各种各样的有害内容，但 Anthropic（以及 OpenAI 等同行）越来越关注与化学、生物、放射和核（CBRN）相关内容的风险。例如，大型语言模型可能会告诉用户如何制造化学制剂。

　　因此，Anthropic公司为了证明其宪法分类器的有效性，启动了一项挑战计划，邀请公众尝试攻克八个与化学、生物、放射性和核材料（CBRN）相关的内容限制关卡。然而，此举却引发了争议。有人指责该公司是在借助社区的力量无偿为其进行安全性测试，即所谓的“红队”操作。一位网友在推特上质疑道：“你们是不是想让社区成员无偿帮忙，以便你们能从闭源模型中获取更多利润？” 这项挑战不仅引发了对于伦理道德的讨论，还引发了对开源与闭源模型之间关系的深入思考。它提醒我们，科技公司在追求技术进步的同时，也需要更加透明地对待公众参与，确保这样的合作方式是公平且尊重贡献者的。

　　 Anthropic指出，针对其宪法分类器防御措施的成功越狱是绕过了这些分类器，而非直接规避它们，特别列举了两种越狱方法。一种是良性释义（例如，将从蓖麻豆糊中提取毒素蓖麻蛋白的表述改为提取蛋白质），另一种是长度利用，即通过无关细节迷惑大型语言模型。Anthropic补充说，已知对没有宪法分类器的模型有效的越狱方法在这一防御措施下并未成功。这种绕过机制的策略显示了人工智能系统的复杂性和挑战性。良性释义和长度利用这两种方法表明，攻击者正在不断寻找新的方式来突破现有的安全防御。值得注意的是，这些方法并不是直接对抗系统设置的限制，而是通过巧妙地调整输入来实现目标。这不仅反映了技术上的创新，也突显了在构建更加安全的人工智能系统时需要持续关注和改进的安全措施。

　　然而，Anthropic公司也承认，在进行宪法分类器测试时，提交的提示“拒绝率异常之高”，并且他们意识到基于规则的测试系统可能存在误报和漏报的问题。这一情况引发了对当前评估方法准确性的质疑，提醒我们在技术测试和验证过程中需要更加谨慎和全面。未来可能需要引入更多元化的检测手段，以确保结果的可靠性，并减少潜在的技术偏见。

首页 > 网络安全

2025

02-05