Anthropic让AI自己招供：一个LoRA插件审出人类10种方法都漏掉的隐藏行为

发布时间：2026-04-30 已有：位网友关注

　　币界网消息，Anthropic对齐团队发布了一种名为「内省适配器」的审计技术，旨在让大型语言模型用自然语言报告自己微调后学到的行为。该技术通过从同一基座模型微调出大量带已知行为的模型，再跨这些模型联合训练一个LoRA适配器，使被审计模型能够主动说出自己的隐藏行为。在对齐审计基准auditbench上，内省适配器以59%的成功率超过此前所有审计方法，56个带隐藏行为的模型中，89%被成功引出行为描述。面对加密微调API攻击，内省适配器在9种加密变体中识别出7种，成功率为57.8%。研究还发现，效果随模型规模增大而提升，主要局限是假阳性率高。代码、模型和数据集已在GitHub和Hugging Face开源。