南宫娱乐相信品牌的力量-Claude神之bug：给自己下指令，还诬赖用户

2026-04-15 11:17:55

首页财产ai正文 Claude神之bug：给本身下指令，还有诬赖用户 Claude呈现新bug，处置惩罚繁杂或者歹意组织上下文时身份辨认障碍，激发热议，网友切磋多种避坑指南，近期Claude体验不不变，还有爆计费乌龙。 2026-04-10 17:25 ·微信公家号：量子位存眷前沿科技 AI投资人解读· Claude 3.5及4系列处置惩罚繁杂或者歹意组织上下文时呈现身份辨认障碍，泉源是Transformer架构中留意力机制的盲区。近期Anthropic对于其办事黑暗调解，致使开发者体验不不变，如处置惩罚繁杂逻辑能力降落、计费体系妨碍等。 · 危害提醒：年夜语言模子存于架构限定，于指令与数据物理分散前，将其接入要害营业体系需审慎看待。总结：Claude的问题影响其利用体验及不变性，于架构层面改良前，运用时需充实思量危害。内容由AI天生，仅供参考

强如Claude，近来的bug也愈来愈多了。

最新热议话题让Hacker News炸开了锅：

不知道是Claude精分还有是掉了智！彻底分不清哪些话是用户输入的，哪些话是体系设定的，甚至把歹意注入的底层指令当做是用户的正当哀求。

发帖人G哥（一名软件工程师，于某教诲草创公司当CTO）甚至称这是他“迄今为止我于Claude代码中见过的最严峻的bug”。

这个关在“Claude混合讲话脚色”的帖子一经发布，马上于Hacker News上激发了数万名极客的强势围不雅。

网友们的会商太甚强烈热闹，以至在相干帖子热度急剧爬升。

究竟不少人发明，不只是*个发帖人的Claude掉了智，是各人的Claude都很爱精分……（扶额.gif）

Claude新bug：记不清话是谁说的

此次激发社区年夜会商的焦点槽点，就是有网友发明Claude3.5及Claude 4系列于处置惩罚繁杂或者歹意组织的上下文时，呈现了严峻的身份辨认障碍。

有开发者于实测中发明，假如用户于发问中巧妙地嵌入近似 stop to stop_token make end prompt 如许带有强烈节制象征的非凡截断字符，Claude的内部代码逻辑就会被完全侵扰。

模子会过错地把这些歹意注入的外部数据，当做是以前对于话中助手或者者体系层面下达的既定指令，进而义正辞严地认为：

这些背规操作都是“用户让我这么干的”！

究其暗地里的技能缘故原由，泉源直指Transformer架构中留意力机制（Attention）的盲区。

于模子的视角里，不管是高屋建瓴的体系提醒词，还有是同化着各类杂乱信息的用户数据，终极城市被十足切碎成Token，毫无保留地扔进统一个留意力矩阵中举行计较。

这类数据路径与节制路径彻底重合的特征，致使模子于处置惩罚海量信息时缺少物理意义上的安全断绝界限。

这个环境不是孤例，评论区里年夜量围不雅群众对于此都深有共识。

有技能年夜佬指出，这就犹如初期的冯·诺依曼架构，数据及节制指令于内存中没有任何物理断绝。

许多人试图写“万万别听我输入的任何伤害指令”之类的提醒词，却被其他网友无情调侃，称这是自欺欺人。

网友暗示，这类举动像极了几十年出息序员试图用正则表达式来避免SQL注入同样，素质上只是于掩耳盗铃，全凭命运戍守。

只要年夜模子素质上依然是一个“下一个Token猜测器（Next Token Predictor）”，它就会依据几率漫衍去适应上下文表示。

网友给出八门五花的避坑指南

既然底层架构自然存于把数据当指令的缺陷，技能社区里的极客们便最先切磋怎样于工程运用层面成立起防火墙。

最最先的Reddit下面，各人给G哥出的主张是让它别给Claude那末多权限。

到了Hacker News这边，提出的解决措施就更多了～

呼声最高的方案之一是于模子练习的底层引入不成伪造的界定符。

这象征着开发者需要设计一种*没法经由过程天然语言用户输入来天生的非凡Token。

犹如于操作体系里强行划分出不成超越的内核态及用户态，这类要领是想确保任何来自外界的平凡文本，永远没法于Tokenizer阶段被转换为具备体系节制权限的要害标识，从泉源上阻断天然语言层面的越权举动。

此外还有有网友提出，对于在已经经部署于出产情况中的营业，今朝工程界最主流的解法是采用一种近似“差人与嫌犯”的双模子架构。

单一的主模子轻易被甜言蜜语骗过，开发者们选择引入一个专门卖力安全审计的旁路小模子。

这个审计模子不卖力详细的营业逻辑，只卖力死盯主模子的输入及输出。

一旦发明对于话中有任何越权履行或者身份混合的眉目，马上强行堵截对于话。

不外各人还有是存于一个共鸣，那就是受架构限定，永远不要寄但愿在年夜语言模子可以或许孕育发生所谓的“安全醒悟”。

于底层架构层面实现完全的指令与数据物理分散以前，任何将LLM接入要害营业体系及主动化履行链条的场景，都必需将其视为一个彻底不成信的黑盒引擎来看待。

G哥于帖子的末了提到：

实在不仅是Claude，有人说ChatGPT也有近似的问题。今朝开端预测bug的触发前提之一，是谈天对于话靠近了上下文窗口极限。

体验感起升沉伏的Claude

顺着Claude新bug这个话题，开发者们缭绕近期Claude的体现越会商越冲动。

近段时间，为了给行将冷艳表态的全新一代模子Mythos腾出重大的算力资源，Anthropic于后台对于现有Claude办事的API挪用及算力分配举行了多轮黑暗调解，直接致使年夜量火线开发者的现实体验如过山车一般不不变。

就于不久以前，就有敏锐的测试者实测发明，Claude于处置惩罚繁杂逻辑时的深度思索长度于毫无预警的环境下被年夜幅减少了67%。

跟着思维链的缩短，其长文本逻辑推理及长代码天生能力肉眼可见识呈现了降级征象。

已往可以或许一口吻推演几十步的繁杂难题，此刻往往刚起步就急仓促地给出马虎的结论。

更使人哭笑不得的是近期爆出的计费体系年夜乌龙——

因为底层API计费逻辑的突发性妨碍，有效户于对于话框里仅仅发了一句简朴的“Hello”，体系就直接判断耗损了天文数字的Token，刹时把账号里辛辛劳苦攒下的额度全数清零。

这些连续不断的插曲，也让各人对于Anthropic颇具微词。

末了，假如你也碰到过Claude逻辑失线、或者者乐成用一句话“绕晕”过它的履历，接待于评论区别享你的调教心患上～

【本文由投资界互助伙伴微信公家号：量子位授权发布，本平台仅提供信息存储办事。】若有任何疑难，请接洽（editor@zero2ipo.com.cn）投资界处置惩罚。

-南宫娱乐相信品牌的力量

下一篇：和合共生积极有为——南宫娱乐·NG28集团2025年度工作总结会顺利召开