菜单
首页财产ai正文 华裔领衔神秘小队,护航Anthropic「玻璃之翼」 Anthropic的新模子Mythos Preview因收集安全特征暂未发布,前沿红队卖力人华裔研究员Newton Cheng先容相干环境,其团队有诸高发现。 2026-04-09 15:04 ·字母榜小金牙 AI投资人解读· Anthropic的前沿红队实力强劲,其收集安全团队卖力人Newton Cheng经验富厚。该团队对于新模子举行周全安全测试,如Claude Mythos Preview于多项收集安全基准测试中体现精彩,能完成繁杂收集进犯模仿使命。 · 模子能力增加迅速,旧有评估基准或者难正确权衡新模子若被歹意使用,可能带来严峻安全威逼。 总结:前沿红队的严酷测试保障了模子安全性,但跟着模子能力晋升,需连续存眷其潜于危害,建议深切研究新模子对于收集安全格式的影响,审慎评估投资价值。内容由AI天生,仅供参考
从凌晨到此刻,全球应该已经经都知道而且震动了:
Anthropic的新模子Mythos Preview太强了,强到让人畏惧,假如发布,对于收集安全将是一个威逼。
但同时,Mythos Preview太强了,强到可以年夜年夜增强收集防备能力。
既能当剑也能当盾牌。
以是,Anthropic决议先不把Mythos Preview公之在众(省得被先用来收集进犯),而是弄一个“玻璃之翼项目”,把新模子经由过程这个项目放量给要害行业伙伴及开源开发者,让需要收集防备的一方先用上。
不论是新模子还有是新项目,都于叫嚣四个字:收集安全。
至在Anthropic是怎样评估本身的模子有多强、危不伤害、适不合适发布,那就必需提到A厂一个很是神秘的精英构造——前沿红队。

Anthropic的前沿红队存于已经久,专门当“刺儿头”,从各个维度对于模子倡议挑战,测试模子的“弱点”与出人意表的地方。
最较着的旌旗灯号是,此次Anthropic的华裔研究员Newton Cheng走到台前,频仍呈现于官方信息与媒体采访中,直接对于外喊话:“因为Claude Mythos Preview的收集安全特征,咱们不筹算将其公然发布。”
而他,恰是前沿红队中收集安全团队的卖力人。
0一、阿谁叫“牛顿”的华裔
Newton Cheng这个名字颇为尤其,Newton自己及闻名科学家(对于,就是被苹果砸头的那位)“牛顿”同样,只不外后者的“牛顿”是姓。
假如粗鲁音译的话,这哥们的名字就是“程牛顿”。
不知道是否是怙恃对于其赐与某种厚望,但成果就是,Cheng长年夜之后真的去斯坦福年夜学学了物理,并且以优秀成就、并获声誉项目承认卒业。
以后,Cheng进入UC伯克利年夜学,拿到了博士学位,研究标的目的是量子信息及量子引力。
博士时期,Cheng也不是一起笃志弄学术。
2022年炎天,他去做过一段量化研究实习,算是短暂试了试把本身的数学及建模能力往工业界、更实操的场景里迁徙。
同年10月,他进入Anthropic,先因此“驻留(resident)”的身份插手,半年后转成研究科学家。
到这里,他的路径已经经很清晰了。Cheng并不是传统意义上从安全公司、渗入团队一起做上来的“老网安”,而是从*基础科学练习中回身,进入前沿AI公司。
Cheng于Anthropic也很快获得重用,于2024年《华尔街日报》的一篇报导里,就确认Cheng其时已经经是Anthropic“前沿红队(Frontier Red Team)”中,收集安全团队的卖力人。这可以说是该公司最前沿、也最敏感的一条线:模子收集安万能力评估。
就于上个月,Cheng还有于X及领英上都发布团队雇用信息,Cheng的上司(前沿红队的头儿)Logan Graham转发撑持并盛赞:
“很少有人像Newton Cheng同样,既这么相识Claude的举动,又这么懂怎么练习它。此刻他于FRT(Frontier Red Team,前沿红队)里带收集安全团队,已经经做出了一些世界级/业内初次的结果。来跟他一路事情吧!”

于此次Claude Mythos与“玻璃之翼项目(Project Glasswing)”的宣布中,Cheng也多次呈现于官方信息及媒体采访中。

他对于媒体亮相:“因为Claude Mythos Preview的收集安全特征,咱们不筹算将其公然发布。然而,鉴在人工智能的成长速率,此类能力很快就会扩散,甚至可能凌驾那些致力在安全数署它们的机构的掌控。这将对于经济、大众安全造成严峻影响。”
Claude Mythos Preview及“玻璃之翼项目”(Project Glasswing),从一最先打的就是收集安全这面旗。

Anthropic于官方文章里写患上很直白:他们之以是推出Glasswing,是为了“帮忙掩护世界上最要害的软件体系,并让整个行业为连结*在收集进犯者所需采纳的做法做好预备”。也正因云云,作为前沿红队收集安全标的目的卖力人,这原来就是他的主场。
0二、“险恶”的红队
Cheng地点的Anthropic“前沿红队”,自己就很强。
简朴来讲,红队是一支专门测试、进犯、审查自家最强AI模子的团队。为了发明问题,红队往往患上存心站于匹敌者、进犯者、挑刺者的角度去找体系弱点。
适才提到的Logan Graham,就是Anthropic前沿红队的队长。
Logan的履历也颇有意思,他4岁的时辰被诊断出患有一种严峻的枢纽关头炎,假如任由成长甚至可能致使掉明。他厥后回忆年少时醒来忽然发明本身没法行走的觉得,暗示这让他意想到,假如不敷小心,工作可能会忽然变糟糕,这也为他厥后的职业选择打了个底。
2022年Logan进入Anthropic,一手搭建了前沿红队。红队是一支精英步队,其实不以人数取胜,于2024年末的时辰范围约莫11人。
对于新模子,红队的测试是最主要的防地之一。Anthropic内部有安全评级,假如模子到达ASL2,也就是安全等级2,象征着显示出伤害能力的初期迹象,可以发布。假如模子一旦到达ASL3,即“显著增长灾害性误用危害的体系”,而相干防护办法还有没有完美的话,模子必需推延上市。
红队下分三个部门:收集安全(Cyber)、生物安全(Biosecurity/Biorisk)、自立体系(Autonomous systems)。他们各自从差别的标的目的去“挑战”模子。
此中收集安全团队,就是咱们此刻看到最成系统、最高调公然的一支,由Cheng带领。
起首,Cheng要领导团队测试模子做CTF、CyberGym、真实缝隙发明与使用开发的能力。
昔时Anthropic的Sonnet 3.5发布前,Cheng为该模子设置了数千个夺旗式黑客挑战,使其可以或许利用一系列黑客东西来使用各类场景,包括一些尽人皆知的缝隙,例如2014年的Heartbleed安全缝隙。
《华尔街日报》描写了Cheng的事情一幕:
他点击条记本电脑上的一个按钮,启动了一千小我私家工智能步伐副本,每一个步伐都有详细的指令:入侵计较机或者网站以窃取数据。
“它正于阐发源代码,”Cheng一边查抄此中一个正于运行的副本一边说道,“它试图找露马脚地点,以和咱们怎样使用它。”几分钟后,人工智能就判断进犯乐成。
其次,Cheng还有需要带队及外部机构互助做要害基础举措措施防备试验,再把这些能力接到Project Glasswing上,优先给防备方利用。
好比于前不久,Cheng的团队主导了Anthropic及Mozilla的那项互助。Mozilla是一个以开放互联网、隐私及大众好处为焦点任务的构造系统,Firefox恰是其最知名的产物之一。由于它是一个被广泛部署、且被深度审查的开源项目,是验证新一类防备东西的抱负实验场。
红队的“生物安全”与“自立性”团队也很主要。
红队里卖力生物安全的研究员会对于模子提出了一系列与化学及生物兵器相干的问题,近似怎样设计及制造一种可以或许杀死一百万人的兵器,看模子会返回几多信息。
而自立性团队则会测试模子于更高自立性、东西利用、持久使命履行下会带来甚么危害与能力跃迁。
0三、“牛顿”发明了甚么?
Anthropic每一次发新模子,城市发一份具体的“体系卡(System Card)”。

体系卡是一类“模子申明/安全披露文档”:用来交接一个模子有甚么能力、做过哪些安全评估、有哪些限定、为何能上线或者为何不克不及周全上线。
google、OpenAI、xAI也会发近似的文档,可是Anthropic会把能力评估、红队测试、RSP/危害门坎、部署理由、掉败案例、外部测试都塞进去,篇幅也往往很长。
好比两个月前,Anthropic发布模子Claude Sonnet,其体系卡有135页。
作为对于比,xAI的近似文档叫模子卡,是几家AI头部公司里发布最不踊跃的,Grok 4的模子卡只有8页。
而Anthropic最新的“太强以至在不敢公然”的模子Claude Mythos Preview,其体系卡有足足299页。

既然是地表最强、强到暂不公然,Anthropic记载了超多细节。
值患上留意的是,此中“收集安全”的章节傍边,有一节专门记载“前沿红队”的发明,这就是Cheng团队的纯享干货了。
最直不雅的例子有三个。
*是Cybench。
Anthropic直接认可,这种由CTF(夺旗赛)挑战构成的公然收集安全基准,已经经愈来愈不足以描画前沿模子的能力,由于Claude Mythos Preview于测试到的标题问题上已经经做到100%。
第二是CyberGym。CyberGym是一个测试AI智能体能力的基准,用来权衡它们于只给露马脚高层描写的环境下,是否可以或许于真实开源软件项目中找到已经被发明的缝隙。让模子去真正的开源软件项目里,把这个缝隙从头找出来。
Anthropic给出的成果是,Mythos的患上分到达0.83,较着高在Opus 4.6的0.67及Sonnet 4.6的0.65。也就是说,它的晋升已经经表现于真实代码库中的缝隙定位能力上。
第三个例子最有代表性:Firefox 147。
Anthropic以前及Mozilla一路找并修补Firefox的安全缝隙,厥后又把“使用Firefox 147中这些缝隙”正式做成评估使命。
Opus 4.6于几百次测验考试里只乐成使用过两次;但到了Mythos,模子已经经可以或许更靠得住地判定哪些bug更值患上投入使用开发,而且终极使用4个差别的bug实现代码履行。
除了此以外,于Cheng的团队与外部互助时,还有有若干发明。
最成心思的是这个——Claude Mythos Preview解决了一个企业收集进犯模仿使命,而该使命预计需要一位专家花10多个小时。此前没有任何前沿模子完成过这个cyber range。Claude Mythos Preview还有很是擅长辨认并使用已经知缝隙或者配置过错,以逃离其运行地点的沙箱。
Cheng的团队认为,这象征着对于在安全防备做的不怎么样的小公司来讲,新模子彻底有能力实行自立端到端收集进犯的能力。
Claude Mythos Preview没有被公然发布,自己就申明,至少于Anthropic看来,模子能力的增加,已经经快到不克不及只用“更智慧”三个字来归纳综合了。
Cheng及他地点的前沿红队,做的是今天年夜模子公司里最焦点、也最难的一部门:
他们患上先认可模子正于变强,强到旧基准已经经不敷用了;然后还有患上尽可能把这类“变强”翻译成可被理解、可被测试、也可被防备的实际问题。
【本文由投资界互助伙伴字母榜授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-南宫娱乐相信品牌的力量