南宫娱乐相信品牌的力量-智谱GLM

2026-04-24 23:24:19

首页财产ai正文 智谱GLM-5.1登场,14小时后CUDA专家被冲了 智谱开源模子GLM-5.1能于14小时内优化CUDA Kernel,加快比显著晋升。于多项测试中体现精彩,解锁与顶尖闭源模子对于齐,揭示强盛长程使命能力。 2026-04-08 15:42 ·微信公家号:量子位存眷前沿科技 AI投资人解读· GLM-5.1能于14小时内将CUDA Kernel优化,加快比从2.6×晋升到35.7×,还有于多项权势巨子评测中体现精彩,解锁与顶尖闭源模子的周全对于齐。它可自立完成繁杂使命,如构建桌面情况、重写代码、优化数据库等,揭示出强盛的长程使命能力。 · 行业竞争激烈,其他模子可能会不停前进,对于GLM-5.1形成挑战。 总结:GLM-5.1依附其卓着的机能及自立完成繁杂使命的能力,具有较高投资价值。但需存眷行业竞争动态,建议连续跟踪其技能成长与市场体现。内容由AI天生,仅供参考

优化CUDA Kernel这件事,方才被AI狠狠地打击了一波。

由于此刻,给AI十四个小时,它就能帮你把CUDA Kernel优化,加快比从2.6×推至35.7×!

甚么观点?

之前人类资深CUDA工程师要完成这个使命,需要数月重复测试、调优、推翻重来才行;但此刻,AI于你睡觉的时辰就能解决失。

并且AI于这个历程中还有揭示出了专家级的直觉。

例如于优化早期,它测验考试于现有高层框架内寻觅解法,但很快经由过程自立跑测试发明机能涉及了天花板,然后它便做出了人类专家才有的决议计划——

自立判定抛却高层框架,直接转向底层C++举行硬核重写。

整整14个小时里,这个AI主打一个全主动:AI本身发明瓶颈,本身转变技能栈,本身从头编译,本身测试。

那这究竟是何许AI是也?

不卖关子,恰是各人认识的,来自智谱的开源模子——GLM-5.1。

跟着此次长程使命(Long Horizon Task)能力的晋升,智谱官方也公布了一个主要的冲破:

初次解锁了开源模子与当前全世界最*闭源模子Claude Opus 4.6的周全对于齐!

嗯,是妥妥稳坐全世界最强开源模子宝座的觉得了。

并且,从更多的权势巨子评测榜单中来看,也是印证了这一点。

于被称为“软件工程能力试金石”的SWE-bench Pro基准测试中,GLM-5.1刷新了全世界*成就,直接逾越Claude Opus 4.六、GPT-5.4等一众头部模子,拿下全世界*:

甚至于海外网友们的圈子中,已经经吹起了弃用Claude Max的风了:

它的手感及Opus如出一辙,利用额度是Claude Code的3倍,成本却只有1/3。

HuggingFace CEO也出头具名站台,称SWE-Bench Pro中机能最强的模子开源了:

而这一切成就的暗地里,恰是智谱面向小时级的长程使命能力。

给AI几个小时,一切都纷歧样了

当前主流的年夜模子,可以说年夜大都还有是处在“分钟级交互”的阶段。

但到了GLM-5.1这边,它的交付单元就差别了——一个完备的项目。

接下来,咱们就经由过程实测的方式,来看下GLM-5.1的实力到底几何。

挪用东西1000轮,优化真实呆板进修模子负载

*个实测,咱们顺着前面的CUDA的例子,继承让GLM-5.1举行一场磨练:

KernelBench Level 3优化基准,这一基准涵盖50个真实呆板进修计较负载,主打一个还有原真实工业场景,磨练的是端到真个完备优化能力而非单一算子调试。

于跨越24小时的不间断迭代中,GLM-5.1全程自立发力,无需人类专家干涉干与,一遍遍完成“编译—测试—阐发—重写”的闭环轮回,终极交出了如许的成果——

3.6倍几何平均加快比,而作为对于比,torch.compile max-autotune模式仅能到达1.49倍,差距直接翻倍不止!

从这个历程中可以看到,GLM-5.1可以或许自立编写定制Triton Kernel及CUDA Kernel,应用cuBLASLt epilogue交融并实行shared memory tiling与CUDA Graph优化。

这些优化计谋笼罩了从高层算子交融到微架构级调优的完备技能栈,每一一步都是模子的自立决议计划。

成果再次注解,于GPU内核优化这一传统上高度依靠专家经验的范畴,AI模子已经经揭示出从问题阐发、方案设计到迭代调优的端到端自立事情能力。

1小时从零构建MacOS桌面情况

于这个实测中,咱们给GLM-5.1扔了一份3000字的PRD,焦点要求只有一个:

从0最先复刻MacOS焦点UI与交互,不仅要前端壳子,还有必需包罗窗口治理器、Dock栏调理、以和模仿的底层文件体系。

这是一个尺度的前端工程团队至少需要数天才能打磨出原型的使命,但于GLM-5.1这里,时间被压缩到了小时级别。

瞧,待它阐发完使命以后,本身就最先唰唰地编程了:

1个小时以后,于没有任何人工介入的环境下,一个MacOS的桌面情况,就这么水灵灵地降生了!

可以看到,更改桌面配景、放年夜缩小Docker、终端号令履行、体系自带的截图功效等,十足都能实现。

而于智谱官方的demo中,展示了GLM-5.1耗时8小时实现的越发繁杂的Linux体系:

履行了1200多步,完备的桌面、窗口治理器、状况栏、运用步伐、VPN治理器、中文字体撑持、游戏库等……相称在一个4人团队一周的开发事情量。

不能不说,此刻GLM-5.1的每一一次提交,都是具备本色意义的体系级演进。

全主动重写屎山代码

写代码的人都知道,比从零写一个新项目更疾苦的,是重构他人留下的屎山代码。

但此刻有了GLM-5.1,咱们可以把这个使命交给它来处置惩罚了。

例如这段代码就可谓是屎山中的经典:变量名彻底无心义、五层嵌套if、反复计较总及三遍、全局变量处处乱改、函数几百行不拆分……

能运行吗?能运行;恶心吗?也是真恶心。

而于GLM-5.1只需半小时的主动重写以后,一份解释清楚、切合尺度的代码就降生了:

655次迭代,打破向量数据库机能瓶颈

假如说重构代码还有只是把已经有的工具做好,那向量数据库优化,磨练的就是AI自立迭代、连续冲破的能力。

这也也许恰是人类资深工程师最焦点的价值。

于这项测试中,GLM-5.1的需求是优化现有向量数据库的查询机能,尽可能晋升QPS。

随后,它开启了彻底自立的“测试-阐发-优化-再测试”闭环。

每一一轮优化后,它城市自动跑完备的Benchmark,获取QPS、延迟、内存占用等焦点数据,自立阐发机能瓶颈。

终极,于655轮迭代以后,GLM-5.1把向量数据库的查询吞吐从首次交付的3108 QPS一起推到21472 QPS,晋升到初始正式版本的6.9倍。

AI能自力事情多久,成为了新尺度

之以是GLM-5.1此次可以或许炸场,素质上是它踩中了AI行业的下一个焦点赛点:长程使命(Long Horizon Task)能力。

2025年3月,全世界*的AI安全研究机构METR(Model Evaluation and Threat Research)便提出了一个完全转变行业认知的新指标,叫做Task-Completion Time Horizon(使命完成时间线)。

这个指标的焦点思惟是,再也不用做题的正确率来权衡模子有多智慧,而是历时间来权衡它能自力完成多永劫间的人类专家使命。

研究显示,前沿模子的时间线每一7个月就会翻一倍,这条指数曲线,被MIT Technology Review称为“AI范畴最主要的一张图”。红杉本钱更是于2026年头直接宣告:“这就是AGI的焦点标的目的”,并直言:2023-2024年的AI,是只会对于话的“talker”,而2026-2027年的AI,将成为能真正落地干事的“doer”。

而GLM-5.1,是全世界*个于真实工程使命中,验证了8小时连续事情能力的开源模子。

它能于单次使命中,连续、自立地事情长达8小时,历程中自立计划、自立履行、自立测试,碰鼻时自动切换计谋,堕落后自行修复,终极交付完备的工程级结果。

GLM-5.1之以是能做到这一点,焦点源在三个维度的体系性技能冲破:

*,更强的长程计划与方针连结能力。

它能把一个繁杂的年夜方针,拆解为可履行的多阶段规划,而且于长达十几小时、上千步的履行链路中,始终缭绕终极交付方针推进。简朴来讲,就是干到第十步,还有记患上第二步定的端方。

第二,更稳的自顺应纠错与连续履行能力。

它实现了代码编写、东西挪用、情况调试、API对于接等多个环节的不变跟尾,半途堕落时,不会停下来等人工参与,而是会自立查看过错日记、定位问题泉源、修复bug,甚至本身写回归测试用例验证修复效果。

第三,更好的状况延续与上下文整合能力。

面临永劫间跨度、多轮反馈及百万级token的上下文信息,它能不变追踪已经完成的事情、当前所处的阶段及下一步的焦点动作,连续整合新的信息,连结整个履行链路的一致性。

开源模子看中国,更患上看智谱

GLM-5.1的呈现,不仅是模子能力的进级,更改写了全世界年夜模子行业的叙事逻辑。

恒久以来,中国开源模子始终带着追逐者的标签,与美国*闭源模子存于差距,而GLM-5.1完全打破这一场合排场:

它于权势巨子榜单上对于齐Claude Opus 4.6,于SWE-bench Pro等焦点工程指标上实现反超,让中国开源AI于焦点工程能力上与全世界前沿并驾齐驱。

更主要的是,它的厘革远超模子自己,正重构万亿级IT办事市场的底层逻辑。

AI Coding的进化有清楚路径:从步伐员提效东西,到降低代码门坎,再到能自立干事的低级工程师,而GLM-5.1的Long Horizon能力,直接将AI推向能连续事情数小时、交付完备项目的新阶段。

当AI的交付单元从一行代码变为一个完备项目,便打击了整个软件工程的出产瓜葛——4人团队一周的事情量、资深工程师数月的优化使命,它数小时就能完成,这将重构多个行业的订价与人力配置逻辑。

固然,咱们没必要堕入AI会替换步伐员的无谓焦急。就像昔时计较机的普和,没有裁减管帐这个职业,只是裁减了不会用计较机的管帐;AI的到来,也不会裁减开发者,只会裁减不会驾御AI的开发者。

GLM-5.1的呈现,真正给整个行业抛出的焦点问题是:当AI已经经能自立完发展达数小时的繁杂长程使命,实现从计划、履行、纠错到完备项目交付的全闭环时,人类的不成替换性到底于哪里?

谜底也许就是界说问题、创造价值、做出焦点决议计划的能力,究竟这是AI暂时没法替换的焦点护城河。

而对于中国AI行业而言,GLM-5.1只是最先,当开源模子到达全世界*工程能力、AI从对于话者变为履行者,行业势必迎来更完全、更深刻的厘革。

【本文由投资界互助伙伴微信公家号:量子位授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。

-南宫娱乐相信品牌的力量

下载360浏览器