菜单
首页财产ai正文 Token 中文名暗地里的 AI 底层认知之争 天下科学技能名词核定委员会保举将人工智能范畴“Token”译为“词元”并试用,本文从多维度阐发,认为“符元”于观点一致性等方面更具上风。 2026-04-09 13:30 ·微信公家号:王子健王子健 AI投资人解读· 文章从多维度切磋“Token”译名的合理性,指出“词元”虽简便但易激发曲解,“符元”更契合其跨模态素质,能防止术语冲突,于回译等方面具上风。· 人工智能技能快速成长,术语定名需正确反应其素质。若定名不妥,可能拦阻行业认知与交流。总结:“符元”于定名的科学性、不变性及跨语言一致性上更优,能为人工智能范畴构建更坚实的认知基础,建议优先采用。内容由AI天生,仅供参考
近日,天下科学技能名词核定委员会发布通知布告,保举将人工智能范畴中的“Token”译为“词元”,并面向社会试用。随后,人平易近日报发文《专家解读token中文名为什么定为“词元”》,对于这一定名从专业角度举行了体系阐释。
文中提到,“token”一词源在古英语 tācen,意为“符号”或者“标志”。于语言模子中,token是文本颠末切分或者字节级编码后获得的最小离散单位,既可以体现为词、子词、词缀或者字符等差别情势。模子恰是经由过程对于token序列的建模,揭示出必然的智能能力。
这一译名于专家论证系统中被认为切合单义性、科学性、简明性与协调性原则,也于当前中文语境中具有必然的利用基础。然而,于浏览相干解读后,我对于这一定名路径形成为了差别的理解。
从规范化角度看,这必然名方案于短时间内具备可理解性与流传上风。但如果从计较本体、信息布局、多模态演进和回译一致性等维度审阅,其持久适配性仍有待进一步查验。于这一配景下,一个一样值患上存眷的替换路径——“符元”——逐渐闪现出更强的布局一致性与跨语境不变性。
界说的错位:不克不及用“发源”替换“素质”
文章不雅点(中国科学院计较技能研究所研究员陈熙霖):Token于人工智能中的初始脚色是“语言基本语义单位”,是以“词元”可以或许更贴合其素质。
这一判定于汗青语境中具备合理性,但于技能范式年夜跃迁确当下,这类思维素质上是一种“学术按图索骥”。
于术语界说的逻辑层面,必需严肃区别“初始运用场景”与“布局素质属性”。
Token 确凿发源在天然语言处置惩罚(NLP),但于 AGI 的进化路径中,它早已经冲破了语言模子的界限,演化为同一处置惩罚文本、图象、语音以致物理旌旗灯号的基础单位。于现代计较系统中,Token 真实的布局本体是“离散符号单位”,而非单一模态的语言单元。
假如按“初始脚色”命名,计较机(Computer) 至今应该叫 “电子计较手”(源在其最初取代人工计较员的本能机能);互联网(Internet) 应该叫 “暗斗军用网”。这类定名逻辑的致命伤于在:它只看到了技能于特定汗青时刻的“姑且工种”,却纰漏了其超过时代的“物理本体”。
汗青路径不克不及等同在素质属性。一样,咱们也不克不及由于Token最初被用在处置惩罚文字,就将其*锁定于“词”的局促语境中。
用“初始运用场景”来界说基础观点,素质上是用汗青的路径依靠替换告终构的本体本相。这类界说于技能初期也许能提供理解便当,但于多模态发作的范式扩大阶段,它会迅速掉效并成为拦阻认知的镣铐。比拟之下,「符元」直接对于齐了跨模态计较的符号本体,它界说的不是Token的“已往”,而是Token的“本相”。
类比的界限:注释一旦酿成界说就会最先偏离
文章不雅点(清华年夜学计较机系副传授东昱晓):可以经由过程“词云”“词袋”等类比,将多模态中的离散单位理解为“广义的词”。
东昱晓传授的类比有助在理解,但不该替换界说。这一思绪于注释层面具备必然开导性,但如果进一步上升为定名依据,则可能激发观点层面的领域错位。
从要领论上看,类比的作用于在降低理解门坎,而界说的职责于在规定语义界限。当“词”被扩大以笼罩图象块(patch)、语音片断、向量暗示(embedding)以致更广泛的感知旌旗灯号时,其原本的语言属性已经被不停稀释,语义界限趋在恍惚。这类由“类比驱动”的扩大路径,于短时间内可以维持注释的一致性,但于持久演化中轻易造针言义漂移。
于跨模态扩大能力上,需要警惕“类比”向“界说”的滑移。于术语核定的语境中,必需区别“注释性隐喻”与“本体性界说”的界限,防止前者对于后者形成替换。
一个更直不雅的比照是:于科普语境中,咱们可以将灯胆类比为“人造太阳”,以加强理解的直不雅性;但于科学定名系统中,不成能据此将电流单元“安培”(Ampere)从头定名为“光元”。前者属在描写性表达,后者则触及严酷的器量系统与尺度化界说,两者不成混用。
一样地,“词云”“词袋”等术语素质上属在描写性或者统计性隐喻,其功效于在帮忙理解数据布局或者漫衍形态;而Token作为年夜模子中的基础计量单位,已经深度嵌入算力计费、模子练习与学术器量系统之中。当其利用范围到达日均百亿至万亿级挪用量时,其定名所承载的已经不只是注释功效,更是一个具备工程与尺度意义的基础观点。于这一层面上,术语更需要对于齐其本体属性,而非依靠类比延展。
假如将这类类比逻辑进一步推至定名层面,实在隐含着一个伤害条件:既然人们已经经习气用“词”来理解Token,那末没关系继承沿用这一类比。但这现实上是一种路径依靠的延续——用既有认知的便当,替换对于观点本体的校订。于这一意义上,这类定名更靠近在一种“语言学上的浪漫主义”,而非对于计较本体的严酷对于齐。
咱们不克不及由于“马力”带有“马”,就要求于机电中会商“电子马”。类比可以开导理解,但不克不及界说尺度。
比拟之下,“符”作为更为中性的观点,自然具有跨模态适配能力,不依靠分外注释便可笼罩文本、图象、语音等多种信息形态。是以,以“符号单位”为焦点的定名路径,于界说层面更靠近Token的布局素质。于这一逻辑下,“符元”作为对于应译名,具有更高的观点一致性与持久适配性。
认知的价钱:当语义锚点制造体系性曲解
文章不雅点(综合专家定见): “词元”表述简便,切合中文习气,易在流传。
这一判定于流传层面具备必然合理性,但其隐含条件是:公家可以或许接管“词”的跨模态类比。然而,类比素质上是一种专家思维东西,而非公共的天然认知方式。对于在平凡用户而言,“词”具备极强的语义锚定效应——一旦听到“词”,其直觉指向一定是语言体系,而非图象、声音或者动作等其他模态。这一认知路径并不是技能问题,而是认贴心理学层面的不变布局。
于此基础上,当“词”被扩大为所谓“广义的词”时,现实上已经经于用户认知中制造了误差。用户起首形成的是“词=语言单元”的直觉理解,而非“跨模态符号单位”的抽象观点。一旦这类曲解被成立,后续所有注释都将酿成对于既有认知的批改,而非天然理解的延长。
例如,当媒体报导“模子利用了10万亿词元练习”,公家很轻易将其理解为“浏览了年夜量文本”,而纰漏此中包罗的年夜量图象、语音与其他模态数据。这类曲解并不是个例,而是由术语自己的语义锚定所孕育发生的体系性诱发。
于现实工程语境中,这类定名还有可能带来跨学科沟通的磨擦。当视觉模子或者语音模子中的离散单位被称为“词”时,不仅轻易激发语义曲解,也会于差别范畴之间制造没必要要的语言冲突。多模态体系需要的是“符号层”的同一,而非语言领域的扩大。
相较而言,“符”作为更抽象的观点,虽然初始理解门坎略高,但其语义指向越发中性,不会将认知预先锁定于语言层。于持久利用中更有益在成立不变、同一的认知框架,从而降低总体注释成本,并为多模态同一提供更不变的认知基础。
定名的成本其实不发生于界说之时,而是发生于改正之时;一旦初期定名形针言义锚定,后续认知修复的价钱将呈指数级上升。
专家可以经由过程类比扩大“词”的界限,但公共不会以类比理解观点。定名不是为专家办事,而是为整个时代的认知体系卖力。
单义性的幻觉:当一个词试图承载两个别系
文章不雅点(名词核定原则): “词元”切合单义性原则,有助在解决译法杂乱问题。
于术语单义性方面,需要尤其存眷“一词两义”可能激发的体系性危害。于科学名词核定中,“单义性”是基础性原则之一。一个术语假如需要依靠语境或者分外注释才能区别寄义,那末它作为尺度件的价值就已经经损失。
然而,从现有学术系统来看,这一判定仍存于进一步会商空间。“词元”一词于语言学与天然语言处置惩罚(NLP)范畴早已经“名花有主”,于经典语言学中,其持久对于应的英文观点为 Le妹妹a,即词的规范原形(例如 is/am/are 的词元为 be)。这一用法于语言学与NLP基础教材和学术论文中已经形成不变共鸣。
于此配景下,若将 Token 一样译为“词元”,则于详细表达中轻易孕育发生语义冲突,会呈现灾害性的现场。
例如,于描写“NLP中的词形还有原操作(le妹妹atize a token)”时,中文表述将呈现“对于‘词元’举行‘词元化’”的布局。这类表达不仅增长理解成本,也会于学术写作与信息检索中引入歧义,使读者难以区别“词元”毕竟指向被切分的离散单位,还有是词的规范原形。
从观点功效上看,两者亦存于明确区别:Le妹妹a夸大的是语言层面的“还有原”,对于应词形变化后的规范表达;而Token夸大的是计较历程中的“切分”,对于应模子处置惩罚信息时的最小离散单元。这类“还有原”与“切分”的差异,正对于应语义层与符号层的差别维度。
是以,当一个术语需要经由过程“广义化”来同时笼罩多个既有观点时,其单义性现实上已经转化为“注释层面的同一”,而非“语义层面的不变”。
当一个术语需要经由过程注释来维持同一时,其作为尺度术语的不变性,往往已经经最先摆荡。
比拟之下,“符元”于现有术语系统中不存于语义冲突。一方面,它保留了Token作为离散符号的本体属性;另外一方面,也防止了与Le妹妹a既有译名的堆叠,从而于语义清楚性与系统一致性方面体现出更高的不变性。
本体的回归:Token素质上是“符号”,而非“词”
文章不雅点(通用注释): Token是语言模子顶用在处置惩罚文本的最小单元。
这一表述于功效层面是建立的,但仍逗留于“怎样利用”的层级,而未涉及其于计较理论中的本体属性。从信息论与计较理论的角度看,计较体系所处置惩罚的基本对于象并不是“词”,而是“符号”(symbol)。
这一点可以从两个层面进一步理解:
一方面,于信息论视角下,信息的素质于在消弭不确定性,其器量单元为比特(bit),其承载实体是离散符号。符号其实不体贴语义内容,而仅与几率漫衍与编码布局相干;
另外一方面,于计较实现层面,年夜模子底层其实不“识字”,其处置惩罚对于象是离散的索引暗示(ID)。不管这一ID对于应的是一个汉字、一个图象块,还有是一个音频采样点,于计较历程中均以同一的符号情势介入运算。
于这一框架下,恰是由于其素质位在“符号层”,而非“语义层”。符号自己其实不承载语义,而是作为编码与计较的基本载体存于。
将Token定名为“词元”,于必然水平上引入了语言语义层的隐含指向,使这一原本处在符号层的观点被从头拉回到以语言为中央的理解路径之中。这类定名方式可能于注释层面提供直不雅性,但于理论层面目面貌易恍惚“符号计较”与“语义理解”的界限。
比拟之下,“符元”于观点上连结在符号层以内。一方面,它正确反应了Token作为离散符号的计较属性;另外一方面,也防止将语义特性引入本体界说,从而更切合信息论与计较理论的基本框架。
从更广泛的视角看,跟着人工智能体系不停向多模态与通用智能演进,基础观点的定名若可以或许直接对于齐其数学与计较本体,将更有益在构建不变、可扩大的认知系统。于这一意义上,以“符号单位”为焦点的定名路径,不仅是语言选择问题,更是对于计较素质的一种一致性表达,而“符元”恰是于这一框架下的天然对于应。
从符号层出发界说观点,是对于计较素质的对于齐;从语义层出发定名观点,则更靠近在注释而非界说。
语言的断裂:回译机制中的映照掉效
文章不雅点(综合解读): “词元”已经于中文学术界逐渐形成利用基础,具有必然流传上风。
于跨语言语境下,需要警惕术语“回译断裂”所带来的体系性影响。权衡一个科技能语是否具有持久生命力,不仅取决在其于中文语境中的表意能力,更取决在其可否于国际学术系统中实现不变映照。抱负的术语该当具有“可逆性”,即于差别语言之间可以或许实现语义上的一致来回。
上述判定反应了“词元”于本土语境中的可接管性,但从跨语言角度来看,仍存于进一步会商空间。假如一个术语仅于单一语言系统中建立,而没法于国际语境中形成不变对于应瓜葛,则可能于学术交流中引入分外的理解成本。
详细而言,“词元”于回译历程中缺少清楚、*的对于应路径。当其被还有原为英文时,往往会于多个类似观点之间孕育发生不合:例如“word unit”缺少严酷的学术界说,“morpheme”对于应语言学中的语素,“lexeme”则指向词位。这些观点均没法正确笼罩Token于计较语境中的寄义,反而会引入领域偏移。
比拟之下,“符元”可以较为天然地对于应“symbolic unit(符号单位)”。这一律念于信息论、离散数学以和多模态表征等范畴中具备明确的理论基础与不变用法,可以或许于差别语境之间连结一致的语义指向。是以,于中英文之间更易形成一对于一的映照瓜葛。
从实践角度看,术语一旦进入学术论文、技能文档与国际交流场景,其回译能力将直接影响表达效率与理解正确性。假如一个术语需要经由过程分外注释才能完成跨语言转换,其持久利用成本将连续累积。
是以,于跨语言系统中,“词元”所面对的重要问题于在映照路径的不不变,而“符元”则于语义对于应与观点一致性方面体现出更高简直定性。于人工智能日趋全世界化的配景下,选择具有优良回译特征的术语,将更有益在构建开放、可互通的学术与技能系统。
术语的国际可逆性,素质上是其是否具有持久学术生命力的要害标尺。
同一的误区:情势一致不等在布局一致
文章不雅点(综合专家定见): “词元”于表达气势派头上与“嵌入”“留意力”等术语连结一致,简便、抽象,切合中文技能语境。
结论先行:术语系统的同一,应成立于“观点同构”之上,而非“语言同形”。
于“词元”的撑持论证中,一个常见理由是:其表达气势派头与“嵌入”“留意力”等术语连结一致,简便、抽象,切合中文技能语境。这一理由捉住了术语体系需要同一性的真实需求,但问题于在——假如同一仅逗留于语言层面,而非布局层面,就会从“秩序”滑向“错觉”。
“嵌入”(embedding)与“留意力”(attention)之以是成为不变术语,是由于它们对于应明确的计较布局:前者是向量映照,后者是权重机制,其定名直接指向计较素质。而“词元”则属在注释人命名,其合理性依靠在“广义词”的类比框架。一旦离开注释,这一定名自己其实不具有自洽的布局指向。
这类差异带来一个要害问题:情势一致,语义偏移。
前者降低表告竣本,后者保障认知不变。若优先寻求“语言同形”,繁杂性不会消散,而是转移为持久的认知承担;只有成立于“观点同构”基础上的定名,才能于跨语境与多模态演进中连结不变。
当“嵌入”“留意力”“词元”并列呈现时,轻易形成“观点同层”的错觉。但现实上,前二者是机制,后者是对于象;前二者具有严酷界说,后者则依靠语境注释。这类布局不合错误齐,会于认知系统中埋下隐性断裂。
更主要的是,当一个基础观点的定名依靠在类比而非布局界说时,其影响不会逗留于单一术语以内,而会向整个术语系统扩散。当后续观点试图缭绕这一定名睁开时,将不能不不停经由过程注释来维持一致性,从而形成隐性的布局性错位。
于这一意义上,“符元”提供了一种更靠近底层布局的表达路径。它直接指向计较体系中的基本对于象——符号(symbol),无需依靠类比注释,便可于差别语境中连结一致。
术语,不只是标签,而是认知的进口。好的术语让注释逐渐消散,差的术语让解释不停增长。当基础观点偏离布局,术语系统就只能依赖注释维持,而没法依赖界说自洽。
结语
从素质上看,术语的选择其实不仅是语言问题,而是对于一个范畴认知布局的初期塑形。一旦定名于初始阶段偏离其布局本体,后续系统只能经由过程不停注释来维持运转,而难以形成自洽的观点收集。
于人工智能迈向通用化与多模态交融的历程中,一个可以或许对于齐计较本体、具有跨语境不变性的术语,将更有可能成为持久有用的认知基石。于这一意义上,以“符号单位”为焦点的定名路径,于统筹技能素质与认知清楚度方面,出现出更平衡的适配性。
【本文由投资界互助伙伴微信公家号:王子健授权发布,本平台仅提供信息存储办事。】若有任何疑难,请接洽(editor@zero2ipo.com.cn)投资界处置惩罚。
-南宫娱乐相信品牌的力量