在AI领域,小型模型正迎来属于它们的高光时刻。从MIT子公司LiquidAI发布的可装入智能手表的新AI视觉模型,到能在谷歌智能手机上运行的模型,小型化、高效化已成为显著趋势。而如今,英伟达也强势加入这一浪潮,带来了全新的小语言模型(SLM)——Nemotron-Nano-9B-v2。这款模型不仅在选定基准测试中达到同类最高性能,更具备让用户自由开启和关闭AI“推理”的独特能力,为AI应用开辟了新的想象空间。
“小”模型从边缘玩具到生产主力
过去三个月,AI圈的“迷你军团”接连亮剑,掀起了一场无声的革命。MIT子公司LiquidAI推出的视觉模型,小巧到能轻松装入智能手表,让可穿戴设备的智能体验迈入新台阶;谷歌则将Gemini-Nano成功塞进Pixel8手机,让移动端AI能力实现质的飞跃;而今,英伟达带着90亿参数的Nemotron-Nano-9B-v2登场,将其部署在单张A10GPU上,再次刷新了人们对小型模型的认知。
这绝非一场“小而美”的技术炫技,而是一次对成本、效率与可控性的精准平衡实验。正如英伟达AI模型后训练主管OleksiiKuchiaev在X上直言:“120亿参数精简到90亿,就是专门为了适配A10——那可是企业部署中最常见的显卡。”
一句话:参数大小不再是衡量模型优劣的KPI,投资回报率(ROI)才是硬道理。
把思维链条做成可计费功能
传统大模型的“黑盒思维”一直是企业使用的痛点——一旦触发长时间推理,token账单就如同脱缰野马般失控。而Nemotron-Nano-9B-v2给出的解法简单直接且高效:
在prompt中加入/think,模型便会启用内部思维链,像人类思考一样逐步推导;加入/no_think,则会直接输出答案,省去中间环节;系统级的max_think_tokens功能,如同AWS的CPUcredit机制,能为思维链设定预算,精准控制成本。
现场实测(官方报告)数据更能说明问题:
一句话:把「推理」从默认能力变成可选项,企业第一次可以像买云硬盘一样,按思考深度付费。
Transformer的「省油」补丁
为何9B模型能在长上下文里打平70B?答案藏在Mamba-Transformer混合架构里:
用Mamba状态空间层替换70%的注意力层,显存占用↓40%;
序列长度与显存呈线性关系,而非平方爆炸;
128ktoken实测吞吐量比同尺寸纯Transformer高2.3×。
一句话:Mamba不是取代Transformer,而是把它改造成省油的混动引擎。
商业核弹:宽松许可证+零门槛商用
英伟达此次在许可协议上的举措堪称“商业核弹”,做到了“三不要”:
不要钱:无版税、无收入分成,企业无需为使用模型支付额外费用;不要谈判:直接下载即可商用,省去了繁琐的合作洽谈流程;不要法务焦虑:仅要求遵守可信AI护栏和出口合规,降低了企业的法律风险。
对比OpenAI的分级许可、Anthropic的使用上限,Nemotron-Nano-9B-v2几乎成了“开源界的AWSEC2”——拿来就能上线赚钱,极大地降低了企业的使用门槛。
场景切片:谁最先受益?
一句话:任何边缘/私有化场景,都多了一张「足够聪明又付得起」的牌。
AI的「精算时代」正式开幕
过去四年,我们见证了scalinglaw的魔法:参数×算力=性能。而今天,Nemotron-Nano-9B-v2用90亿参数告诉我们:架构×控制×许可证=可持续的AI经济。
当LiquidAI把模型塞进手表,当英伟达把推理做成开关,“小”不再是技术上的妥协,而是经过精打细算后的最优解。
下一次融资路演,创业者们或许不会再说“我们比GPT-4更强”,而是会自信地宣称:“我们用1/10的算力,做出了90%的效果,并且还能赚钱。”这标志着,AI的“精算时代”已正式拉开帷幕。
本文来自微信公众号“山自”,作者:Rayking629,经授权发布。