当前位置: 网站首页 AI教程资讯 正文

谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」

来源:互联网 发布时间:2025-07-08

又是一个不眠之夜,神仙扎堆献技。

当地时间12月6日,谷歌CEOSundarPichAI官宣Gemini1.0版正式上线。在此之前,这款被谷歌寄予厚望对抗OpenAI的武器,发布时间一直被拖延。

未曾料到,来得如此猝不及防。

研发负责人、谷歌DeepMindCEODemisHassabis代表Gemini团队在发布会上正式推出大模型Gemini,它拥有「视觉」和「听觉」,还有学习和推理能力。作为谷歌迄今为止最强大、最全面的模型,在大多数基准测试中,Gemini性能都超越了GPT-4。

Hassabis在发布会前接受连线杂志专访时,将Gemini称为「新AI品种」。

目前,大多数模型都通过训练单独的模块,然后将它们拼接在一起来近似多模态,不足之处在于没办法在多模态空间进行深层复杂推理。

而Gemini最大亮点之一就是原生多模态大模型——设计时就原生支持多模态,要具有处理不同形式数据(语言+听力+视觉)的能力;一开始就在不同模态上进行预训练,利用额外的多模态数据进行微调以提升有效性。

因此,Gemini可以泛化并无缝理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频,远远优于现有(近似)多模态模型,并且它的能力在几乎每个领域都是最强的。

Hassabis透露,谷歌DeepMind已经在研究如何将Gemini与机器人技术结合起来,与世界进行物理交互。毕竟,要成为真正的多模态还需要触摸和触觉的反馈。

这条从未被前人踏过的路,未来可能带来重大新突破。他对连线杂志表示,新的多模态模型将成为智能体、规划和推理、游戏甚至物理机器人快速创新的基础。

除了原生多模态的亮点,谷歌表示,Gemini还是他们迄今为止最灵活的模型,能够高效地运行在数据中心和移动设备等多类型平台上。

Gemini包括三种量级:能力最强的GeminiUltra,适用于多任务的GeminiPro,以及适用于特定任务和端侧的GeminiNano。

目前Gemini提供了三个不同版本

特别是GeminiNano,可以在使用特殊芯片的终端设备上运行,而不是在云端某些服务器上,这样谷歌就可以将生成AI引入遍布世界角落的安卓手机。

同时,在没有网络连接的情况下使用生成AI模型也会让用户感到安全,他们的个人数据不会离开其设备。这也是苹果多年来隐私实践的方向。

Pixel8Pro在录音机应用中使用GeminiNano来总结会议音频,即使没有网络连接也可以实现。

据说,Pixel8Pro将是第一款运行GeminiNano的智能手机。虽然谷歌已将它与Pixel8Pro的操作系统集成,但尚未将其全部功能植入GoogleAssistant。

谷歌副总裁兼BardandAssistant总经理SissieHsiao在新闻发布会上表示,目前正在对这一联姻进行「早期测试」。

写到这里,我们几乎可以嗅到未来在终端,谷歌势必与苹果一战。

接下来几个月,谷歌聊天机器人Bard将迎来重大升级——使用GeminiPro的微调版本来执行更高级的推理、规划、理解等任务。不久的将来,Bard还会扩展到更多模态,支持更多种语言

公司表示,Gemini还将在未来几个月被引入其他谷歌产品,包括生成搜索、广告和Chrome。

最强大版本Ultra的安全测试工作仍在进行中,计划将于明年推出。其在大规模多任务语言理解(MMLU)基准测试中得分为90%,高于包括GPT-4在内的任何其他竞争对手。

不过,谷歌还没有抢尽人工智能的风头。Meta、AMD都凑巧有了新发布。

为了不被超越,虚拟助手MetaAI也在昨晚有了重要更新。

最常用的功能之一Imagine——文本到图像生成功能,现在有了「重新想象」的新能力,将聊天斗图推到新高度:

使用Imagine生成一张图片,你的聊天对象可以按住这张图片,通过简单文本提示进行修改,新功能会生成一张新图片。网友们可以像接龙一样不断修改图片,疯狂搞笑。

Meta还推出了一个免费网络工具ImaginewithMetaAI——一个在线AI图像生成器(https://imagine.meta.com/),可在几秒钟内创建高分辨率的AI图像。它使用公共Facebook数据进行训练。

每一次使用,生成器都会创建四张1280×1280像素图像,可以以JPEG格式保存,图像左下角有一个小小的「ImaginedwithAI」水印。

ScreenshotbyLanceWhitneyviaImagine/ZDNET

来自arstechnica的作品

除了文生图功能,MetaAI的文案能力也有了提升。比如,帮忙撰写生日祝福、帖子甚至交友资料的自我介绍。

MetaAI还推出Reels功能。假如你在群聊中计划与朋友一起去旅行,可以要求MetaAI推荐最佳游览地点并分享热门景点,决定哪些景点是必去的。

现在还能帮忙将图像从横向转换为纵向,更方便分享到文本中。

翻开大模型竞争硬币另一面,是各家深陷的最强算力军备。

发布会上,与Gemini1.0一起亮相的,还有谷歌迄今为止最强大、最高效、可扩展的TPU系统—CloudTPUv5p,专为训练尖端的AI模型而设计,能比TPUv4更快地训练大模型。

谷歌表示,TPU对其在Gemini等尖端模型上进行最大规模的研究和工程工作至关重要。

同样是昨晚,AMD「最强算力」芯片、专为AIGC和大模型场景打造的纯GPU产品InstinctMI300X加速器也隆重亮相。

AMD表示,与英伟达H100HGX相比,InstinctMI300X加速器在运行大语言模型推理时的吞吐量和时延表现明显高出一筹。

AMDMI300X人工智能加速器

AMDCEO苏姿丰预计到2027年,人工智能芯片市场将达到4000亿美元或更多,希望AMD能在该市场占据相当大的份额。

AMD已经与一些最渴望GPU的公司签约使用该芯片,包括2023年NvidiaH100GPU的两个最大买家Meta和微软。

Meta表示,将使用MI300XGPU来处理AI推理工作负载,例如处理AI贴纸、图像编辑和AI助手。

微软首席技术官KevinScott表示,该公司将通过Azure提供对MI300X芯片的访问。

甲骨文的云服务也将使用这些芯片。OpenAI表示,公司开发的GPU编程语言Triton将从接下来的3.0版本开始支持MI300等AMD芯片。

相关信息