当前位置：网站首页 AI教程资讯正文

谷歌发布Gemini，负责人：原生多模态大模型是AI「新品种」

来源：互联网发布时间：2025-07-08

又是一个不眠之夜，神仙扎堆献技。

当地时间12月6日，谷歌CEOSundarPichAI官宣Gemini1.0版正式上线。在此之前，这款被谷歌寄予厚望对抗OpenAI的武器，发布时间一直被拖延。

未曾料到，来得如此猝不及防。

研发负责人、谷歌DeepMindCEODemisHassabis代表Gemini团队在发布会上正式推出大模型Gemini，它拥有「视觉」和「听觉」，还有学习和推理能力。作为谷歌迄今为止最强大、最全面的模型，在大多数基准测试中，Gemini性能都超越了GPT-4。

Hassabis在发布会前接受连线杂志专访时，将Gemini称为「新AI品种」。

目前，大多数模型都通过训练单独的模块，然后将它们拼接在一起来近似多模态，不足之处在于没办法在多模态空间进行深层复杂推理。

而Gemini最大亮点之一就是原生多模态大模型——设计时就原生支持多模态，要具有处理不同形式数据（语言+听力+视觉）的能力；一开始就在不同模态上进行预训练，利用额外的多模态数据进行微调以提升有效性。

因此，Gemini可以泛化并无缝理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频，远远优于现有（近似）多模态模型，并且它的能力在几乎每个领域都是最强的。

Hassabis透露，谷歌DeepMind已经在研究如何将Gemini与机器人技术结合起来，与世界进行物理交互。毕竟，要成为真正的多模态还需要触摸和触觉的反馈。

这条从未被前人踏过的路，未来可能带来重大新突破。他对连线杂志表示，新的多模态模型将成为智能体、规划和推理、游戏甚至物理机器人快速创新的基础。

除了原生多模态的亮点，谷歌表示，Gemini还是他们迄今为止最灵活的模型，能够高效地运行在数据中心和移动设备等多类型平台上。

Gemini包括三种量级：能力最强的GeminiUltra，适用于多任务的GeminiPro，以及适用于特定任务和端侧的GeminiNano。

目前Gemini提供了三个不同版本

特别是GeminiNano，可以在使用特殊芯片的终端设备上运行，而不是在云端某些服务器上，这样谷歌就可以将生成AI引入遍布世界角落的安卓手机。

同时，在没有网络连接的情况下使用生成AI模型也会让用户感到安全，他们的个人数据不会离开其设备。这也是苹果多年来隐私实践的方向。

Pixel8Pro在录音机应用中使用GeminiNano来总结会议音频，即使没有网络连接也可以实现。

据说，Pixel8Pro将是第一款运行GeminiNano的智能手机。虽然谷歌已将它与Pixel8Pro的操作系统集成，但尚未将其全部功能植入GoogleAssistant。

谷歌副总裁兼BardandAssistant总经理SissieHsiao在新闻发布会上表示，目前正在对这一联姻进行「早期测试」。

写到这里，我们几乎可以嗅到未来在终端，谷歌势必与苹果一战。

接下来几个月，谷歌聊天机器人Bard将迎来重大升级——使用GeminiPro的微调版本来执行更高级的推理、规划、理解等任务。不久的将来，Bard还会扩展到更多模态，支持更多种语言

公司表示，Gemini还将在未来几个月被引入其他谷歌产品，包括生成搜索、广告和Chrome。

最强大版本Ultra的安全测试工作仍在进行中，计划将于明年推出。其在大规模多任务语言理解（MMLU）基准测试中得分为90%，高于包括GPT-4在内的任何其他竞争对手。

不过，谷歌还没有抢尽人工智能的风头。Meta、AMD都凑巧有了新发布。

为了不被超越，虚拟助手MetaAI也在昨晚有了重要更新。

最常用的功能之一Imagine——文本到图像生成功能，现在有了「重新想象」的新能力，将聊天斗图推到新高度：

使用Imagine生成一张图片，你的聊天对象可以按住这张图片，通过简单文本提示进行修改，新功能会生成一张新图片。网友们可以像接龙一样不断修改图片，疯狂搞笑。

Meta还推出了一个免费网络工具ImaginewithMetaAI——一个在线AI图像生成器（https://imagine.meta.com/），可在几秒钟内创建高分辨率的AI图像。它使用公共Facebook数据进行训练。

每一次使用，生成器都会创建四张1280×1280像素图像，可以以JPEG格式保存，图像左下角有一个小小的「ImaginedwithAI」水印。

ScreenshotbyLanceWhitneyviaImagine/ZDNET

来自arstechnica的作品

除了文生图功能，MetaAI的文案能力也有了提升。比如，帮忙撰写生日祝福、帖子甚至交友资料的自我介绍。

MetaAI还推出Reels功能。假如你在群聊中计划与朋友一起去旅行，可以要求MetaAI推荐最佳游览地点并分享热门景点，决定哪些景点是必去的。

现在还能帮忙将图像从横向转换为纵向，更方便分享到文本中。

翻开大模型竞争硬币另一面，是各家深陷的最强算力军备。

发布会上，与Gemini1.0一起亮相的，还有谷歌迄今为止最强大、最高效、可扩展的TPU系统—CloudTPUv5p，专为训练尖端的AI模型而设计，能比TPUv4更快地训练大模型。

谷歌表示，TPU对其在Gemini等尖端模型上进行最大规模的研究和工程工作至关重要。

同样是昨晚，AMD「最强算力」芯片、专为AIGC和大模型场景打造的纯GPU产品InstinctMI300X加速器也隆重亮相。

AMD表示，与英伟达H100HGX相比，InstinctMI300X加速器在运行大语言模型推理时的吞吐量和时延表现明显高出一筹。

AMDMI300X人工智能加速器

AMDCEO苏姿丰预计到2027年，人工智能芯片市场将达到4000亿美元或更多，希望AMD能在该市场占据相当大的份额。

AMD已经与一些最渴望GPU的公司签约使用该芯片，包括2023年NvidiaH100GPU的两个最大买家Meta和微软。

Meta表示，将使用MI300XGPU来处理AI推理工作负载，例如处理AI贴纸、图像编辑和AI助手。

微软首席技术官KevinScott表示，该公司将通过Azure提供对MI300X芯片的访问。

甲骨文的云服务也将使用这些芯片。OpenAI表示，公司开发的GPU编程语言Triton将从接下来的3.0版本开始支持MI300等AMD芯片。

相关信息

谷歌发布Gemini，负责人：原生多模态大模型是AI「新品种」又是一个不眠之夜，神仙扎堆献技。当地时间 12 月 6 日，谷歌 CEO Sundar Pichai 官宣 Gemini 1 0 版正式上线。在此之前，这款被谷歌寄予厚望对抗 OpenAI 的武器，发布时间一直被拖延。未曾料到，来得
AI教程资讯 07-08
AI大模型的十大前景与挑战——解码斯坦福《2024年人工智能指数报告》人工智能在某些任务上胜过人类，但并非在所有任务上；产业界持续主导人工智能前沿研究；前沿大模型变得更加昂贵；AI 让“打工人”更具有生产力…… 图片来源：匡达界面新闻文丨江志强（Vitally AI 创始人） 2
AI教程资讯 07-08
大模型价格普降，互联网式“地盘争夺战”再现大厂真的会亏钱吗？今年年初，长文本领域的竞速，让不少国内大模型企业在“内卷”赛道上露了脸。进入5月，这场没有硝烟的战争“烧”到了最粗暴的阶段——降价。从两家海外AI（人工智能）巨头OpenAI和谷歌，到国内字节跳动、阿里、百度、智
AI教程资讯 07-08

推荐AI教程资讯

小编推荐 +

宙语Cosmos

类型：AI工具浏览器
查看
堆友AI绘画、AI造字

类型：AI工具浏览器
查看
酷虎AI写作

类型：AI工具浏览器
查看
Wisdom AI-AI超级工作流

类型：AI工具浏览器
查看
陌言AI

类型：AI工具浏览器
查看

近期热点 +

AI教程资讯周排行 +

07-08

谷歌发布Gemini，负责人：原生多模态大模型是AI「新品种」又是一个不眠之夜，神仙扎堆献技。当地时间 12 月 6 日，谷歌 CEO Sundar Pichai 官宣 Gemini 1 0 版正式上线。在此之前，这款被谷歌寄予厚望对抗 OpenAI 的武器，发布时间一直被拖延。未曾料到，来得
07-08

AI大模型的十大前景与挑战——解码斯坦福《2024年人工智能指数报告》人工智能在某些任务上胜过人类，但并非在所有任务上；产业界持续主导人工智能前沿研究；前沿大模型变得更加昂贵；AI 让“打工人”更具有生产力…… 图片来源：匡达界面新闻文丨江志强（Vitally AI 创始人） 2
07-08

大模型价格普降，互联网式“地盘争夺战”再现大厂真的会亏钱吗？今年年初，长文本领域的竞速，让不少国内大模型企业在“内卷”赛道上露了脸。进入5月，这场没有硝烟的战争“烧”到了最粗暴的阶段——降价。从两家海外AI（人工智能）巨头OpenAI和谷歌，到国内字节跳动、阿里、百度、智
07-08

怎样让机器具有价值观和常识，是数字大模型最有趣的方向太阳高悬，山川流动，传统山水画技法与石雕、木雕独有的线条融合在一起，呈现出全新的视角。在昨天举行的解放日报第79届文化讲坛上，这幅名为《雕琢山河》的人工智能美术作品令人屏息。这幅画仿佛一个缩影，向人
07-08

2024年中国AI大模型行业市场前景预测研究报告中商情报网讯：近期，以自然语言处理技术为关键的生成式人工智能，在模仿人类理解和创作能力上突飞猛进，成为新一轮科技革命和产业变革的重要驱动力量。基于人工智能领域的深度学习模型，AI大模型能够处理大规模