
MiniMax加入视频生成混战,大模型的尽头是做视频?
来源:互联网
发布时间:2025-05-01
又一家国内独角兽加入视频生成模型的混战。8月31日,一向低调的“AI六小龙” 之一——MiniMax第一次正式对外,在上海办了场“MiniMax Link伙伴日”活动。在会上,MiniMax创始人闫俊杰宣布推出视频生成模型和音乐模型。此外,他预告,新⼀版能从速度和效果都对标GPT-4o的大模型abab7,会在未来⼏周内发布。这一视频生成模型的对外名称为video-1,在具体参数上MiniMax并未有太多介绍。闫俊杰提到,相比市面上的视频模型,video-1具有压缩率高、文本响应好和风格多样的特点,可生成原生高分辨率、高帧率视频。目前video-1只提供了文生视频,在未来产品会迭代图生视频、可编辑、可控性等功能。
在大会讨论环节,闫俊杰提到一个点是,大模型是一个看起来很热,但是也有很多非共识的领域,“到底要做2B还是2C,到底做国内还是做海外,Scaling law到底能不能延续……”等等。尽管有这么多非共识,但视频生成或许是今年各大模型厂商的共识。自今年2月OpenAI发布视频大模型sora后,行业叫得上名字的发布不少,4月生数科技发布视频大模型Vidu,6月快手发布AI视频生成大模型可灵,一周后Luma AI发布文生视频模型Dream Machine,Runway在7月初宣布,文生视频模型Gen-3 Alpha向所有用户开放使用,在世界人工智能大会期间阿里达摩院推出寻光,7月底,爱诗科技发布PixVerse V2,随后智谱正式发布清影视频,8月初,字节即梦AI上架应用商店……一年前市面上还很少有面向公众的文生视频模型,短短几个月内我们目睹了几十款视频生成模型的问世,一位行业人士感慨,过去一年对于AI视频生成来说是一个历史性的时刻。在采访中,第一财经记者问及MiniMax布局视频生成的必要性,闫俊杰表示,本质原因是,人类社会的信息更多体现在多模态内容上,“我们每天看的大部分内容,都不是文字,都是一些动态的内容。你打开小红书都是图文,打开抖音都是视频,甚至打开拼多多买东西,大部分时候也是图片。”⽣活中,⽂字交互只是很⼩的⼀部分,更多的是语⾳和视频交互。因此,为了能够有非常高的用户覆盖度,以及更高的使用深度,作为大模型厂商,唯一的办法是能够输出多模态的内容,而不是只是输出单纯的基于文字的内容,闫俊杰解释,这是一个核心的判断。“只是在之前我们先做出来文字,又做出来声音,很早做出来了图片,现在技术变得更强,(可以)把视频也做出来。这个路线是一以贯之的,一定要能做多模态。” 闫俊杰说。但视频生成赛道很难,仅看OpenAI在年初发布Sora后,至今没有正式对外,也可以窥见行业的一些挑战。一方面,目前的视频生成结果远远达不到用户的预期,模型并不懂物理规则,同时生成过程很难控制。视频、图像、三维的生成类算法会遇到很多结构性和细节性问题,如通常会多长出一样东西或者少一样东西,或者手穿模到人身体里,精细化的视频、尤其是具有物理规则的视频目前很难生成。在采访中,闫俊杰也表示“这件事还挺难的”,否则如此多号称做这个事的公司早做出来了。视频的工作复杂度比做文本更难,因为视频的上下文文本天然很长。例如,一个视频是千万的输入和输出,天然就是一个很难的处理。其次,视频量很大,看一个5秒的视频就有几M,但是5秒看的文字大概100个字,可能都不到1K的数据量,这是几千倍的存储差距。“这里面的挑战在于,之前基于文本建的这套底层基础设施怎么来处理数据,怎么来清洗数据,以及怎么来标注,对视频上都不太适用。”闫俊杰认为,基础设施需要升级,其次就是耐心,做文字有很多开源,如果基于开源来做,自己研发会更快,如果做视频,开源内容没那么多,很多内容做出来也会发现需要重做,需要付出的耐心更大。此前有行业从业者对记者表示,目前的视频生成有点像图像生成的2022年前夕,2022年8月Stable Diffusion开源后,AIGC图像生成开始爆发,但视频生成领域目前还没有一个特别厉害的“开源Sora”发布,大家还需要探路。启明创投在7月发布了 “2024生成式AI十大展望”,其中一条是,3年内视频生成将全面爆发,他们认为,结合3D能力,可控的视频生成将对影视、动画、短片的生产模式带来变革。未来图像和视频隐空间表示的压缩率提升五倍以上,从而使生成速度提升五倍以上。

相关信息
-
MiniMax加入视频生成混战,大模型的尽头是做视频? 又一家国内独角兽加入视频生成模型的混战。 8月31日,一向低调的“AI六小龙” 之一——MiniMax第一次正式对外,在上海办了场“MiniMax Link伙伴日”活动。在会上,MiniMax创始人闫俊杰宣布推出视频生成模型和音乐模型。
AI教程资讯 05-01
-
百度副总裁:大模型领域有人在挂羊头卖狗肉 快科技9月1日消息,在2024亚布力企业家第二十届夏季年会期间,百度副总裁石清华指出,目前大模型领域存在两种不良现象。 其中之一便是一些非技术专家在该领域进行“挂羊头卖狗肉”的行为,这不仅干扰了企业主的
AI教程资讯 05-01
-
中美AI差距有没有10年?这场大会上,大咖们这样说 近日,“2024亚布力企业家第二十届夏季年会”在广州市成功举行。大模型作为近两年最火热的科技赛道之一,自然也是企业家们在这届夏季年会上关注的焦点。 当前,大模型在金融、医疗、教育等多个产业落地应用,成
AI教程资讯 05-01
推荐AI教程资讯
-
美国多家航空公司采用AI技术优化运营 05-01
-
想去大厂上班吗?先过AI面试这一关 05-01
-
大厂不想你有 AI 女友 05-01
-
一张价值50元的人脸,AI攻防战火热朝天 05-01
-
美媒:人工智能芯片全球分布不平衡 05-01