当前位置: 网站首页 AI教程资讯 正文

中国AIGC产业联盟 x 无界AI:中国AIGC文生图产业白皮书

来源:互联网 发布时间:2025-07-17

AIGC系列深度研究报告:《AIGC专题:中国AIGC文生图产业白皮书》

(报告出品方:中国AIGC产业联盟x无界AI)

人工智能生成内容(AIGC)风靡全球

AIGC,即ArtificialIntelligenceGeneratedContent,人工智能生成内容。它是生成式AI(GenerativeAI)技术所激发的新一轮内容创作者经济浪潮;让人人都可以简易、便捷、低成本地借助AI的力量完成文本、图片、视频、音频等多媒体内容的高效高质量生产;是对以短视频、自媒体等为代表的大规模UGC(用户生成内容)经济的进一步范式升级,故称“AIGC”。AIGC擅长制造和传播爆款内容,尤以图片、视频等视觉形态最为突出。

AIGC就在身边:新西湖、古良渚、古温州

AI“新西湖”全名为《新西湖繁盛全景图》,由人类画师与AIGC共同参与完成。主要用到三项主流的AI绘画技术:线稿上色(controlnetLineart)、无限拓展(Outpainting)、建筑模型训练(Dreambooth&Lora)等。创作方将该作品的使用权无偿捐赠给杭州市贸易促进会、中国国际动漫节执行委员会、杭州西湖风景名胜区管委会、杭州万事利丝绸文化股份有限公司、杭州灵伴科技有限公司(Rokid)等多家单位和企业以共创、推广杭州文化,共享AI作品版权。

AI“古温州”,则以温州朔门古港遗址的资料为基础,以“千年商港,未来温州”为主题,借助AI工具为古港遗址勾勒出了一幅“东方威尼斯”繁华景象。2023年3月29日,这幅图片刊登在温州日报,成为温州日报“商周刊·文博”板块元宇宙主题报道的靓丽一笔。

案例虽小,管中窥豹,可见一斑。从2022年至2023年,国内AI绘画产业正是从这样微小的案例开始了举世瞩目的产业应用浪潮,从最初的静态图片走向复杂、交互式的AIGC产业应用场景。

2022遇见AIGC的序章:AI文生图

2022年春,国内掀起的AI艺术热潮源于海外A技术在图像生成领域的革命性进步,以DiscoDiffusion、StableDiffusion、Midjourney等为头部代表的扩散模型(DiffusionModel)开始在数字艺术领域大放异彩!这一关键节点要早于随后大火的ChatGPT以及大模型(LLM)风口。因此可以认为,国内第一批全民级大规模参与AIGC活动的用户群来自AI绘(即文生图)领域。

AI文生图的艺术质量呈现出指数级进化速度

故事始于2022年春天,DiscoDiffusion的开源打开了AI绘画的浪潮之门——

2022年4、5月份:AI绘画只擅长抽象之美或者色彩美学,以令人“眼花缭乱”的色彩涂抹构图向世人展示出AI艺术的别样魅力。这段时期人们常用的工具是DiscoDiffusion以及Midjourney初代版本。

2022年6、7、8月份:AI绘画开始集中突破绘画的逻辑性和质量,可以逐步写实、产出具有艺术性的作品。这段时期以Midjourney为主要工具代表。

2022年9月份:AI绘画最重要开源力量StableDiffusion成为社区大热门,且凭借成本低、高质量、高逻辑性、更强的通用绘制能力以及快速生成等优势迅速占领市场,AI绘画的艺术质量和逻辑能力开始进入“飞轮式”发展,且Midjourney也开始引入其开源技术。

2022年10、11月份:AI绘画的第一个现象级潮流“二次元模型”横空出世,以NovelAI等开源产品和力量为突出代表,进一步蔓延到整个StableDiffusion社区,更多的开源模型和产品加入到这个队伍中,生态力量开始形成。二次元模型的高质量性和现实影响力也令世人展开了对AI绘画版权的争议。11月份,国内AI绘画第一波大浪潮启动,抖音迅速推出的“抖音AI绘画(二次元)”流量成功辐射数以千万计网民,国内第一波千万级AI绘画用户群形成。2022年12月份:紧接着二次元浪潮,人们仿佛打开了“通往异次元的大门”,开始让三次元、2.5次元照进AI绘画,于是新一波浪潮“AI真人模型”形成。传统互联网上充斥着大量由AI生成的“美女”、“真实场景”、“平行时空新闻”等新形态内容。与此同时,闭源力量Midjourney也几近AI绘画的艺术巅峰,各行业的大量设计师与内容工作者群体开始用Midjourney生成极高质量且满足现实生产需求的AI图片。

2023年至今:AI绘画在极高质量、通用逻辑能力、细节完美度以及精准控制层面已经开始大范围“侵蚀”各行各业的生产与消费过程,各产业以及互联网都到处充斥着AI生成的内容。第一波AI大范围赋能产业的共识正逐步形成。StableDiffusion生态力量和Midjourney产品力成为当下人们唯二选择。

2023年AI文生图“侵蚀”的商业版图:实用性AI绘画时代到来

我们在2022年曾预测,2023年数以亿计的AIGC内容将充斥着整个互联网,绝大多数网民在刷抖音或者小红书时都会在不知不觉中浏览到AIGC内容,占比可能达到5~10%;以小红书平台为例,都会将疑似AI生成的内容打上“疑似包含AI创作信息,请注意甄别真实度”的标签以供用户警惕。一时间,泛娱乐场景成为AI文生图商业化的“第一阵地”。

面对AI绘画一年来指数级的进化速度,2023年AI绘画正式开启“全面商用”时刻。从多样性的艺术维度冲击多样性的行业商业,在流量平台等虚拟内容经济的加持下,数以千万甚至上亿计的互联网用户群深受其影响。其中以“摄影模型”和“真人模型”等为代表的“真实世界模型”对现实世界的冲击最为显著,包含商业应用、泛娱乐消费甚至诸多负面影响。

AI文生图模型阵营及简史

一切都始于CLIP开源,CLIP是一个通过自然语言监督有效地学习视觉概念的神经网络。通过使用CLIP可将文本和图像连接在一起。

CLIP(ContrastiveLanguage–ImagePre-training)是文本和图像对照的预训练模型,数据集使用的是LAION-400M,包含4亿组从互联网上收集的文本图像对。文本编码器提取文本特征,图像编码器提取图像特征,两个放到一起对比相似度,从而让AI“掌握”文本图像的匹配关系。

开源之王中国AIGC文生图产业白皮书StableDiffusion的模型风格化细分及其生态占比

2022年8月,AI绘画最为重要的开源力量StableDiffusion正式向全世界开放其模型代码、训练数据集、生产内容的版权归属协议。完全自由的开源运动激起了全世界开发者、创业者、产业公司和普通爱好者的热忱,在短短半个月时间内,SD的谷歌搜索趋势彻底超越大名鼎鼎的DALL·E,成为人们谈论AI绘画不可规避的话题。SD的开源也令AI巨头们倍感震惊。

2022年,StableDiffusion的开源发布由两大公司实体驱动,分别是Stability.Ai和RunwayML。二者共同促进了SD大版本的成功。

截止2023年7月份,Stability.Ai已将SD开源版本迭代至StableDiffusionXL1.0(SDXL1.0)。

SD所基于的开创性的“潜在空间”(LatentSpace)技术将扩散模型(DiffusionModel)再次推上新的台阶,是AI绘画走向大规模商用化的关键一步(如latent空间让快速生成高分辨率图像成为可能,对比之下,过往的DALL-E2和GoogleImagen则是基于传统的pixel空间)。

StableDiffusion重要开源技术路线:全民训练,无尽的模型生态

仅依靠SD官方基础版本大模型并不足以产生五彩缤纷的AI绘画体验,它只是一个基础的“通用底子”,需要更多开发者在其之上进行更多样化、更高质量的风格化训练。便有了以模型广场、精准控制、训练框架为代表的开源模型生态的繁荣。可以适配千行百业的垂直模型开始涌现,同时也造就了行业应用AI的场景涌现。

实现AIGC精准创作的“利刃”:ControlNet

2023年初,StableDiffusion生态重要控制组件ControlNet横空出世,给出了一条完美解决AI绘画发展进程中“精准控制”难题的道路。

该开源技术使用了一种称为“ConditionalGenerativeAdversarialNetworks”(条件生成对抗网络)的技术来生成图像,与传统的生成对抗网络不同,ControlNet允许用户对生成的图像进行精细的控制。

例如它将传统意义上的【设计】抽象分解为AI或者计算机视野下的【线/轮廓】、【深度】、【语义】、【姿势】等众多基础原子操作。根据应用场景,随心所欲地组合这些基本原子和元素,实现绘制的整体可控性和对大千世界通用场景的绘制。

腾讯AI实验室开源推出的IP-Adapter模型为Controlnet生态做出了突出贡献,可识别参考图的风格和内容,然后生成相似的作品,且可搭配其他控制器使用。

报告共计:48页

相关信息