AI生图应用，未来是“无限宽广”吗？

发布时间：2023-12-11 15:53 分享到：

AI扩图又出圈了。

近日，剪映推出“智能扩图”功能后，让“废片”秒变“大片”的短视频登上抖音挑战榜高位。正当网友准备借此“拯救”相册里的照片时，却发现画风逐渐走偏，甚至把人扩成了树干，让人直呼“惊掉下巴”。

网络视频截图

AI扩图不算新鲜话题。7月，美图秀秀“AI扩图”功能上线，引起AI扩图的第一次出圈。在此之前，妙鸭相机APP以能够AI生成肖像写真而风靡一时。

自ChatGPT后，人们对AI相关应用的关注，多以图片生成类应用引发。借用剪映“智能扩图”的广告语“可以用AI让一张单调的照片变得无限宽广”，AI图片生成类应用的未来也是无限宽广吗？

图片社交

从事新媒体工作的乐乐，对每天的互联网热点十分熟悉。当她看到抖音忽然给她推了不少“AI扩图”相关视频时，她马上去试了试，觉得好玩又好笑：“它会给我带来惊喜，不管是图片的正常延伸，或者产生的一些滑稽搞笑图片，让我感觉有一种开盲盒的乐趣。”

早期的AI在国内，对不少用户而言是一种看不见，摸不着的新技术。尽管AI机器人、AI模型等产品在不断推出，但大多应用于工业和企业端，大众很难切身感受到其带来的好处。直到近些年AI与写作、绘画等产品结合后，用户能亲自参与其中，大大增强了体验感。

图源：视觉中国

而相对于文字，图片无疑是更直观的呈现方式。判别一段文字的好与坏需要几分钟的时间来阅读，但判别一张图片是否满足你的需求，或者是否带来情绪价值，只需要几秒钟。

浙江工业大学计算机科学与技术学院、软件学院副教授程振波表示：“图片类应用产生的结果比较直观，对人的冲击力很强。我们大脑会通过视觉、听觉、嗅觉等来感知外部信息，其中有超过70%的外部信息来自视觉，所以以图片方式呈现的应用比较火。”

记者尝试在一款名为“无界AI”的国产AI生图工具中输入“玫瑰花园里有一个短发小女孩，穿着蓝色连衣裙在浇花”，选择风格和尺寸后等待30秒，一张图片就生成了，从画面整体美感还是布局来看，基本可以满足日常的图片需求。

“从商业化上来说，AI文生图比AI文生文普遍更快一些。文生文国内商业化做的很谨慎，因为文生文更容易有不‘对齐’的现象，比如生成反动内容之类，监管侧也会更审慎。”成立于杭州的无界AI联合创始人马千里表示。

社交，是人类生存的原始需求，而AI图片生成类应用所具备的社交属性也不容小觑。以AI扩图为例，乐乐给记者展示了部分自己和朋友的照片：“我把很多朋友的照片也导进去了，如果生成的图片很搞笑，我就会发给他或者发朋友圈，他们也会跟着一起玩。”

在社交平台上，像乐乐这样的年轻人不在少数，这也恰恰说明了当下“图片社交”的火热。互联网的发展打破了机构对互联网图像的垄断地位，图像生产权不断“下沉”，使得人与人之间通过图像进行互动成为可能。人们在意网络世界上自己晒出来的生活，尤其对于年轻人来说，拍照发朋友圈收获点赞感到的快乐甚至会大于现实生活的感受。

需求的考验

红杉资本做过一个研究，将Chatgpt、Runway等AIGC应用和YouTube、Instagram等传统应用进行对比，发现传统应用的首月用户平均留存率为63%，AIGC应用仅为42%。在用户参与度上传统软件的平均DAU/MAU为51%，而AIGC应用仅为14%。

低留存率意味着AIGC应用的用户粘性低，而低参与度则意味着用户的使用频率低。那么，为什么高热度的风吹过AI图片生成类应用后，却不能为它带来持续的热度呢？

以近日出圈的AI生图应用“AI扩图”为例，不少用户表示：“刚开始的时候觉得挺新奇的，有些扩图出来的部分也很搞笑。但时间长了之后觉得不是特别实用，没有能具体运用到的地方，也就觉得不太好玩了。”

“最近流行的AI扩图对于普通用户而言，使用场景有限，‘娱乐’用途很有噱头。”杭州的无界AI联合创始人马千里表示。

由此可见，“娱乐”属性过强是目前大部分AI图片生成软件的一大痛点，虽然用户的破圈传播能为其带来短期内可观的流量红利，却不能为用户在应用端提供长期价值。

此外，专业性能不强是部分AI图片生成软件在用户端难形成稳定需求的原因。从事视觉设计工作的小怡告诉记者，工作时会用国外的Midjourney软件来进行生图：“我一般会这个软件生成图片来找灵感，如果尺寸不合适的话就用扩图功能。”对于国内的类似应用，她表示：“没有使用过，Midjourney专业性相对较高，公司的同事都用这个软件。”

图源：视觉中国

“国内相关应用的精确度有待提高，这样才能避免生图的时候出现词不达意的情况。”中国“市民卡之父”、浙江大学智能教育研究中心特聘研究员张旭光向记者表示：“产品好不好用，还是要看它自身的大模型底座、图片训练的参数，由于国内目前‘智算’算力缺乏，生成的图片质量就没有那么高。”

而AIGC所带来的法律问题，也制约着不少用户和企业。在知识产权方面，今年1月，盖蒂图片社以“Stable Difussion”作为“Stability AI”旗下训练模型非法复制和处理数百万受版权保护的图像为由，在伦敦高等法院起诉“Stability AI”。作为全球首例 AIGC 侵权案件，引发广泛关注。除此之外，AI侵犯肖像权、隐私权的问题也亟待解决。

那么，对于C端产品如何对消费者形成长线需求，张旭光认为一方面这些应用要不断提升自己的专业性能，把生成图片的细节做得更到位、更真实；另一方面则需要从用户的实际需求出发，使产品有实际应用价值，比如能够为企业实现降本增效，节省设计方面的人工成本。

走入寻常百姓家

近段时间，AI图片生成行业出圈的产品还不止一个。

11月29日，文生视频公司Pika推出Pika1.0，能够生成和编辑3D动画、动漫、卡通和电影等各种风格的视频。目前，Pika社区已经发展到50万名用户，每周生成数百万个视频。

AI视频行业，近段时间整体迎来了一段“爆发期”。据不完全统计，从11月至今，包括Meta、字节、Stable AI等5家企业的AI视频生成产品发布或迎来大更新。

“在图片方面，AI应用的一个趋势是生成跟真实世界完全一样的内容，不仅仅是图像的外在，甚至图像中各个对象之间的物理作用法则也与真实世界相同。未来，生成视频的长度会越来越长，像电影也许都可以全部AI制作”。程振波表示，随着技术的发展，未来或许人人都有机会成为导演。

从文生图、图生图，再到如今的文生视频，技术的不断创新也在为用户创造新的需求。“现在是一个短视频大行其道的时代，Pika的出现能够让相关企业降低生产成本，而且它做得连续性很好，又很逼真。”张旭光表示：“未来，随着技术的进步，AI能够通过大模型的训练来生成图片、视频甚至3D，将其运用于AR、VR等多种媒介中。”

这也就意味着，AI生图，或许还能生成3D。

今年，清华大学元宇宙文化实验室发布了《AIGC发展研究报告1.0版》，其中提到AIGC的未来是AIGM（AI-Generated Metaverse），也就是通过人工智能技术自动生成元宇宙空间。报告认为，让人类一旦彻底转入元宇宙，AIGC就会升级为AIGM。

清华大学继续教育学院数字化学习主管、清华大学积极心理学指导师、清华大学元宇宙案例实务青蓝计划发起人李璇曾在采访中表示，AIGC可以根据文字、音频、视频等素材，塑造出虚拟场景、虚拟人物形象，使得元宇宙逐渐超越真实场景，到达‘虚实共存’‘灵肉双生’的高级阶段。

由此可见，AI图片生成类产品的应用远不止“扩图”，从2D发展到3D甚至它的最终形态也许是极致元宇宙，未来似乎无限宽广。也希望在不断拓宽未来可能性的同时，让AIGC应用真正走入寻常百姓家。

(来源："网信浙江”)

(链接：https://mp.weixin.qq.com/s/MHrwoKRxzeCEPyTtFSaccg）