AI扩图又出圈了。
近日,剪映推出“智能扩图”功能后,让“废片”秒变“大片”的短视频登上抖音挑战榜高位。正当网友准备借此“拯救”相册里的照片时,却发现画风逐渐走偏,甚至把人扩成了树干,让人直呼“惊掉下巴”。
网络视频截图
AI扩图不算新鲜话题。7月,美图秀秀“AI扩图”功能上线,引起AI扩图的第一次出圈。在此之前,妙鸭相机APP以能够AI生成肖像写真而风靡一时。
自ChatGPT后,人们对AI相关应用的关注,多以图片生成类应用引发。借用剪映“智能扩图”的广告语“可以用AI让一张单调的照片变得无限宽广”,AI图片生成类应用的未来也是无限宽广吗?
图片社交
从事新媒体工作的乐乐,对每天的互联网热点十分熟悉。当她看到抖音忽然给她推了不少“AI扩图”相关视频时,她马上去试了试,觉得好玩又好笑:“它会给我带来惊喜,不管是图片的正常延伸,或者产生的一些滑稽搞笑图片,让我感觉有一种开盲盒的乐趣。”
早期的AI在国内,对不少用户而言是一种看不见,摸不着的新技术。尽管AI机器人、AI模型等产品在不断推出,但大多应用于工业和企业端,大众很难切身感受到其带来的好处。直到近些年AI与写作、绘画等产品结合后,用户能亲自参与其中,大大增强了体验感。
图源:视觉中国
而相对于文字,图片无疑是更直观的呈现方式。判别一段文字的好与坏需要几分钟的时间来阅读,但判别一张图片是否满足你的需求,或者是否带来情绪价值,只需要几秒钟。
浙江工业大学计算机科学与技术学院、软件学院副教授程振波表示:“图片类应用产生的结果比较直观,对人的冲击力很强。我们大脑会通过视觉、听觉、嗅觉等来感知外部信息,其中有超过70%的外部信息来自视觉,所以以图片方式呈现的应用比较火。”
记者尝试在一款名为“无界AI”的国产AI生图工具中输入“玫瑰花园里有一个短发小女孩,穿着蓝色连衣裙在浇花”,选择风格和尺寸后等待30秒,一张图片就生成了,从画面整体美感还是布局来看,基本可以满足日常的图片需求。
“从商业化上来说,AI文生图比AI文生文普遍更快一些。文生文国内商业化做的很谨慎,因为文生文更容易有不‘对齐’的现象,比如生成反动内容之类,监管侧也会更审慎。”成立于杭州的无界AI联合创始人马千里表示。
社交,是人类生存的原始需求,而AI图片生成类应用所具备的社交属性也不容小觑。以AI扩图为例,乐乐给记者展示了部分自己和朋友的照片:“我把很多朋友的照片也导进去了,如果生成的图片很搞笑,我就会发给他或者发朋友圈,他们也会跟着一起玩。”
在社交平台上,像乐乐这样的年轻人不在少数,这也恰恰说明了当下“图片社交”的火热。互联网的发展打破了机构对互联网图像的垄断地位,图像生产权不断“下沉”,使得人与人之间通过图像进行互动成为可能。人们在意网络世界上自己晒出来的生活,尤其对于年轻人来说,拍照发朋友圈收获点赞感到的快乐甚至会大于现实生活的感受。
需求的考验
红杉资本做过一个研究,将Chatgpt、Runway等AIGC应用和YouTube、Instagram等传统应用进行对比,发现传统应用的首月用户平均留存率为63%,AIGC应用仅为42%。在用户参与度上传统软件的平均DAU/MAU为51%,而AIGC应用仅为14%。
低留存率意味着AIGC应用的用户粘性低,而低参与度则意味着用户的使用频率低。那么,为什么高热度的风吹过AI图片生成类应用后,却不能为它带来持续的热度呢?
以近日出圈的AI生图应用“AI扩图”为例,不少用户表示:“刚开始的时候觉得挺新奇的,有些扩图出来的部分也很搞笑。但时间长了之后觉得不是特别实用,没有能具体运用到的地方,也就觉得不太好玩了。”
“最近流行的AI扩图对于普通用户而言,使用场景有限,‘娱乐’用途很有噱头。”杭州的无界AI联合创始人马千里表示。
由此可见,“娱乐”属性过强是目前大部分AI图片生成软件的一大痛点,虽然用户的破圈传播能为其带来短期内可观的流量红利,却不能为用户在应用端提供长期价值。
此外,专业性能不强是部分AI图片生成软件在用户端难形成稳定需求的原因。从事视觉设计工作的小怡告诉记者,工作时会用国外的Midjourney软件来进行生图:“我一般会这个软件生成图片来找灵感,如果尺寸不合适的话就用扩图功能。”对于国内的类似应用,她表示:“没有使用过,Midjourney专业性相对较高,公司的同事都用这个软件。”
图源:视觉中国
“国内相关应用的精确度有待提高,这样才能避免生图的时候出现词不达意的情况。”中国“市民卡之父”、浙江大学智能教育研究中心特聘研究员张旭光向记者表示:“产品好不好用,还是要看它自身的大模型底座、图片训练的参数,由于国内目前‘智算’算力缺乏,生成的图片质量就没有那么高。”
而AIGC所带来的法律问题,也制约着不少用户和企业。在知识产权方面,今年1月,盖蒂图片社以“Stable Difussion”作为“Stability AI”旗下训练模型非法复制和处理数百万受版权保护的图像为由,在伦敦高等法院起诉“Stability AI”。作为全球首例 AIGC 侵权案件,引发广泛关注。除此之外,AI侵犯肖像权、隐私权的问题也亟待解决。
那么,对于C端产品如何对消费者形成长线需求,张旭光认为一方面这些应用要不断提升自己的专业性能,把生成图片的细节做得更到位、更真实;另一方面则需要从用户的实际需求出发,使产品有实际应用价值,比如能够为企业实现降本增效,节省设计方面的人工成本。
走入寻常百姓家
近段时间,AI图片生成行业出圈的产品还不止一个。
11月29日,文生视频公司Pika推出Pika1.0,能够生成和编辑3D动画、动漫、卡通和电影等各种风格的视频。目前,Pika社区已经发展到50万名用户,每周生成数百万个视频。
AI视频行业,近段时间整体迎来了一段“爆发期”。据不完全统计,从11月至今,包括Meta、字节、Stable AI等5家企业的AI视频生成产品发布或迎来大更新。
“在图片方面,AI应用的一个趋势是生成跟真实世界完全一样的内容,不仅仅是图像的外在,甚至图像中各个对象之间的物理作用法则也与真实世界相同。未来,生成视频的长度会越来越长,像电影也许都可以全部AI制作”。程振波表示,随着技术的发展,未来或许人人都有机会成为导演。
从文生图、图生图,再到如今的文生视频,技术的不断创新也在为用户创造新的需求。“现在是一个短视频大行其道的时代,Pika的出现能够让相关企业降低生产成本,而且它做得连续性很好,又很逼真。”张旭光表示:“未来,随着技术的进步,AI能够通过大模型的训练来生成图片、视频甚至3D,将其运用于AR、VR等多种媒介中。”
这也就意味着,AI生图,或许还能生成3D。
今年,清华大学元宇宙文化实验室发布了《AIGC发展研究报告1.0版》,其中提到AIGC的未来是AIGM(AI-Generated Metaverse),也就是通过人工智能技术自动生成元宇宙空间。报告认为,让人类一旦彻底转入元宇宙,AIGC就会升级为AIGM。
清华大学继续教育学院数字化学习主管、清华大学积极心理学指导师、清华大学元宇宙案例实务青蓝计划发起人李璇曾在采访中表示,AIGC可以根据文字、音频、视频等素材,塑造出虚拟场景、虚拟人物形象,使得元宇宙逐渐超越真实场景,到达‘虚实共存’‘灵肉双生’的高级阶段。
由此可见,AI图片生成类产品的应用远不止“扩图”,从2D发展到3D甚至它的最终形态也许是极致元宇宙,未来似乎无限宽广。也希望在不断拓宽未来可能性的同时,让AIGC应用真正走入寻常百姓家。
(来源:"网信浙江”)
(链接:https://mp.weixin.qq.com/s/MHrwoKRxzeCEPyTtFSaccg)