就在刚刚人妖 av,腾讯版 Sora 补都了又一垂死拼图——图生视频。
况兼如故熟谙的配方,和前年 12 月发布的文生视频模子 HunyuanVideo 同样,发布即开源。
那么,这次上新的「图生视频」到底有多强呢?
有网友径直用它制作了一部电影:
不错看到,新功能在画质、物体一致性等方面有了很大普及。
当今该功能已上线腾讯混元 AI 视频,东说念主东说念主都可免费体验(有次数罢休)。
话未几说,量子位一手实测走起 ~
实测腾讯混元「图生视频」
有一说一,图生视频这项功能本人在视频 AI 范围已不新奇,但难的是生收遵循好。
而在诸君玩家狂卷生收遵循的途中,一些老浩劫问题渐渐"出面",并成为试验和驱动视频 AI 进化的法宝。
是以,为了直不雅展示腾讯版 Sora 的「图生视频」才智,咱们径直从这些讲求起始。
讲求 1:是否适应施行物理限定
人所共知,从视频 AI 出身于今,生成适应施行物理限定的视频堪称行业讲求。
一不堤防就各式动作满天飞,让东说念主直呼恐怖:
是以这第一关,咱们径直来个大招——让腾讯混元视频 AI 归附畅通员跳水。
况兼为了整活儿,及第的原图就有"炸鱼"的倾向了 ( doge):
(右侧为 AI 生成的原图和请示词,及第 2K 视频)
最终遵循 be like:
领先,为了保证画质,咱们一运转就有益选了「2K 视频」(默许为高品性),并接纳更通用的混元图生 1.0(另一个针对东说念主像优化)。
从收尾不错看到,合座画面如故比较高清的,顺手一截都有点像体育频说念报说念。
质地上,比较早期的"动作乱飞"也彰着有很猛进步,一眼看去莫得彰着无理。
然鹅,要是要拿放大镜来看,一些细节如故经不起接头。
比如畅通员左手的大小比例鄙人面这个顷刻间有点问题,手掌彰着过宽;另外手势在变换的流程中,抠图感彰着,能从这里看出视频由 AI 生成。
是以,要思收场 100% 归附竟然物理限定,大噶还得加油啊 ~
BTW,天然生成的视频当今惟有 5 秒,但不难思见这位小哥落水时行将炸鱼了。
讲求 2:能否"捉风捕月"
Okk,讲求持续。
为了进修视频生成 AI 的可控性,咱们来看这么一张原图:(草原上莫得一只动物)
输入 prompt,"图中出现了一匹马",最终收尾如下:
不错看到,视频中如实出现了一匹白色骏马在草原上迟缓行走。
除此除外,咱们持续搬出大众谨记心骨的一个功能来挑战——在画面中生成笔墨(汉文或英文)。
个东说念主屡次实测后发现,当今暂时无法在视频中虚构生成笔墨(大众有告捷案例不错在评述区补充)。
不外也有一种障碍轮番简略收场:先在图片中生成笔墨(不错用腾讯豆包 AI 的绘制功能),再将图片退换成动态视频。
嗯,亦然给量子位打上了赛博告白(doge)~
是以,在让视频"捉风捕月"这方面,除了添加笔墨不行控,其他元素照旧不错搪塞拿持了。
讲求 3:能否准确死守指示
接下来,图片搭配笔墨请示词,也能用来检会视频生成 AI 是否一语气用户意图了。
腾讯混元视频 AI,在上传图片后,不错通过正面(思要哪些画面)和反面(不思要哪些)请示词来筹画打算通盘画面。
这里咱们又拿腾讯混元视频的"独家艺能"来测试。早在笔墨生成视频的功能发布后,他们就主推了在画面主角保持不变的情况下自动切镜头的这项功能,其时堪称这是业界大部分模子所不具备的才智。
是以,咱们这次的 prompt 如下:
一位异邦好意思女一稔汉服,头发飞舞,布景是长城,然后镜头切换到正面特写。
最毕生成收尾如下:
乍看之下,镜头从侧脸切换到正脸衔尾挺天然,连发丝都经久在空中飞舞。
然而一抠细节,自后的黄色发卡有点突兀了,是以在合座一致性上仍有完善空间。
讲求 4:能否保证连贯一致性
天然,光是准确归附指示还不够,更垂死的是要让总共元素天然铺开。
换句话说,还要检会图片窜改成视频后的动作、场景过渡是否天然通晓,有无彰着的卡顿、逾越或不连贯的情况。
嗯,依旧上难度——镜子题材下的畅通一致性进修。
一稔白床单的阴魂面临着镜子。镜子中不错看到阴魂的倒影。阴魂位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料守秘的产品。阁楼的场景照耀在镜子中。阴魂在镜子前舞蹈。电影氛围,电影打光。
最终遵循如下:
一般来说,镜子题材不错用来进修模子对光影的一语气,以及镜子表里主体畅通是否能保持一致。
而上头这个生收遵循真实惊艳,当身披白床单的阴魂"载歌载舞"时,镜子里的动作相配一致,况兼连地上的光影变换也相配适应物理限定。
合座看起来十分丝滑 ~
Okk,几个堪称最难的测试到此告一段落。实测下来,腾讯混元的「图生视频」新功能在这些最难挑战上有了很猛进步,但离 100% 适应物理限定和统调治致性仍有一段距离。
终末附上来自官方的写 prompt 小 tips:
用法 1:请示词 = 主体 + 动作 (相对松懈的表述遵循更优)
主体:视频的主要推崇对象要与与输入图片一致,不错为东说念主、动物、植物、物品等,浅易刻画即可,比如一个女孩、一个熊猫等。
动作:对主体动作或景色的刻画,用词提议浅易且明晰具体,最佳有动态感,比如戴眼镜 ->用手戴上眼镜,喝水 ->用手举起杯子喝水。
用法 2:请示词 = 主体 + 动作 + 运镜形势
运镜形势:镜头的畅通形势,比如静止镜头、镜头平移向右,镜头缩放等。
网友豪恣试玩 ing
与此同期,网友们的第一波鲜测也出炉了:
感兴味的童鞋不错玩起来了 ~
在线免费体验:
https://video.hunyuan.tencent.com/
Github:
https://github.com/Tencent/HunyuanVideo-I2V
Huggingface:
https://huggingface.co/tencent/HunyuanVideo-I2V
av下载参考承接:
[ 1 ] https://x.com/TXhunyuan/status/1897558826519556325
[ 2 ] https://x.com/iamhk/status/1897557803755253850人妖 av