异军突起的视频 AI，揭示了什么？

2023-10-1105:19

SinoDAO

2023-10-11 05:19

SinoDAO

2023-10-11 05:19

收藏文章

订阅专栏

悄然崛起的视频 AI，标志着 AI 竞争进入了下一阶段。

在当下的 AI 赛道上，AI 聊天、绘画一类的应用，早已枝繁叶茂。

然而，在此类同质化应用扎堆的情况下，一类颇有技术难度，也较少被人提及的方向，正在悄然崛起。

这就是最能调动人感官的视频 AI 领域。

根据 twitter 上的作者 Will 郎瀚威统计的图表，今年 8—9 月，各大文生图类 AI 网站的访问量均开始呈现下降趋势。

然而，就在这种情况下，国外知名视频 AI 网站 HeyGen 的访问量上升了 92%，流量跃居各大独立 AI 网站之首。

那么，为何此前一直默默无闻的视频 AI，最近突然异军突起，盖过了风头正盛的文生图类 AI 应用？

而在 GPT-4V 发布，多模态技术不断取得突破的情况下，这一微妙的变化，又预示着什么？

多模态的前奏

从 AI 发展的大格局上来说，HeyGen 的这波流量上升，或许只是多模态高歌猛进背景下的一个插曲。

从谷歌宣布 Gemini 具有多模态功能的消息，到 OpenAI 发布 GPT-4V，各个 AI 巨头，似乎都将下一阶段竞争的焦点放在了多模态上。

那为何多模态成了巨头眼中关键的“突破点”？

原因或许就在于，其具有打破“专业壁垒”的意义。

在多模态尚未取得突破之前，不同模态、领域之间，存在着巨大的鸿沟。

写文案，做编辑的人，即使再妙笔生花，如果缺乏相应的美术知识，以及各种专业的提示词，也难以用 AI 画出出色的作品。

而一个画师如果没有受过专业的写作训练，缺乏谋篇布局的思路，也难以凭借 AI 写出上乘的文章。

类似的“壁垒”，在视频剪辑方面，也同样存在着。

根据知乎上一位视频剪辑方面的从业者介绍，一个完整的视频剪辑流程，包括了调色、整理素材、配字幕等一系列工作，要想熟练地进行剪辑，必须掌握 PR、Edius、剪映等多种剪辑软件，同时还需熟悉各种转场、调色、粒子特效等插件的使用。

如果想让视频呈现更丰富的效果，还要掌握 b-roll 转场、字幕遮罩、坡度变速等复杂的操作。

此外，素材的搜集和整理，也是剪辑工作中的一大“苦活”，倘若题材较为冷门，素材就会很不好找。有时尽管遇到了好的素材，也可能由于版权问题难以使用。

正是由于上述原因，视频剪辑，注定不是一个简单的、易于掌握的技能。

以国内知名网站 B 站为例，据一位 B 站上百万粉丝的 UP 主团队透露，为了保证视频更新的效率、质量，这些账号往往会配备数名较为熟练的剪辑人员，轮番进行剪辑。

那么，倘若有一种智能化的 AI 剪辑应用，能根据创作者想表达的思路，自动、高效地完成整个视频的制作，视频制作领域，又会发生怎样的颠覆呢？

实际上，这样的技术早已出现。

下面这两张图片，分别来自两段不同的视频片段。

你能分辨出哪个是真人，哪个是 AI 生成的吗？

答案是：这两个视频都是 100% 由 AI 生成的人像视频。

而它们均出自此前提到的 HeyGen 之手。

在 HeyGen 上，用户只需要用上传一段 2 分钟的小视频，就能达到和真人一样的效果，即使是像手势、面容和口型这种“细微肢体语言”也能调整。

而这类效果的实现，正是当下多模态技术发力的开端。

视频 AI 之力

上面所有这些视频都出自 HeyGen 的 Joshua Avatar 2.0，一款 AI 人像视频的工具，主打的就是一个超逼真。

而实现这样真实的视频效果，步骤也非常简单，只需完成选形象—写文本—输出三个步骤即可。

如果要论 HeyGen 与其他同类视频 AI 应用最大的区别，就是它可以利用现有数据来创造全新和从未有过的内容。

以往的类似应用，例如 D-ID，虽然也能让用户从照片或者 AI 形象中生成视频，但是这样的技术，更多是基于复制或处理已有的内容的 AI 技术。

这些技术虽然也可以制作视频，但是需要用户提供自己的照片或录音，或者从 D-ID 提供的一些固定的 AI 形象中选择。这样就需要用户花费更多的时间和精力来准备和上传素材，也限制了用户的选择和定制空间。

而相较之下，HeyGen 的技术则可以让用户从文本中直接生成视频，并使用多种不同的 AI 形象和声音。

目前，HeyGen 提供超过 100+ 数字人素材和模板，广告、电商、新闻等一应俱全，也可以自己编辑 PPT 生成。

同时，HeyGen 还支持 300+ 不同音色和 40+ 语言，以及视频翻译功能。用户可以一键将视频无缝地翻译成其他语言，这对于跨国和多语言的沟通非常有用。

通过这种定制化的、排列组合的方式，HeyGen 可以快速、精简地制作出各种适用于多种场景的视频。

而这样的高自由度，也让 HeyGen 使许多不精通视频剪辑的人，打破了以往“技能边界”，可以恣意地用视频表达自己的想法。

除了 HeyGen 之外，在视频 AI 领域，许多正在蓄势待发的类似应用，也已经在悄然崛起。

例如能直接将脚本转化成视频的Pictory.AI就是其中之一。

Pictory 允许用户仅通过几次点击，就能将脚本转化为配有逼真的 AI 语音、匹配的素材和音乐的专业质量视频。

具体来说，在制作视频时，用户可以从 Pictory 提供的多种模板中选择一种，来设置视频的样式。

之后，Pictory 会根据用户输入的文本和选择的模板和比例，自动地生成一个故事板。故事板是一个由多个场景组成的视频序列，每个场景包含了文字、图片、AI 语音和一段音乐。

最后，用户可以在故事板上预览视频的效果，并进行一些编辑和调整。

如此一来，团队不需要昂贵的摄影师、剪辑师，也能制作出专业的、高质量的视频。

同样地，用 3D CGI 角色替换真人演员的Wonder Studio，也是旨在提高视频制作效率的 AI 应用之一。

Wonder Studio 是一个基于网页的视频平台，它可以让用户轻松地将任意的计算机生成的角色（CGI character）添加到任何场景中，使用 AI 技术来实现无缝的融合。

用户只需要拍摄自己想要的场景，并上传到网站上，Wonder Studio 的 AI 引擎就会自动分析场景中的演员的表演，包括他们的动作和面部表情，并将这些信息转换成运动数据，然后用这些数据来驱动用户选择的 CGI 角色。

这样，用户就可以完美地用 3D CGI 角色替换真人演员，无需使用复杂的 3D 软件或者昂贵的制作设备，例如动作捕捉服。

趋势及国内现状

从以上视频 AI 的技术特点中，我们至少可以总结出目前视频 AI 技术的两大趋势：

1、制作流程极大简化

利用生成式 AI 技术，人们能够以自动化、智能化的方式，将文本、图像、音频、视频等多模态数据重新组合，来创造全新和从未有过的内容，在降低成本的同时，也打破了各个模态（或专业）之间的“技术壁垒”。

而这一壁垒的打破，正是生成式 AI 走向通用化、普及化的关键。

2、内容的多样性和定制性

利用多模态 AI 的技术，人们能够处理和关联多种信息模态，从而在内容创作过程中，更好地表达自己的个性和风格，并适应不同的场合和目的。

这是以往受限于已有素材的单一模态技术难以实现的。

在上述两大趋势中，目前国内的视频 AI 应用，只勉强做到了“简化”这一步。

虽然国内目前也有一些与 HeyGen 类似的 AI 视频应用，例如腾讯智影、一帧秒创、万彩微影等。这些应用也利用了 AI 技术来简化视频创作过程，并提供了文本配音、文章转视频、数字人播报等功能。

然而，在具体的生成效果方面，国内应用的视频清晰度、素材丰富度，以及定制化功能方面，仍与 HeyGen 等应用有着较大差距。

腾讯智影的数字人视频，可选素材比较有限

从总体上来说，这类应用仍旧只能在平台提供的素材库内，选择有限的元素进行创作，并且在某些类别（如数字人视频）上，国产应用生成的视频，也未达到 HeyGen 视频那样流畅、逼真的标准。

如果说，在本轮 AI 革命中，国内视频 AI 技术仅仅止步于“降本”这一环节，从长远来看，是远远不足以征服智能化时代的观众的。

从当下观众的态度来看，AI 制作的视频仍处于一种“不受待见”的状态，很多观众仍然觉得，在视频中使用 AI 技术，是一种偷懒、不负责，且廉价的制作方式。

究其原因，是因为当下国内的部分 AI 技术，仍未突破一种感官上的阈值，仍然让人明显觉察到“这不是人做的”。

于是就给人造成了一种“没有感情”、“粗制滥造”的印象。

更有甚者，甚至将那些使用了 AI 技术的视频，打上了“营销号”的标签。

面对这样的环境，任何珍惜自己羽毛的视频创作者，都不敢轻易使用 AI 技术了，因为生怕被人当成“营销号”，扣上“粗制滥造”的帽子。

生成式 AI 的进步，确实极大简化了视频制作的流程，但在已经到来的智能时代，观众们已经不想再看到那些批量的、流水线式的“低劣”视频了。

而要想摘掉这样的“低劣”标签，真正地让作品具有感情和灵魂，除了一个劲儿地“降本”之外，在个性化、拟真度，以及素材丰富性方面，国产视频 AI 还有很长的路要走。

一封邀请信：

您好！诚邀您加入我们的 AI 精英俱乐部，这是一个永久免费但门槛较高的、聚集 AI 精英与爱好者的专业组织。我们致力于推动 AI 技术在投资领域的应用，为成员们提供一个共享和交流的平台，促进互相学习和合作，共同探索 AI 技术在投资中的无限可能性。

作为成员，您将有机会与世界各地的 AI 专业人士互动，分享您的知识和经验，以及从他们那里学习到更多的技术和行业见解。

我们要求加入俱乐部的成员满足以下标准：

一、乐于分享：我们希望能积极分享自己的知识和经验，与俱乐部的其他成员共同成长和进步；

二、有 AI 技术背景：我们欢迎在 AI 领域具有丰富经验和专业知识的成员，包括但不限于机器学习、深度学习、自然语言处理、计算机视觉等领域的从业者和研究者；

三、愿意将 AI 技术应用到投资领域：包括但不限于量化交易、资产管理、风险评估、市场预测等，共同探索 AI 技术在投资领域的应用前景；

四、拥有独特资源：包括但不限于资金、人脉、数据资源等，这将有助于俱乐部的技术和项目合作。

如果您满足以上标准，并且对 AI 技术在投资领域有浓厚兴趣，我们诚邀您加入。

请将个人的有特点的介绍及微信号发送到 changzhang@arfgc.com，审核通过后，我们会邀请您加入。

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

App Store

Android

推荐专栏

一起「遇见」未来