AI 文生视频，会在明年迎来“GPT 时刻”

2023-12-0607:20

SinoDAO

2023-12-06 07:20

SinoDAO

2023-12-06 07:20

收藏文章

订阅专栏

AI 文生视频这条赛道，将为各行业带来新的增量与繁荣。

在当下的 AI 赛道上，AI 生文、生图的应用，早已层出不穷，相关的技术，也在不断日新月异。

而与之相比，AI 文生视频，却是一个迟迟未被“攻下”的阵地。

抖动、闪现、时长太短，这一系列缺陷，让 AI 生成的视频只能停留在“图一乐”的层面，很难拿来使用，更不要说提供商业上的赋能。

直到最近，某个爆火的应用，再次燃起了人们对这一赛道的关注。

关于这个叫做 Pika 的文生视频 AI，这些天想必大家已经了解了很多。

因此，这里不再赘述 Pika 的各种功能、特点，而是单刀直入地探讨一个问题，那就是：

Pika 的出现，是否意味着 AI 文生视频距离人们期望中的理想效果，还有多远？

难题与瓶颈

实事求是地说，目前的 AI 文生视频赛道，难度和价值都很大。

而其中最大的难点，莫过于让画面变得“抽风”的抖动问题。

关于这一点，任何使用过 Gen-2 Runway 等文生视频 AI 的人，都会深有体会。

抖动、闪现，以及不时出现的画面突变，让人们很难获得一个稳定的生成效果。

而这种“鬼畜”现象的背后，其实是帧与帧之间联系不紧密导致的。

具体来说，目前 AI 生成视频技术，与早期的手绘动画很相似，都是先绘制很多帧静止的图像，之后将这些图像连接起来，并通过一帧帧图像的渐变，实现画面的运动。

但无论是手绘动画还是 AI 生成的视频，首先都需要确定关键帧。因为关键帧定义了角色或物体在特定时刻的位置和状态。

之后，为了让画面看起来更流畅，人们需要在这些关键帧之间添加一些过渡画面（也称为“过渡帧”或“内插帧”）。

可问题就在于，在生成这些“过渡帧”时，AI 生成的几十帧图像，看起来虽然风格差不多，但连起来细节差异却非常大，视频也就容易出现闪烁现象。

这样的缺陷，也成了 AI 生成视频最大的瓶颈之一。

而背后的根本原因，仍旧是所谓的“泛化”问题导致的。

用大白话说，AI 的对视频的学习，依赖于大量的训练数据。如果训练数据中没有涵盖某种特定的过渡效果或动作，AI 就很难学会如何在生成视频时应用这些效果。

这种情况，在处理某些复杂场景和动作时，就显得尤为突出。

除了关键帧的问题外，AI 生成视频还面临着诸多挑战，而这些挑战，与 AI 生图这种静态的任务相比，难度根本不在一个层面。

例如：

动作的连贯性：为了让视频看起来自然，AI 需要理解动作的内在规律，预测物体和角色在时间线上的运动轨迹。

长期依赖和短期依赖：在生成视频时，一些变化可能在较长的时间范围内发生（如角色的长期动作），而另一些变化可能在较短的时间范围内发生（如物体的瞬时运动）。

为了解决这些难点，研究人员采用了各种方法，如使用循环神经网络（RNN）、长短时记忆网络（LSTM）和门控循环单元（GRU）来捕捉时间上的依赖关系等等。

但关键在于，目前的 AI 文生视频，并没有形成像 LLM 那样统一的，明确的技术范式，关于怎样生成稳定的视频，业界其实都还处于探索阶段。

难而正确的事

AI 文生视频赛道，难度和价值都很大。

其价值，就在于其能真切地解决很多行业的痛点和需求，而不是像现在的很多“套壳”应用那样，要么锦上添花，要么圈地自萌。

关于这点，可以从“时间”和“空间”两个维度上，对 AI 文生视频的将来的价值空间做一番审视。

从时间维度上来说，判断一种技术是不是“假风口”、假繁荣，一个最重要的标准，就是看人们对这类技术的未来使用频率。

根据月狐 iAPP 统计的数据，从 2022 年 Q2 到今年 6 月，在移动互联网的所有类别的 APP 中，短视频的使用时长占比均高达 30% 以上，为所有类别中最高。

除了时间这一“纵向”维度外，倘若要在空间维度上，考量一种技术的生命力，最关键的指标，就是看其究竟能使多大范围内的群体受益。

因为任何技术想要“活”下来，就必须像生物体那样，不断地传播、扩散自己，并在不同环境中自我调整，从而增加多样性和稳定性。

例如在媒体领域，根据 Tubular Labs 的《2021 年全球视频指数报告》，新闻类别的视频观看量在 2020 年同比增长了 40%。

同样地，在电子商务方面，根据 Adobe 的一项调查，大约 60% 的消费者在购物时更愿意观看产品视频，而不是阅读产品描述。

而在医疗领域，根据 MarketsandMarkets 的报告，全球医学动画市场预计从 2020 年到 2025 年将以 12.5% 的复合年增长率增长。

在金融行业中，HubSpot 的一项研究表明，视频内容在转化率方面表现优异。视频内容的转化率比图文内容高出 4 倍以上。

这样的需求，表明了从时间、空间这两个维度上来说，视频制作领域，都是一个蕴含着巨大增量的“蓄水池”。

然而，要想将这个“蓄水池”的潜力完全释放出来，却并不是一件容易的事。

因为在各个行业中，对于非专业人士来说，学习如何使用复杂的视频制作工具（如 Adobe Premiere Pro、Final Cut Pro 或 DaVinci Resolve）可能非常困难。

而对于专业人士来说，制作视频还是个耗时的过程。他们得从故事板开始，规划整个视频的内容和结构，然后进行拍摄、剪辑、调色等等。

有时候，仅仅一分半的广告视频，就可能耗时一个月之久。

从这个角度来说，打开了 AI 文生视频这条赛道，就相当于疏通了连接在这个蓄水池管道里的“堵塞物”。

在这之后，暗藏的财富之泉，将喷涌而出，为各个行业带来新的增量与繁荣。

从这样的角度来看，文生视频这条赛道，即使再难，也是正确的，值得的。

行业引领者

赛道既已确定，接下来更重要的，就是判断在这样的赛道中，有哪些企业或团队会脱颖而出，成为行业的引领者。

目前，在 AI 文生视频这条赛道上，除了之前提到的 Pika，其他同类企业也动作频繁。

科技巨头 Adobe Systems 收购了 Rephrase.ai，Meta 推出了 Emu Video，Stability AI 发布了 Stable Video Diffusion，Runway 对 RunwayML 进行了更新。

而就在昨天，AI 视频新秀 NeverEnds 也推出了最新的 2.0 版本。

从目前来看，Pika、Emu Video、NeverEnds 等应用，已经显示出了不俗的实力，其生成的视频，已大体上能保持稳定，并减少了抖动。

但从长远来看，要想在 AI 文生视频领域持续保持领先，至少需要具备三个方面的条件：

1、强大的算力

在视频领域，AI 对算力的要求，比以往的 LLM 更甚。

这是因为，视频数据包含的时间维度和空间维度，都要比图片和文字数据更高。同时为了捕捉视频中的时间动态信息，视频模型通常需要具有更复杂的结构。

更复杂的结构，就意味着更多的参数，而更多的参数，则意味着所需的算力倍增。

因此，在将来的 AI 视频赛道上，算力资源仍旧是一个必须跨过的“硬门槛”。

2、跨领域合作

与图片或文字大模型相比，视频大模型通常涉及更多的领域，综合性更强。

其需要整合多种技术，例如来实现高效的视频分析、生成和处理。包括但不限于：图像识别、目标检测、图像分割、语义理解等。

如果将当前的生成式 AI 比作一棵树，那么 LLM 就是树的主干，文生图模型则是主干延伸出的枝叶和花朵，而视频大模型，则是汲取了各个部位（不同类型数据）的养分后，结出的最复杂的果实。

因此，如何通过较强的资源整合能力，进行跨领域的交流、合作，就成了决定团队创新力的关键。

3、技术自主性

诚如之前所说，在目前的文生视频领域，业界并没有形成像 LLM 那样明确的、统一的技术路线。业界都在往各种方向尝试。

而在一个未确定的技术方向上，如何给予一线的技术人员较大的包容度，让其不断试错，探索，就成了打造团队创新机制的关键。

对于这个问题，最好解决办法，就是让技术人员亲自挂帅，使其具有最大的“技术自主性”。

诚如 Pika Labs 的创始人 Chenlin 所说：“如果训练数据集不够好看，模型学到的人物也不会好看，因此最终你需要一个具有艺术审美修养的人，来选择数据集，把控标注的质量。”

Pika Labs 创始人 Demi Guo 和 Chenlin Meng

在各企业、团队不断竞争，行业新品不断涌现的情况下，文生视频 AI 的爆发期，就成了一件十分具体的，可以预期的态势。

按照 Pika Labs 创始人 Demi 的判断，行业也许会在明年迎来 AI 视频的“GPT 时刻”。

尽管技术的发展，有时并不会以人的意志为转移，但当对一种技术的渴望，成为业界的共识，并使越来越多的资源向其倾斜时，变革的风暴，就终将会到来。

一封邀请信：

您好！诚邀您加入我们的 AI 精英俱乐部，这是一个永久免费但门槛较高的、聚集 AI 精英与爱好者的专业组织。我们致力于推动 AI 技术在投资领域的应用，为成员们提供一个共享和交流的平台，促进互相学习和合作，共同探索 AI 技术在投资中的无限可能性。

作为成员，您将有机会与世界各地的 AI 专业人士互动，分享您的知识和经验，以及从他们那里学习到更多的技术和行业见解。

我们要求加入俱乐部的成员满足以下标准：

一、乐于分享：我们希望能积极分享自己的知识和经验，与俱乐部的其他成员共同成长和进步；

二、有 AI 技术背景：我们欢迎在 AI 领域具有丰富经验和专业知识的成员，包括但不限于机器学习、深度学习、自然语言处理、计算机视觉等领域的从业者和研究者；

三、愿意将 AI 技术应用到投资领域：包括但不限于量化交易、资产管理、风险评估、市场预测等，共同探索 AI 技术在投资领域的应用前景；

四、拥有独特资源：包括但不限于资金、人脉、数据资源等，这将有助于俱乐部的技术和项目合作。

如果您满足以上标准，并且对 AI 技术在投资领域有浓厚兴趣，我们诚邀您加入。

请将个人的有特点的介绍及微信号发送到 changzhang@arfgc.com，审核通过后，我们会邀请您加入。

【免责声明】市场有风险，投资需谨慎。本文不构成投资建议，用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

数据请求中

一起「遇见」未来

DOWNLOAD FORESIGHT NEWS APP

App Store

Android

推荐专栏

一起「遇见」未来