你的位置:开云(中国)kaiyun网页版登录入口 > 新闻动态 > 开云体育言语并不成捕捉真的天下中的统共常识-开云(中国)kaiyun网页版登录入口

开云体育言语并不成捕捉真的天下中的统共常识-开云(中国)kaiyun网页版登录入口

发布日期:2025-07-26 13:21    点击次数:128

新闻动态

现存的视频生成模子开云体育,大多依赖言语或标签数据学习常识,很少波及纯视觉信号的学习,比如 Sora。 然则,言语并不成捕捉真的天下中的统共常识,举例,折纸、打领结等复杂任务难以通过言语明晰抒发。 那么,模子能否不依赖言语模子,从纯视觉视角学习常识、领路天下进而掌抓推理和打算等才能? 当今,豆包大模子团队集结北京交通大学、中国科学手艺大学刻薄了VideoWorld。 这是一种通用的视频生成模子,无需依赖言语模子存在,便可长入实行领路和推理任务。VideoWorld 应用一种潜在动态模子(Lat

详情

现存的视频生成模子开云体育,大多依赖言语或标签数据学习常识,很少波及纯视觉信号的学习,比如 Sora。

然则,言语并不成捕捉真的天下中的统共常识,举例,折纸、打领结等复杂任务难以通过言语明晰抒发。

那么,模子能否不依赖言语模子,从纯视觉视角学习常识、领路天下进而掌抓推理和打算等才能?

当今,豆包大模子团队集结北京交通大学、中国科学手艺大学刻薄了VideoWorld。

这是一种通用的视频生成模子,无需依赖言语模子存在,便可长入实行领路和推理任务。VideoWorld 应用一种潜在动态模子(Latent Dynamics Model,LDM),高效压缩视频帧间的视觉变化信息,显耀进步常识学习效率和效率。

最终,VideoWorld 在不依赖任何强化学习搜索或奖励函数机制前提下,达到了专科 5 段 9x9 围棋水平,并粗略在多种环境中,实行机器东谈主任务。

该使命在业内已引起一定温雅。

� � 上的 AI 限制大 V、科技指摘网站 ReadMultiplex 首创东谈主 Brian Roemmele 觉得:

这是机器东谈主学习和推理的紧要进步。

论文作家则示意,尽管真的天下视频的生成和泛化仍存在很大挑战,视频生成模子不错成为一种通用的常识学习才能,并充任在履行天下中想考和行动的东谈主工大脑。

当前该神气代码与模子已开源。

仅凭"视觉",就能学习复杂任务

就像李飞飞拔擢 9 年前演讲中提到"幼儿不错不依靠言语领路真的天下"一样,在当然界中,大猩猩和其他灵长类动物主要通过视觉不雅察来学习费事手段,如觅食和搪塞互动。东谈主类婴幼儿同样不需要言语便不错领路周围环境。

那么,东谈主工智能模子能否仅通过视觉输入来学习常识?

为探索其中谜底,团队构建了两个实验环境:视频围棋对战和视频机器东谈主模拟操控。

探究者们觉得,围棋不错很好地评估模子的章程学习、推理和打算才能,且围棋图像不错将外不雅、纹理等复杂细节与高档常识的评估相别离,相配符合对上述问题的探索。同期,机器东谈主任务则磨真金不怕火了模子领路松手章程和打算任务的才能。

模子西宾使用一个包含多数视频演示数据的离线数据集,以此,获取一个不错凭证过往不雅测酌量将来帧的视频生成器。

西宾完成后,模子不错平直学习一个任务关联的映射函数,将生成的视频帧退换为任求实行所需作为。这使得视频生成模子不错在不依赖任何作为标签的情况下,学习和实行具体任务。

领先使用朴素的自总结模子实例化视频生成器,包含一个 VQ-VAE 编码器 - 解码器和一个自总结 Transformer。编码器将视频帧退换为交集的记号,Transformer 在西宾时间使用这些记号进行下一记号的酌量。

在推理经过中,Transformer 生成下一帧的交集记号,这些记号随后由解码器退换回像素空间。

基于上述朴素的框架,他们不雅测到,视频生成模子不错掌抓基本围棋章程、走棋计策以及机器东谈主控制才能。

但团队也同期发现,视频序列的常识挖掘效率显耀逾期于以文实质式,具体如下图所示。

团队将这归因于——视频中存在多数冗余信息,影响了模子的学习效率。

举例,棋子转移不错仅通过现象序列中的极少位置记号进行编码,而在视频中,则需要视觉编码器产生多得多的记号。这种互异不利于模子对复杂常识的快速学习。

压缩视觉变化,让视频学习愈加高效

凭证上述不雅测收尾,团队刻薄了 VideoWorld。它在保留丰富视觉信息的同期,对与要道方案和作为关联的视觉变化进行压缩,以杀青更灵验的视频学习。

VideoWorld 引入了一个潜在动态模子(Latent Dynamics Model, LDM),压缩帧间视觉变化为紧凑的潜在编码,提高模子对常识的挖掘效率。

举例,围棋中的多步棋盘变化或机器东谈主中的一语气作为进展出强时期关联性。通过将这些多步变化压缩成紧凑镶嵌,不仅可增多计策信息的紧凑性,还编码了用于前向打算的同样信息。

LDM 禁受了 MAGVITv2 作风的编码器 - 解码器结构,但取消了时期维度下采样,以保留每帧细节。

接下来,LDM 界说了一组安靖力模块和对应可学习向量。通过安靖力机制,每个向量捕捉第一帧至后续多帧的动态变化信息,然后通过 FSQ 量化。

终末,解码器使用第一帧的特征图和帧之间的视觉变化编码重建后续帧。

通过使用多个向量规矩编码第一帧到后续多帧的动态变化,VideoWorld 杀青了紧凑且信息丰富的视觉示意,不错捕捉视觉序列中的短期和恒久依赖相干。

通过引入 LDM,VideoWorld 在仅有 300M 参数目下,达到专科 5 段的 9x9 围棋水平,且不依赖任何强化学习中的搜索或奖励函数机制。在机器东谈主任务上,VideoWorld 也展现出了对多任务、多环境的泛化才能。

研发团队对 LDM 提高视频学习效率的原因,得出以下论断:

LDM 建模了西宾集的数据模式

UMAP 可视化标明:LDM 建模了西宾网络常见的走棋模式,并灵验地将短期和恒久数据模式压缩至潜在空间中。右图凭证机械臂沿 X/Y/Z 轴领路标的可视化潜在编码,同样标明 LDM 不错建模多步动态依赖相干。

LDM 匡助模子在测试时进行前向打算

研发者们还探究了 LDM 在模子推理中的作用。如下图 UMAP 可视化所示,在测试阶段,模子生成的潜在编码按照时期步(Time-step)进行分组,使得模子粗略从更长久视角作念出围棋方案。

在机器东谈主场景中,探究者们也不雅察到了雷同首肯。下图展示了 VideoWorld 在不同机器东谈主操控任务中酌量的潜在编码。不同时间步的潜在编码凭证任务类型进行分组,凸显了模子平缓捕捉特定任务长程变化的才能。

LDM 不错生成因果关联的编码

为进一步探究潜在编码的影响,研发团队进行了一项烦嚣实验:用就地记号替换不同时间步的潜在编码,并不雅察其对模子性能的影响。

实验收尾表露,烦嚣第一个编码的影响最大,这可能由于编码之间存在因果依赖,团队觉得:改造第一个编码,即下一时期步的最好方案,会影响统共将来的方案。

One More Thing

尽管 VideoWorld 在围棋和模拟机器东谈主操控环境中展现了优秀的性能,团队同期也意志到,其在真的天下环境中的应用,仍濒临着高质地视频生成和多环境泛化等挑战。

将来,团队将效用处治这些难题,股东视频生成模子成为真的天下中的通用常识学习器。

对于豆包大模子团队:

字节向上豆包大模子团队建筑于 2023 年,费事于开拓业界首先进的 AI 大模子手艺,成为天下一流的探究团队,为科技和社会发展作出孝顺,团队探究标的涵盖深度学习、强化学习、LLM、语音、视觉、AI Infra、AI Safety 等。

了解这篇探究的笃定,可见以下诱骗:

论文诱骗:https://arxiv.org/abs/2501.09781

代码诱骗:https://github.com/bytedance/VideoWorld

神气主页:https://maverickren.github.io/VideoWorld.github.io

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 神气主页诱骗,以及经营格式哦

咱们会(尽量)实时恢复你

一键温雅 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「严防心」

宽待在指摘区留住你的目的!开云体育

服务热线
官方网站:www.zkhysz.net
工作时间:周一至周六(09:00-18:00)
联系我们
QQ:18470534453
邮箱:7dff34f3@outlook.com
地址:新闻动态科技园5058号
关注公众号

Powered by 开云(中国)kaiyun网页版登录入口 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024
开云(中国)kaiyun网页版登录入口-开云体育言语并不成捕捉真的天下中的统共常识-开云(中国)kaiyun网页版登录入口

回到顶部