热点：弹力器选购指南测试国办卫星导航产业

综合商讯

当前位置：商讯网 > 综合商讯 >

大模型2.0时代：爆火的Sora，改变了什么？

投稿: oy 2024-03-13 15:34:35 来源: 我要评论(0 ) 访问次数

年初,OpenAI发布名为“Sora”的视频大模型,引爆全球。

与去年ChatGPT爆火带来的文本生成相同,今年Sora的出现,让全球再次看到了AIGC的巨大威力。从1月底的万兴“天幕”大模型再到Sora,大模型正在从图文1.0时代,加速进入到以音视频多媒体为载体的2.0时代。

Sora的强势表现,掀起了行业热议。这厢谷歌用自家AI新品“打假”Sora,那边特斯拉CEO马斯克则直接表示人类愿赌服输(gg humans),更有不少专业人士直接对Sora的技术报告“开挖”。

众说纷纭下,不可否认的是,Sora确实带来了视频生成的全新可能性与震撼感。业界不乏有人用“史诗级”、“现实不存在了”等来形容Sora的“炸裂”,并总结出以下五大提升之处:

1.一键生成60秒视频:只需一段文本,Sora就可以生成长达60秒的视频。

2.复杂场景和角色生成能力:Sora生成的视频在内容丰富度、质量精美度、镜头多样度等方面有质的飞跃。

3.多镜头生成能力:Sora可以在单个生成的视频中创建多个镜头,同时保持角色和视觉风格的一致性。

4.三维空间的连贯性和物体持久性Sora能够生成具有动态相机运动的视频。在相机移动和旋转时,Sora能够保持人物和场景元素的连贯运动,并确保在整个视频中物体的外观一致。

5.与世界的互动:Sora有时能模拟出简单的物理行为。例如,画家在画布上留下笔触,或者某人吃汉堡留下咬痕。

“炸裂”表现只是表象,透过OpenAI发布的技术报告,以下三大特点或许是Sora出圈的关键:

大力出奇迹

众所周知,去年引发第一波AI浪潮的ChatGPT,是OpenAI“大力出奇迹”的范式。大量数据的训练会让大模型产生“涌现”的能力,这让ChatGPT能够拥有更好的语言表达能力以及逻辑能力。

这次Sora显然是另一个“大力出奇迹”的范本。据相关人士推测,此次Sora的训练参数量约30亿。这个数字看似与GPT-4的1.8万亿相差甚远,但对于视频类模型训练来说,Sora已经是名副其实的“大”模型。

相比起“随处可得”的文本数据,原始视频的数据量就已“输在起跑线上”,更不用说在Sora之前,大部分模型都需要将原始视频进行统一格式的裁剪,以便于训练。

视频数据有各种各样的形式,有横屏的,有竖屏的,有4k高清的电影,也有64*64的马赛克图片。统一格式,意味着很多非目标格式的视频,都会面临大多数画面被浪费的窘境。

为了解决各类视频分辨率、格式不一,难以统一进行学习的问题,OpenAI设计了一种叫做“spacetime patches”的分解方式,将视频分解成统一格式的小模块,以最大化利用所有视频数据。

Spacetime patches究竟是什么呢?我们可以从patch入手来理解。

Patch可以理解为一张图片的其中一小块截图。假设现在有一张9×9分辨率的图片,设定每一个patch是一个3×3分辨率的小碎片,那么这张图片就可以被分割成为9个patches,他们各自相邻,组合在一起就能够复原出一张完整的图片。

而spacetime patches,则是将一个视频按照这个原理进行分割。众所周知,视频本质上是随时间变化的一系列图像(也就是帧)。如果将视频中每一帧都看做一页A4纸,那么随着时间轴的不断推进,可以分解出很多很多页“纸”。将这些“纸”按照顺序摞在一起,这摞“纸”就有了一定的高度,而这个“高度”实际上就是时间轴。

现在,如果想要将视频也分解成一个个patch,其实类似于直接将这摞“纸”按照一定规格大小切开——我们就得到了一小摞一小摞的“纸”。每一小摞“纸”的“高度”依旧是视频的时间轴,而每一页则是每一帧画面中的一小部分。

由此,这些小纸堆既包含了每一帧画面中的一部分信息,还包含了这个固定位置的画面如何随着时间流逝而产生变化的信息。这就是spacetime patches,它们代表了视频数据的两个最重要的维度——空间和时间。

通过采用spacetime patches的模式来对视频进行最大程度的分解与训练,Sora为行业提供了一个将视频数据“物尽其用”的方法,对于数据需求量巨大的视频生成行业来说,这显然是个好消息。

现在,万事俱备,只待训练了。

特集众家之“大成”

刚才介绍了OpenAI如何把完整的一个视频,遵循一定逻辑转化成能够投入训练的“原材料”。那么,原料已备齐,这次的“厨师”又有什么过人之处呢?

与市面上大部分视频生成类大模型不同,Sora采用了一个比较特别的“厨师”——Diffusion Transformer(DiT)模型。

DiT结合了Diffusion(扩散模型)和Transformer两大目前AI行业最火模型的原理结构,集两者之大成,真正让Sora生成的视频能够流畅。

其中,Diffusion是目前市面上最主流的图片生成模型,通过对输入的图片打上噪点(可以理解为一种马赛克),再根据全是噪点的图片来反推原图,来学习图片生成。

Diffusion在生成单张图片时效果还是很不错的。但问题在于,对于视频生成领域来说,算法需要生成连续数帧图像、保障每一帧图像都能够与前后帧丝滑地连续变化,同时整体的变化过程还需要符合逻辑。

如果单纯使用Diffusion来生成视频,那么随着视频时间变长,算法无法保障当前画面和5秒、10秒以后的画面是否还能够符合变化逻辑。

为了解决这一问题,OpenAI引入了Transformer来增强算法对于生成内容的整体掌控能力。

作为GPT系列的底层模型,Transformer在提升内容整体的完整度上有自己的独门绝技——那就是它的自注意力机制。自注意力机制能够让大模型在训练的时候,不仅学习当下这个单词的编码,更能够同时学习到这个单词周围的其他单词、它们之间是什么关系。

在NLP里,自注意力机制能够让GPT学会每一个单词和周围单词之间的关系、更深层次地理解了一个句子的构成逻辑。

放在视频生成中,Transformer的自注意力机制则能够帮助机器学习到每一个patch之间的关系——不论是空间上的,还是时间上的关系。正如GPT理解了句子的构成逻辑一样,Sora也理解了一个画面随着时间流逝而变化的逻辑。

由此,一个能够让生成的视频内容更稳定、更符合现实逻辑的视频生成算法就炼成了,而DiT在Sora中的优越表现,也为行业带来了“另辟蹊径”的解题思路。

让大模型更能“听得懂话”

除了图像/视频的数据处理与训练,语言理解仍然是用户与大模型交互的最主要途径。这意味着,Sora不仅需要会生成视频,还需要会根据文字指令来生成符合要求的视频。

OpenAI又是怎么让Sora能够更好理解文字指令的呢?

OpenAI采用了此前已在DALL·E 3中使用的re-captioning技术,通过训练一个用于详细描述视频内容的文本模型,来对所有投入训练的视频素材进行详细的文字描述。

这个专门的文本模型会对包括视频的主要内容、角色运动、镜头运动、环境、背景、细节、风格等等内容进行总结。通过模板化的方式进行系统的描述,Sora可以清晰地了解到每段视频的具体内容。

这部分文本描述内容可以在最终训练的时候与前面提到的时空图像块进行匹配和训练。最终,AI就可以理解和对应上文本描述与视频时空图像块。

此外,OpenAI还使用了GPT,把用户的简短提示词转化成详尽的说明,生成更便于Sora理解的prompt。也就是说,用户的简单的描述会被转化为与训练时类似的详细描述语句。这有助于Sora准确理解用户的需求。

视频行业迎来新春天

Sora的横空出世,显然将会给视频领域带来诸多变化,也将为所有做视频模型的企业指出优化路径,加速提升大模型在视频创作和视频创意生成方面的赋能能力,并扩展“音视频+大模型”的应用空间。

正如AIGC软件A股上市公司万兴科技(300624.SZ)董事长吴太兵此前指出的,大模型正从图文1.0时代,加速进入到以音视频多媒体为载体的2.0时代,从模型到应用场景对用户一条龙赋能,将成为主流发展趋势。

当前,包括万兴科技在内的公司,都在积极布局大模型。年初,万兴科技推出万兴“天幕”音视频大模型,聚焦数字创意垂类创作场景,基于15亿用户行为及100亿本土化高质量音视频数据沉淀,以音视频生成式AI技术为基础,全链条赋能全球创作者,致力于让大模型应用落地更有针对性、更具实效。

目前,万兴“天幕”众多能力已在万兴科技旗下创意软件产品中规模化商用。其中,视频创意产品Wondershare Filmora 13、一站式出海视频营销神器万兴播爆均已实现大模型能力的落地应用。

依托万兴“天幕”大模型能力,万兴科技正加速重塑“创意软件”,推动旗下产品全面智能化,不断降低大模型使用门槛,让大模型更好地赋能全球新生代创作者。

分类： 综合商讯 关键词：

打印邮件

分享到：

商讯网热点

海南蓝图领投热诚散热科技天使轮助力固态主动散

一加携手哈苏展开深度合作，为计算摄影融入影像美

现代谍战剧热潮涌现，《蜥蜴》促成文学与影视深度

一加9系列：亿元打造主摄，全系标配超广角IMX766

斑马智行与奇瑞雄狮签约在智能座舱、智能汽车云

从这届七夕新品限定，看新商业时代的设计变革

天猫星选联合阿玛尼推出首款星选盒，打响新一轮品

豹纹妈妈：爱美是一种生活态度，无关年龄

年货趴带爱回家华硕台式机京东商城新年聚惠

一年首发2亿款新品 2021天猫小黑盒用新品领跑新

商讯网最新原创

2026年河南电缆厂家推荐榜：国标合规、智能生产与

2025太原宝宝起名公司深度分析：四大主流方案的选

2026配电柜厂家深度选型指南：不同需求下的三大主

2026卫生间隔断深度选型指南：四大主流方案的特点

来自成都的高端流式细胞仪破局者：棱镜泰克攻坚“

母牛料厂家选购指南：如何选对能帮你降本增效的合

2026胶囊贴牌代加工深度选型指南：三大主流方案如

2026喷淋塔深度选型指南：不同需求下的三大主流方

毛肚源头采购如何决策？2026四大主流工厂方案特点

破解环形变压器应用痛点：天裕5D-VEMT方法论如何

栏目导航

热门标签

弹力器选购指南¹ 阿里³³ 引进人才¹ 一名⁴ 中科院¹ 阐释¹ 谚语¹ 李克强¹ 因地制宜² 坚持³ 习近平² 唤醒² 只能靠² 竞技⁵ 产业¹⁸ 卫星导航¹ 国办¹ 测试⁴

焦点关注

引领网络转型华三与英特尔将SDN/NFV推向规模商用

软件定义变革网络新华三合力英特尔助SDN/NFV应

魅族手环竟还有个柔性屏高配版或定价为1599元

CC直播2016年度盛典正式启动 12月全平台酣战不停!

强强联手，深度融合华南城携手京东，打造B2B综

教育科技融合华硕受邀参加2016中国国际智慧教

专业VR影院的强势来袭，引爆欢乐码头全新发展契机

2016(第十四届)中国两化融合岁末盘点活动隆重启动

2016国际智慧教育展盛大开幕华硕商用产品成精彩

濮阳县教育云平台重磅上线，上海复兰云计算助力！

图片推荐

健身党必入的好装备奢音S5耳夹耳机超轻无感戴

AI生成式搜索风口已至！星广传媒——助力企业抢占

云器科技完成B轮融资资本加码AI时代的新数据基

AMD 推出第二代 Kintex UltraScale+ 中端 F

游泳馆管理系统：全景数控，重塑安全高效智能泳池

万里之遥--千里迢迢：深圳与全球同频共振

文章排行评论访问量