APP推广合作
联系“鸟哥笔记小乔”
ChatGPT之后,Sora横空出世,可怕还是可敬?
2024-02-21 15:47:51

来源:首席商业评论

ChatGPT成为全世界的焦点后,OpenAI再一次引爆了科技圈。

 

北京时间2月16日凌晨2点左右,美国OpenAI公司正式发布其首个文本-视频生成模型Sora。据报道,Sora能够根据文本提示创建详细的视频、扩展现有视频中的叙述以及从静态图像生成场景。

 

相较于文生图来说,文生视频难度更高,在数据质量、算力以及多融合技术的复杂性上都有诸多需要突破的关卡,所以一直以来文生视频的发展并不算顺利。

没想到OpenAI一出手就是王炸,Sora的实力可以说是藐视同行的存在。Sora 在日语中是“天空”的意思,引申含义还有“自由”,这不禁让我们想到马斯克“我们的目标是星辰大海”的豪情壮志。

 

OpenAI也强调“Sora是能够理解和模拟现实世界的模型的基础,我们相信这一功能将成为实现通用人工智能(AGI)的重要里程碑。”

 

同行们纷纷对Sora发出赞叹:马斯克「人类愿赌服输」,Runway联合创始人「game on」的感慨,360董事长周鸿祎作出“Sora意味着AGI实现将从10年缩短到1年”的预判,前阿里总裁贾扬清也评价道「非常牛」……

 

ChatGPT之后,Sora横空出世,可怕还是可敬?

 

业界更是吹爆它“炸裂”“史诗级”“现实不存在了”……

 

那么,Sora为什么能独树一帜?Sora崛起将改变哪些行业?作为视频内容生产者,又该如何应对这场技术“大考”呢?

Sora碾压同行,OpenAI没有天花板

Sora模型是一个文生视频产品,通过简短或详细的提示词描述,或一张静态图片,Sora就能生成类似电影的逼真场景,涵盖多个角色、不同类型动作和背景细节等。

 

简单理解就是,只要输入一句话,AI就会根据你的描述,生成一段视频。

 

在Sora一口气发布的48个演示视频中,随便挑两个让大家感受一下Sora的实力。

 

比如,AI想象中的龙年春节,红旗招展人山人海。有不少儿童好奇抬头观望舞龙队伍,也有不少人掏出手机边跟边拍,海量人物角色各有各的行为。

 

再比如,一位时尚女性穿着黑色皮夹克、红色长裙和黑色靴子走在东京街道上,她戴着太阳镜,涂着红色口红,拎着黑色钱包,走路自信又随意。而刚下过雨的东京街道潮湿且反光,在彩色灯光的照射下形成镜面效果,细节超赞。

 

ChatGPT之后,Sora横空出世,可怕还是可敬?

 

相比Runway、Pika等市面上现有的AI视频模型,Sora展示出了远超预期的能力,主要表现在这三点上。

 

第一,是视频长度的巨大提升,像Runway、Pika这些AI视频模型仅能生成不足10秒,而Sora的视频生成长度突破到了60秒。第二,是视频内容更加稳定。相比于其他AI视频模型镜头视角单一、内容高度失真,Sora的视频能实现单视频的多角度镜头切换,最大限度还原现实世界的真实场景,保持了合理的连贯性。

 

是深刻的语言理解能力,Sora能够深层次识别用户的指令,从而在生成的视频中呈现出丰富的表情和生动的情感,还表现出对物理世界部分规律的理解。

 

总之,Sora解决了过去AI视频被诟病的很多问题,它能形成更清晰的生成画面、更逼真的生成效果、更准确的理解能力、更顺畅的逻辑理解能力、更稳定和一致性的生成结果等等,目前,Sora已经成为最强的AI视频生成类模型。

 

而从技术层面来说,Sora之所以能够碾压同行,在于它采取了一个新的架构——Diffusion transformer模型。与Runway、Pika等主流AI视频聚焦于扩散模型不同,Sora这个模型融合了扩散模型与自回归模型的双重特性。

 

在这个新模型架构中,OpenAI沿用了此前大语言模型的思路,提出了一种用Patch(视觉补丁)作为视频数据来训练视频模型的方式。

 

简单理解,就是将视频和图片切成很多小块(这些小块就是Patch),OpenAI通过这种方式将视频压缩到一个低维空间,再用扩散模型模拟物理过程中的扩散现象来生成内容数据,生成的视频一开始看起来像静态噪音,然后通过多个步骤去除噪音,逐步转换视频。

 

ChatGPT之后,Sora横空出世,可怕还是可敬?

 

不得不说,从文字(ChatGPT)到图片(DALL·E )再到视频(Sora),OpenAI团队就好像没有能力天花板一样。

 

Sora以碾压式的优势胜出后,资本端同时传来好消息。在完成最新交易后,OpenAI的估值已飙升至800亿美元以上。纽约时报报道也称,现在OpenAI的估值或达到约800亿美元。

“AI视频生成元年”来了

如果说2023年还是AI图文生成元年的话,那么今年OpenAI将推动行业进入AI视频生成元年。

 

事实上,在Sora发布前,探索AI视频模型的公司并不少,根据知名投资机构a16z此前的统计,截至2024年底,市场上共有21个公开的AI视频模型,包括大众熟知的Runway、Pika、Genmo以及Stable Video Diffusion等等。

 

以Runway为例,在2023年6月底完成由Google、Nvidia、Salesforce参与的C轮融资后,估值超过15亿美元。

 

ChatGPT之后,Sora横空出世,可怕还是可敬?

 

但在Sora发布前,几乎所有的 AI 视频生成公司都陷入了同质化竞争,他们希望AI应用率先垂直落地到影视和广告场景,所以过多关注更高画质、更高成功率、更低成本,并且他们将能生成15秒视频作为一个里程碑。而Sora将眼光看向了更大时长的世界模型,这也是Sora成功的秘诀。

 

在OpenAI公布的Sora技术报告里谈道:“我们相信Sora今天展现出来的能力,证明了视频模型的持续扩展(Scaling)是开发物理和数字世界(包含了生活在其中的物体、动物和人)模拟器的一条有希望的路。”‍

 

换言之,OpenAI更愿意把Sora 视为理解和模拟现实世界的模型基础,而不是AI应用落地的场景。这意味着,相比其他玩家,OpenAI的思维永远更进一步。

 

面对Sora的降维打击,AI视频领域的创业者纷纷开启了追赶模式。比如Runway已经做好了“Game On”的准备;Pika创始人郭文景一样,开始筹备对标Sora的新产品……

 

而几乎是同一天,谷歌也发布了自家的最新大模型 Gemini 1.5。据介绍,Gemini 1.5的上下文窗口高达100万个tokens,可以一次处理大量的信息——如1小时的视频、11小时的音频、3万多行的代码等。

 

谷歌称,Gemini 1.5 Pro性能水平与谷歌迄今为止最大的模型1.0 Ultra 类似,并引入了长上下文理解方面的突破性实验特征,性能、文本长度均超越了GPT-4 Turbo。

 

ChatGPT之后,Sora横空出世,可怕还是可敬?

 

Meta也不甘示弱,在近日公布了一种视频联合嵌入预测架构技术V-JEPA。据报道,这是一种通过观看视频教会机器理解和模拟物理世界的方法,V-JEPA可以通过自己观看视频来学习,而不需要人类监督,也不需要对视频数据集进行标记,甚至根据一张静止图片来生成一个动态的视频。

 

与其他模型相比,V-JEPA的灵活性使其在训练和样本效率上实现了1.5到6倍的提升。跑分方面,V-JEPA在Kinetics-400达到了82.0%的准确率,高于同行。

 

ChatGPT之后,Sora横空出世,可怕还是可敬?

 

目前来看,国际上头部科技巨头基本已入局,大致可以分为“科技巨头+创业派+专业派”的组合,科技巨头以谷歌、Meta为代表,专业派以Adobe此类面向专业级用户的老牌软件巨头为代表,创业派以Runway、Pika为代表。

 

而国内目前的竞争格局还尚不清晰,目前大厂正在积极押注视频生成,比如字节跳动的文生视频模型MagicVideo-V2、阿达摩院的Zeroscope等。只能说,国内大厂也很忙,大语言模型大战才刚打响不久,现在又开始准备卷下一场战役。

 

但AI视频生成确实是一个颇具前景的创业赛道。目前来看,Midjourney估值100亿美元,Stability AI估值40亿美元,Runway估值15亿美元,就连成立时间不足一年的新贵Pika的估值已经达到2.5亿美元。

视频内容生产者慌不慌?

那么Sora的崛起,会影响哪些行业呢?

 

首当其冲的是传统影视行业。不少导演都说,影视行业“要变天了”。毕竟Sora能够生成长达60秒的视频,包括精细复杂的场景、生动的角色表情以及复杂的镜头运动。

 

而以往需要大量时间和资源来制作的特效和场景,现在可能只需要输入一些文字描述,Sora就能够自动生成这些高质量画面,这能够大大减少影视制作的预算,从前大几百万的影视制作现在或许只要十分之一,同时也能够代替一些不重要的职位,比如群演、灯光布置。

 

与此同时,还会有一个趋势,就是影视作品的门槛会急剧降低。对于一个年轻人来说,只要他脑海里有一个好故事,就能够依靠AI视频技术低成本创作出来。

其次,广告行业也能够被颠覆掉,特别是一些汽车广告、美食广告、旅游景点的广告,这些并不需要复杂情节的广告作品很容易被AI替代掉。

 

再者,短视频行业也会受到不小的冲击,由于Sora可以生成60秒的视频,会降低每一个普通人创作视频的门槛,对于抖音乃至TikTok来说,都会出现不少生成视频的内容。

 

ChatGPT之后,Sora横空出世,可怕还是可敬?

 

最后是游戏开发和新闻媒体行业。AI可以辅助创造更加复杂和真实的视觉效果,这使得游戏开发者能够更快速、更高效地创建游戏内容和场景,同时也可以减少制作成本。

 

新闻行业中,Sora可以帮助快速生成新闻报道中所需的视频素材,尤其是在紧急情况下的现场报道。

 

当行业纷纷为Sora叫好的同时,万千视频生产者心里也难免复杂,Sora如此强大,科技已经如此恐怖,人类还能做什么?

 

不少网友直呼,工作要丢了,我该怎么办?

 

从内容创作者的角度来说,Sora带来的影响也需要辩证看待。

 

首先看悲观的方面,秉承着“万物不为我所有,万物为我所用”的原则,Sora能够代替人类完成一些简单、重复、追赶时效的工作。比如追逐热点和比拼速度的能力,人类创作者无论怎么努力也比不过AI。因此,可以预料到,未来“抓热点”性质的视频内容将会严重过剩,一部分内容方将被淘汰出局。

 

其次看积极的方面,Sora不具备创作者所必需的“灵魂”,不能胜任需要高度逻辑分析能力的深度解读,不能完全取代人类的专业技能和创造力。

 

所以优质的创作者完全可以与AI达成分工,AI负责信息与材料的收集(即重复劳动),而自己负责专业性的输出。

 

另外,Sora的实用价值还值得怀疑,它依然有不小的问题,比如它可能难以准确模拟复杂场景的物理原理;可能无法理解因果关系;还可能混淆提示的空间细节;可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹等。

 

其实,在AI 发展的数年沉浮之中,有关AI替代人类的种种争论从未停止,但“变”是常态,“不变”才不正常。

 

借用马斯克的一句话,“悲观毫无意义,我宁愿乐观”。生成视频的时代已经到来,与其担惊受怕地度过,不如抓紧人类手中的舵,投身这个AI新浪潮。

 

参考资料

《OpenAI发布首个视频生成模型,1分钟流畅高清,网友:整个行业RIP》学术头条

《详解Sora,为什么是AGI的又一个里程碑时刻?》36kr

OpenAI文生视频模型Sora官网

首席商业评论
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
首席商业评论
首席商业评论
发表文章127
深究商业逻辑,助力价值成长。我们尊崇“众创、互联、共享”的互联网精神,提倡培养领导力与创新思维,并以此作为价值准则,努力为企业家与商界人士提供符合发展趋势的内容与服务。公众号:首席商业评论
确认要消耗 羽毛购买
ChatGPT之后,Sora横空出世,可怕还是可敬?吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接