APP推广合作
联系“鸟哥笔记小乔”
GPT-4震撼发布!碾压ChatGPT,强大到没对手?
2023-03-16 15:50:21

出品 | 微果酱

作者 | 陈出木&zhou大红

科技圈上一次这么“疯狂”,还要回到2007年1月9日。苹果联合创始人兼CEO的史蒂夫·乔布斯(Steve Jobs)在旧金山Moscone中心发布第一代iPhone,标志着智能手机时代的来临,也加速了移动互联网时代的腾飞。

而今天,曾经掀起科技海啸的ChatGPT推出迭代产品——GPT-4,会否再一次改变世界

“超级网红”GPT-4亮相

今天凌晨一点,OpenAI的首席执行官Sam Altman在社交媒体上发文,官宣推出“GPT-4”(openai.com/research/gpt-4):

这里是GPT-4,它是我们迄今为止最强大和最一致的模型,今天在我们的API(带有等待列表)和ChatGPT plus中可用。它仍然是有缺陷的,仍然是有限的,而且它在第一次使用时似乎比你花更多时间使用它之后更令人印象深刻。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

一石激起千层浪。

国外,华尔街日报、纽约时报等各大媒体闻风而动,BBC用上的标题是《OpenAI announces ChatGPT successor GPT-4》,直接将GPT-4称为ChatGPT的“继任者”。

国内同样大受震动,各家媒体争相报道。一时之间,““未来”似乎真的已来。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

这种科技应用热浪已经很久没看到过了,甚至颇有2007年乔布斯发布会的激动既视感。

彼时,乔布斯在台上向人们讲解为什么要花499美元买iPhone。尽管他语气平静,但台下掌声雷动,媒体们也像今天这般蜂拥跟进。而直到现在,16年后,互联网上仍然持续铭记并怀念着那场划时代的发布会。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

因为正如乔布斯所说,“苹果要重新定义手机。”那天之后,我们逐渐用上智能机,正式步入了移动互联网时代。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

当前很难断定GPT-4是否能像iPhone那般改变世界,毕竟连“ChatGPT之父”Sam Altman也表示,其仍有缺陷。但毋庸置疑的是,它正在加速这种改变。

以下是Open AI关于GPT-4新能力的介绍:

我们创建了GPT-4,这是OpenAI扩展深度学习的最新里程碑。GPT-4是一个大型多模态模型(接受图像和文本输入,发出文本输出),虽然在许多现实场景中不如人类,但在各种专业和学术基准上表现出人类水平的表现。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

图源:GPT-4官网

GPT-4的新功能一览

根据GPT-4的官网消息,相比GPT-3.5,GPT-4的能力将在任务复杂性达到足够的阈值时显现出来,会更可靠、更具创造力,并且能够处理更细微的指令。

相当于说,问题越难,GPT-4越能一展身手,而普通交谈上,GPT-4和GPT-3.5差异不大。这个结论是基于,OpenAI让两个模型在各种为人类设计的模拟考试上进行的实验。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

此外,GPT-4优于现有的大型语言模型及大多数SOTA模型。且在测试的 26 种语言的24种中,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla、PaLM)的英语语言性能。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

根据官方技术文档,GPT-4的新功能具体包括:

1.Visual inputs(视觉输入)

GPT-4可以接受文本和图像的prompt(javascript语言中的一个方法,主要用于显示提示对话框),这与纯文本设置并行,允许用户指定任何视觉或语言任务。

具体来说,当用户给定由穿插的文本和图像组成的输入,GPT-4可以生成文本输出,包括了自然语言、代码等。换言之,输入带有文本和照片的文档、图表或屏幕截图,GPT-4已经可以表现出与纯文本输入类似的功能。

此外,它还可以通过为纯文本语言模型开发的测试时间技术来增强,包括少量镜头和思维链prompt。

举个例子,当你问GPT-4:“这张照片有什么好笑的?逐一描述。”面对问题中同时出现了文本和图片的情况,GPT-4识别之后,丝毫不慌地给出三个理由。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

再来个图文并茂的物理题,GPT-4不仅成功跨语种,读懂法语题目并给出了完整解答过程。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

GPT-4还能站在人类角度理解到图片的不同寻常之处。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

甚至对于更加具有主观创造性的“梗图”和漫画,GPT-4也能说出个一二三四。

User:你能解释一下这个迷因吗?(图中文字翻译:有时我只是从太空看地球的照片,想象这一切是多么美好)

 

GPT-4:这是一个笑话,它结合了两个无关的东西——来自太空的地球图片和鸡块。其文字表明,下图是一张来自太空的地球图片,而这张图片实际上是鸡块,被排列成模糊的世界地图。其中的幽默来自于文本和图像的意外并置。文本设定了一个宏伟的地球形象的期望,但这个形象实际上是世俗和愚蠢的。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

在Open AI发布的GPT-4开发者直播视频中,开发人员还演示了利用GPT-4,将他笔记本上的草图图像创建了一个网站。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

尽管官方表示,图像输入仍然是一个研究预览,无法公开。但无疑,这样的人工智能程度是足以令人心惊的。

而开发者还不断发现GPT-4能处理的新的任务,并计划很快发布进一步的分析和评估数据,并对测试时间技术的影响进行彻底调查。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

2.Steerability(可操纵性)

OpenAI一直致力于定义AI行为的各个方面,其中一项就是可操纵性。

官方表示,开发人员(以及很快的ChatGPT用户)可以通过在“系统”消息中描述方向来设定他们的AI风格和任务,而不像传统的ChatGPT,具有固定的冗长语调和风格。

这一个功能的意思是,系统消息允许API用户在一定范围内自定义用户体验,即是用户可以在系统中设定GPT-4的角色,并在这个基础上进行AI问答,而GPT-4的回答将基于这个设定展开。

在官方示例中,使用者在system(系统)设定GPT-4是“一个总以苏格拉底式风格回应的导师,永远不会给学生答案,但总是试着提出正确的问题......”可以看到,在随后的对话中,GPT-4遵守着这一设定,不断提出问题引导使用者。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

3.将事实与错误陈述的对抗性选择区分开的能力

尽管GPT-4强大如斯,但其实局限性与早期GPT模型相似。最重要的是,它仍然不完全可靠(它“幻觉”了事实并犯了推理错误),只是相比此前模型已经减少了“幻觉”,在内部对抗性真实性评估中,GPT-4的得分比GPT-3.5高40%。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

GPT-4在TruthfulQA等外部基准上取得进展。比如在测试模型将事实与一组错误陈述区分开来的能力,GPT-4仅略优于GPT-3.5。但经过RLHF(reinforcement learning from human feedback,强化学习人类反馈)训练后,差距就明显起来了。

在官方示例中,GPT-4开始拒绝选择常见的说法(你不能教老狗新的技巧),但它仍可能错过一些微妙的细节(埃尔维斯·普雷斯利不是演员的儿子)。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

根据一些近期的博客文章,OpenAI的目标是使构建的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。

但官方也承认,GPT-4通常缺乏对绝大多数数据中断(2021年9月)后发生的事件的了解,也没有从中吸取经验教训,有时会犯一些简单的推理错误,或者轻信用户的虚假陈述。

这便是有趣之处,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确的概率相匹配),但通过OpenAI目前的后训练(post-training)过程,校准减少了。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

4.安全性能提高

GPT-4与此前的模型具有类似的风险,例如生成有害建议、错误代码或不准确的信息,再加上新功能带来的新风险,都有可能为其未来埋下重雷。

所以,OpenAI通过预培训数据的选择和过滤、评估和专家参与、模型安全改进以及监控和执行,来提高GPT-4的安全性能,并在RLHF训练期间加入了额外的安全奖励信号。团队收集了多样化数据集,在允许和不允许的类别上应用安全奖励信号(有正值或负值),以减少有害输出和防止拒绝有效请求。

这些措施改善了GPT-4的安全性能。与GPT-3.5相比,模型对不允许内容的请求响应倾向降低82%,对敏感请求(如医疗建议和自我伤害)的响应符合政策的频率提高29%。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

5.使用RLHF微调模型行为

与此前的GPT模型一样,GPT-4基础模型被训练为预测文档中的下一个单词,并使用公开可用的数据(如互联网数据)以及我们许可的数据进行训练。所以,这个数据集包括了数学问题的正确答案和错误答案、弱推理和强推理、自相矛盾和一致的陈述等。

这就导致模型的响应可能与用户的意图相去甚远。为了缓解这种情况,OpenAI使用RLHF来微调模型的行为。但GPT-4的能力似乎主要来自预训练过程。RLHF不会提高甚至降低考试成绩。但模型的控制来自后训练过程,基础模型甚至需要及时的工程设计来回答问题。

6.构建可预测扩展的深度学习堆栈

GPT-4官方强调了这个新项目的重点之一,是构建了一个可预测扩展的深度学习堆栈,因为广泛的特定模型调整对于GPT-4这样的大型训练不可行。

研发团队开发的基础设施和优化在多种规模下都有可预测的行为。为了验证这种可扩展性,他们通过使用相同方法但计算量少10000倍的模型中进行外推,提前准确预测GPT-4在内部代码库(不是训练集的一部分)的最终损失。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

从GPT-4更新的这六项能力里,我们可以在一定程度上看到人工智能的发展水平。

OpenAI表示公司内部也在使用GPT-4,所以也关注大型语言模型在内容生成、销售和编程等方面的应用效果,并将使用GPT-4辅助人们评估AI输出,这也是OpenAI对其策略的第二阶段。

GPT-4会改变世界吗?

GPT-4这一波来势汹汹,压力给到了碰巧计划明天发布文心一言的百度。

但如果细究GPT-4会否改变世界,却很难一言以蔽之。

诚然,GPT-4的推出可以在一定程度上标志着人工智能水平的进一步拔高。可以预见,在其完全开放之后对各个行业的冲击,因为连图文都能够进行解读的AI,必然能够输出更加细腻的内容。

这显然会让世界范围内追赶ChatGPT的友商再次虎躯一震,于是“站队”也提前到来,是接入还是硬刚——

GPT-4正式官宣后,微软也确认新的Bing正在GPT-4上运行,「这是我们为搜索定制的」。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

而 GPT-4的上新,距离2月8日微软发布由ChatGPT和GPT-3.5提供支持的全新搜索引擎必应(Bing)和Edge浏览器,仅仅过去了一个月多。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

为了保住自己的行业老大哥地位,谷歌在AI方面也没闲着。

2月7日,谷歌官宣其基于2021年5月推出的大语言模型LaMDA而打造的一代对话AI系统Bard;

谷歌正在为开发人员提供其最先进的人工智能语言模型之一:PaLM。这家搜索巨头正在为 PaLM 推出一个 API以及一些人工智能企业工具,据称这将帮助企业“从简单的自然语言提示中生成文本、图像、代码、视频、音频等。”

3月14日,谷歌开放AI语言模型PaLM API,企业和开发人员将能够在该系统的基础上构建自定义聊天机器人等。

注:PaLM 是一种大型语言模型,即 LLM,类似于Open AI 创建的 GPT 系列或Meta 的 LLaMA 系列模型。

除了推出 PaLM API 外,谷歌还在其 Vertex AI 平台中扩大对生成 AI 的支持;并推出了一个名为Generative AI App Builder的新平台,该平台“允许开发人员快速发布新体验,包括机器人、聊天界面、自定义搜索引擎、数字助理等。

而在3月16日(也就是明天),百度的大模型新项目文心一言(ERNIE Bot),也将迎来正式揭晓的时刻。尽管还不知道它长什么样子、具备怎样的“超能力”,铺垫了一个多月也吊足了大家的胃口。

GPT-4震撼发布!碾压ChatGPT,强大到没对手?

但话又说回来,OpenAI发布的这篇“Technical Report”,说是技术报告,不如说是产品广告+免责声明。毕竟官方无时无刻不在强调,GPT-4仍有局限、缺陷和风险。有AI专家直言,“是一次推广特征更为明显的广告行为”。

GPT-4是站在巨人的肩膀上,用此前的技术积累完成迭代,其整体技术相比此前,并没有非常里程碑式的突破,只能说均有优化。

更值得注意的是,OpenAI还在官宣GPT-4的内容最后表示,正在开源OpenAI Evals,该软件框架系用于创建和运行评估GPT-4等模型的基准,支持编写新的类来实现自定义的评估逻辑,广邀用户体验。

如此看来,GPT-4推出的最大意义或许不在于具体如何改变世界,更在于加快科技发展的进程,向世人展示人工智能的更多可能性,以及为OpenAI打了一波成功广告。

微果酱
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
微果酱
微果酱
发表文章759
微果酱,新媒体的建设者,新商业的助力者。专注于新媒体人物故事、资讯、短视频等报道。
确认要消耗 羽毛购买
GPT-4震撼发布!碾压ChatGPT,强大到没对手?吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接