APP推广合作
联系“鸟哥笔记小乔”
实测文心一言,与GPT-4差距在哪?
2023-03-23 16:25:55

本周无疑是AI爆炸周。

昨晚微软推出了Microsoft 365 Copilot,Office软件全面接入生成式AI功能。

而在刚刚过去的疯狂星期四,“中国版GPT”文心一言也迎来了备受关注的高光时刻。当天下午2点,百度创始人李彦宏出现在发布会现场,展示了文心一言的使用场景表现。

据悉,3月16日起,首批用户可通过邀请码在文心一言官网体验产品,后续将陆续开放给更多用户。

 

 

实测文心一言,与GPT-4差距在哪?

 

值得关注的是,昨天发布会开始后,百度集团港股股价出现持续下挫,最高跌幅一度达到9%,最终收盘时的跌幅达6%。然而情况在今天却发生了逆转,截至发稿前,百度港股股价持续上涨逾14%。

 

 

 

无独有偶,在文心一言正式上线的前一天,OpenAI正式官宣了大模型GPT-4,距离上次惊艳出圈的ChatGPT推出仅过去4个月。最新官宣的GPT-4不仅提升语言模型方面的能力,并添加了“多模态”的图片识别功能。简单来说,GPT-4更聪明,也更像人了。

 

对于文心一言与GPT-4而言,几乎同时期的上线节奏,意味着两者之间的比较不可避免。第一时间获得内测资格后,新榜编辑部分别向文心一言和搭载GPT-4版本的微软Bing提出了9个相同的问题,看看它们是如何回应的。(想知道问题和答案的朋友可直接跳转第三部分)

 

P.S 自3月16日起,个人用户可以通过访问yiyan.baidu.com,点击“立即体验”参与排队。

 

文心一言:是不及预期,还是值得期待?

 

“十月怀胎,一朝分娩。”

 

正式发布文心一言之前,李彦宏用这样一句话概括百度多年来在文心AI系列产品上的布局。2019年3月,百度推出文心ERNIE 1.0以来,期间经历了多次迭代,此次发布的文心一言是在过往产品上的延续与升级。

李彦宏还表示,对文心一言,大家的期望值是要对标ChatGPT,甚至要对标GPT4,这个门槛还是很高的。全球的大厂当中,百度是第一个发布的。(ChatGPT由OpenAI开发,不隶属于微软,双方为合作伙伴关系)

 

在产品演示环节,李彦宏分别演示了文心一言在文学创作、商业文案创作、数理推算、中文理解和多模态生成五种使用场景中的表现,比如总结小说《三体》的核心内容,给公司起名、写标语,计算鸡兔同笼数学问题,以及根据文本自动生成图片、视频等。

 

*滑动查看内容*

实测文心一言,与GPT-4差距在哪?

 

值得注意的是,以上演示环节都是提前录制好的视频DEMO,现场并没有演示向文心一言实时提问的效果,这让不少用户感到失望,认为产品没有达到预想中的惊艳效果,间接影响到百度在资本市场的走势,导致其港股股价在发布会期间直接跳水。

 

不及预期的演示效果,与百度对文心一言的高调宣发,和产品的匆忙上线节奏都存在一定联系。

 

今年初ChatGPT出圈后不久,百度便宣布正在筹备类似AI产品文心一言,预计3月份面向公众开放。2月底发布2022年Q4及全年财报后,李彦宏在全员信中提到,“百度的多项主流业务与文心一言整合,包括搜索、智能云、Apollo自动驾驶、小度智能设备等”。

 

与此同时,文心一言仍然处于紧锣密鼓的测试开放过程中。据《华尔街日报》报道,文心一言上线一周前,有百度员工表示产品的基本功能尚未完善,所基于的AI模型仍在接受数据训练。

 

或许是种种因素叠加,李彦宏在发布会一开始就表示,内测期的文心一言并不完美,但考虑市场有需求,所以必须要推出来,并强调用户的使用反馈能够帮助文心一言不断优化迭代。

 

发布会现场,李彦宏宣布已有650家机构宣布加入文心一言生态,李彦宏也表示看好未来AI市场的爆发性需求。百度官方数据显示,截至3月17日10点,申请文心一言API调用服务测试的企业已达7.6万家

 

实测文心一言,与GPT-4差距在哪?

 

“百度敢于在当下这个时点发布自己的大模型,还是有很大的勇气,行业关注度很高,客观上能够促进国内AIGC上下游的发展。”一帧视频CEO雷涛告诉我们,其旗下产品“一帧秒创”也支持文字转视频,所以比较关注文心一言的多模态输出能力,但发布会演示的效果不及预期。

 

他认为,对中国的互联网创业者来说,现在到了一个“AI平权”的阶段——今天任何一个人工智能创业公司与百度的差距,都远小于百度与OpenAI的差距,所以小公司也有机会在中文互联网开展与行业巨头的竞争。而基于现有模型成果的应用开发,小公司也有了更多尝试的机会。AIGC的黄金十年可能已经开启了。

GPT-4升级多模态,国内如何接招?

 

回顾文心一言的诞生,除了百度本身十余年的技术积累之外,ChatGPT才是引爆这场AI科技大战的关键点。

 

今年2月初,微软推出了新的人工智能搜索引擎Bing和Edge浏览器,谷歌发布了实验性的对话AI服务Bard,而“中国版ChatGPT”在哪里?不少目光投向了百度等国内大厂,很快百度就官宣了文心一言。

 

巧合的是,在文心一言发布前一天,3月15日凌晨,OpenAI推出了多模态大模型GPT-4,这次里程碑式的升级让人感叹“这下压力给到了百度”。

 

GPT-4主要有以下几点更新:

 

1.新增视觉输入

 

GPT-4支持以图像作为输入并生成对应的文字说明、分类和分析,图像支持包括带有文字和照片的文件、图表或屏幕截图。

 

在样本演示中,可以看到GPT-4不仅能处理图表、回答考试题、总结论文概要,还能解释梗图。比如GPT-4看出了这张图的特别之处在于,一名男子挂在车上熨衣服的极限操作。

 

实测文心一言,与GPT-4差距在哪?

 

对于地图和鸡块的组合,GPT-4也能指出梗的幽默之处。

 

实测文心一言,与GPT-4差距在哪?

 

在GPT-4发布会上,输入一张网站设计草图,它甚至当场只花了十几秒时间就生成了一个完整的前端HTML代码并制作出网站。

 

实测文心一言,与GPT-4差距在哪?

 

不过目前图像输入仍属于研究方面预览,没有对C端用户开放。

 

2.更长的上下文

 

GPT-4能够处理超过25000个单词的文本,允许使用长格式内容创建、扩展对话以及文档搜索和分析等。这意味着用户不用像之前那样分成几段文字来提问,处理长文本更方便了。

 

比如输入一个蕾哈娜的百科网址,GPT-4可以读取其中的内容并根据要求整合信息,回答出她在超级碗上的表现如何。

 

实测文心一言,与GPT-4差距在哪?

 

3.可控性(角色扮演)

 

目前开发者(很快所有ChatGPT用户)可以通过在“系统”消息中输入描述来规定AI的风格和任务。也就是说,AI可以按照用户的要求进行角色扮演,以特定人物的语气风格进行对话,比如示例中的苏格拉底导师、莎士比亚的海盗。

 

实测文心一言,与GPT-4差距在哪?

 

此外,相比上一代的GPT-3.5,GPT-4的回答深度和专业性、解决难题的能力等也显著提高。

 

据官方介绍,在随意的谈话中,GPT-3.5和GPT-4之间的区别可能很微妙。但当任务的复杂性达到足够的阈值时,差异就会出现——GPT-4比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。

 

实测文心一言,与GPT-4差距在哪?

GPT-4可以做到用A~Z开头且不重复的单词讲述灰姑娘的故事

 

实验表明,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。例如,它通过模拟律师考试,分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。

 

实测文心一言,与GPT-4差距在哪?

 

在安全问题上,OpenAI花了6个月的时间使GPT-4更安全、更一致,据内部评估,与GPT-3.5相比,GPT-4响应违规内容请求的可能性降低82%,产生事实响应的可能性高40%。但OpenAI承认,GPT-4仍然不完全可靠,例如会生成有害建议、错误代码或不准确信息,我们在使用时需要谨慎辨别。

 

除了模型的提升,目前OpenAI已经与多家公司合作将GPT-4搭载到他们的产品中,官网列出的案例涵盖语言学习、金融、咨询、教育、生活助手、语言保护等领域。

 

“GPT-4改变了游戏规则,它开辟了很多领域。”移动支付公司Stripe应用机器学习团队的产品负责人Eugene Mann说道。

 

GPT-4的发布正推动着创业者和互联网大厂纷纷跟进,国内在模型层可能暂时难以赶上,而在机会更多的应用层,目前国内的AI创业竞赛似乎才刚刚开始。

 

实测文心一言,与GPT-4差距在哪?

李彦宏表示最大的机会在于应用开发

 

据科创板日报,综合多个第三方机构的统计,目前,国内AIGC领域的项目数量在30个以内,主要集中在聊天咨询、文案策划、图像创作、音乐生成、视频制作以及游戏等应用领域。

 

AI创业者王凯认为,在ChatGPT3.5出来之前,国内应用层多数是to b的场景,打个比方来说,之前是自行车比赛,ChatGPT3.5出来后变成汽车比赛了。现在国内AI应用层还没到爆发期,个人或者初创公司的机会就是找个垂直场景、垂直行业把AI当作生意模式的一环去做。

文心一言 VS Bing(搭载GPT-4)

 

国内的大模型与国外有多大差距?长期关注AI的即刻用户“哥飞”称,GPT-4很强,文心一言的水平估计在GPT2.5左右。

 

最后,新榜编辑部分别向文心一言与使用GPT-4技术的Bing提出了9个不同的问题,涵盖生活问题、数学推理、文案创作等类型,看看谁“更像人”。

 

Q1:什么工作钱多事少离家近?

 

文心一言:快递员、外卖骑手、钟点工、卖早点小吃。

 

实测文心一言,与GPT-4差距在哪?

 

Bing:互联网、金融、咨询、自由职业者。

 

实测文心一言,与GPT-4差距在哪?

 

Q2:

1、笼子里有30只鸡和兔子,一共84条腿,有几只鸡几只兔子

2、笼子里有30只鸡和兔子,一共54条腿,有几只鸡几只兔子(题目出错了,无解)

3、笼子里有10只鸭子和小狗,鸭子2条腿,小狗4条腿,一共24条腿,有几只鸭子几只小狗

 

文心一言:都答错了。

 

实测文心一言,与GPT-4差距在哪?

 

Bing:第一题对了,第二题错了,第三题计算过程正确,但没显示答案。

 

*滑动查看所有回答*

实测文心一言,与GPT-4差距在哪?实测文心一言,与GPT-4差距在哪?实测文心一言,与GPT-4差距在哪?

Q3:帮我写一篇sk2大红瓶面霜的小红书种草笔记。小红书种草笔记的风格是,每行文字不超过20个字并且都以emoji表情符号开头,文风浮夸高调

 

文心一言:指导你写,自己不写,并且显示不出emoji表情包。

 

实测文心一言,与GPT-4差距在哪?

 

Bing:像模像样,很有礼貌。

 

实测文心一言,与GPT-4差距在哪?

 

Q4:用一个图片表情包形容你跟我聊天的心情

 

文心一言《强 颜 欢 笑》

 

实测文心一言,与GPT-4差距在哪?

 

Bing:不能画图,但跟你聊天真开心。

 

实测文心一言,与GPT-4差距在哪?

 

Q5:重写宋慧乔主演的《黑暗荣耀》这部韩剧的结尾:

 

文心一言:虽然我没看过,但我能给你套上一个万能结尾。

 

实测文心一言,与GPT-4差距在哪?

 

Bing:有些狗血的BE,但起码我看过。

 

实测文心一言,与GPT-4差距在哪?

 

Q6:用文言文总结这个故事:

有一天,在森林里兔子和乌龟比赛跑步,兔子嘲笑乌龟爬得慢,乌龟说:“总有一天我会赢的。”兔子就轻蔑地说:“那我们现在就开始比赛!”乌龟答应了,兔子大声喊道:“比赛开始!”兔子飞快地跑着,乌龟拼命地爬着。不一会儿,兔子与乌龟已经离的有很大一段距离了。兔子认为比赛太轻松了,它要先睡一会,并且自以为是地说即使自己睡醒了乌龟也不一定能追上它。而乌龟呢,它一刻不停地爬行,爬呀爬呀,到兔子那里的时候,它已经累得不行了,但乌龟想如果这时和兔子一样去休息,那比赛就不会赢了,所以乌龟继续地爬呀爬呀。当兔子醒来的时候乌龟已经到达终点了。

文心一言:总结了,但不是文言文。

 

实测文心一言,与GPT-4差距在哪?

 

Bing:是文言文,但没总结,追问之后可以。

 

实测文心一言,与GPT-4差距在哪?

实测文心一言,与GPT-4差距在哪?

 

Q7:模仿李白的《将进酒》写一首诗,主题是肯德基疯狂星期四

 

文心一言:现代诗,肯德基满意地V我50。

 

实测文心一言,与GPT-4差距在哪?

 

Bing:人生在世须尝鲜,莫使美味空过眼。

 

实测文心一言,与GPT-4差距在哪?

 

Q8:以表格形式列出百度2022年各个季度的营收额

 

文心一言:神奇的7季度出现了,是李彦宏看到也会无语的程度。

 

实测文心一言,与GPT-4差距在哪?

 

Bing:比文心一言靠谱,但不多(部分日期和数字对不上)。

 

实测文心一言,与GPT-4差距在哪?

 

Q9:你现在是一个悬疑小说的编剧,设计一个密室谋杀案件,说明具体手法

 

文心一言:好像学会了,又好像没学会。

 

实测文心一言,与GPT-4差距在哪?

 

Bing:生成答案后立马删除(差点忘了这是不能说的)。

 

实测文心一言,与GPT-4差距在哪?

实测文心一言,与GPT-4差距在哪?

以上是我们向文心一言和Bing提出的问题,考虑到文心一言目前尚在小范围内测,如果你有想问的问题,欢迎留言,我们帮你问。

作者 | 小八 卷毛

编辑 | 张洁

校对 | 小八

新榜
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
新榜
新榜
发表文章2494
新媒体,找新榜。两微一抖小红书,KOL+KOC+Feeds,内容营销、电商带货、用户运营、版权分发。新榜——互联网内容科技公司,服务于内容产
确认要消耗 羽毛购买
实测文心一言,与GPT-4差距在哪?吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接