AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

访客 智能手机 2.2K+

最近ChatGPT等AI聊天机器人产品无疑吸引了大量被冷却已久的人工智能的关注,孰强孰弱成为大家关注的焦点。为了验证这些AI对话引擎的性能,Ann特意进行了针对性的测试。

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

在AI领域,安此前推出了面向手机NPU的AI性能专业测试软件“AI艾图图”。所以对于AI相关的测试,Ann里的AI专家会比普通用户懂的多一点。所以我们测试的重点和能力会和普通测试有些不同。

在本次测试中,Ann根据AI对话引擎能力点的不同要求,将测试分为六个模块。这些模块是:“1 .语言理解

\2。任务完成 \ 3。常识题[div] \ 4。[div][div]

这些模块的设计主要遵循渐进规则。比如语言理解是NLP对话的基础,一个AI引擎能否读懂用户发来的内容,决定了后续工作能否完成。任务完成度是考察AI引擎从基本任务到相对困难任务的具体执行能力。剩下的常识题,逻辑数学,更多的是引擎注入训练的数据集是否足够大,然后是代码能力和专业领域知识,就像考察更高层次的能力。换个说法吧,这就像是一个从牙牙学语到蹒跚学步,再到学习成为专业人士的过程。

在每个具体模块下,又有很多细分。具体试题的评价标准分为0/1/2/3四个等级,其中0为最差,3为最好。通过这个分数可以直观的判断出AI能力的差异。具体评分细节将在分类中给出。

但需要注意的是,无论是百度的ERNIE[div]

3.0,还是OpenAI的GPT-3.5turbo和GPT-4都不是开源的,所以它们的底层逻辑如何实现,RLHF如何调优,目前都处于黑箱中,每一个答案都是机器实时运行得到的,所以我们无法保证每一次。所以很难做到完全客观,所以在某些模块中无法避免完全排除主观因素的影响,特此说明。

根据以上评分规则和考察内容,我们先公布结果。这三个引擎的总成绩如下:

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

很多人看到这个结果可能会说,我们也能猜到这个结果。但具体原因,大概没多少人明白。在接下来的内容中,Ann将详细分析每次测试的具体测试目的,以及产生这种结果的原因。

详细的测试过程和子模块结果

1。语言理解

可以说语言理解能力是NLP的主战场,这部分的表现是各大模型的基本盘。我们的测试不仅包括常见的NLP任务,如文本摘要、阅读理解、关键信息提取等。,还包括一些大模特擅长的文字生成能力,比如写作生成。由于大模型强大的端到端处理能力,我们没有测试一些传统的只关注中间结果的NLP任务,比如实体识别和语法分析。我们相信随着大模型能力的提升,一些中间结果的NLP任务会逐渐减弱。另外,在这次测试中,我们只关注中文的效果,而没有考虑模型的多语言能力。

在本次测试中,我们分解了六个项目,即:

1.写作生成:提出简要要求,生成一定数量的单词。

2.阅读理解:根据给定的课文回答问题。

3.复杂语义理解:双关语、修辞、中文分词、情感、谜语等问题。

4.摘要生成:如果提供了一定的长度,让引擎生成一个摘要。

5.信息抽取:复杂文本中的关键信息抽取。

6.多轮理解能力:3-10轮对话,对话主题有跳跃,问题不考察太复杂的推理和常识。

对于每道题,如果完全不懂题,就0分;对问题的理解有偏差,回答有错误的,扣1分;正确理解问题得2分;问题理解准确,回答超出预期,得满分3分。

先看结论

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

从本模块的结论来看,ChatGPT4.0出乎意料的获得了一等奖,但是我们发现百度文心伊彦在本次评测中的表现其实还不错,大部分项目与GPT-3.5turbo持平,甚至有些项目还略有超标。其能力较弱,但主要集中在摘要生成和信息提取方面,大大拉低了最终得分,导致效果不理想。

举个具体的例子,就能发现问题。

例如,在摘要生成中,我们使用《史记》中“小世家”原文的854字内容作为输入,并让AI生成摘要。此时,ChatGPT的两个AI引擎都可以对翻译的内容进行精简和总结,得到112字和199字的摘要,但文心似乎完全忽略了文末“这段话产生一个摘要”的提示,直接将这篇古文的全文翻译并贴了出来,而由于1000字的字数限制,对话结束时只有1000字。所以在这个题目的测试中,ChatGPT得了3分,文心得了0分。这个结果就跟学生时代的考试一样。老师评卷的时候会连连声讨,“看题!请仔细阅读问题!”没错,文心就是这个时候不认真看题的孩子。

更何况我们在测试中也看到了这样的情况。当一个话题沉默时,会真诚地说,

“作为一个人工智能语言模型,我还没学会怎么回答这个问题。你可以问我一些其他问题,我会尽力帮你解决。”chat GPT的原理你应该知道,就是每一个问题都会有人回答,就算不会也要补上。这让我想起了语文老师曾经说过的一句话“不会补就补吧,会加分的!”

说了不好的部分,再来看看文新的优点。比如多轮理解,这是AI聊天机器人非常关注的一个能力。对于寻求答案的用户来说,一个简单的关键词往往很难概括他们所想。这时候多轮对话的能力可以帮助他们理清思路,在这个过程中得到更合适的结果。而AI理解用户的深层意图并提供反馈,是多轮理解能力的核心。在这个测试中,我们发现当百度文心的一个词涉及到古代汉语和中国传统内容时,输出内容一点也不弱。

我们认为,这个环节需要改进的是,首先,在面对用户长篇大论的内容输入时,要尽量关注正文末尾的内容(条件),也就是用户对上述文字的要求。不要被冗长的文字内容所干扰,会造成错误的答案。其次,要学习ChatGPT的无耻部分。当一个问题无法回答的时候,你也可以根据目前已知数据的判断,认真的补一个答案。毕竟你有答案不一定能得0分,但是你不回答肯定是得不到分的。

2。任务完成

任务完成部分着重于用户通过任务指令的描述要求模型完成的情况。自GPT3以来,大规模模型之所以受到关注,一个重要原因就是指令

跟随的强大能力,它可以完成人类赋予的非特定任务,比如按要求给出一张要处理的表格,甚至描述一个非常罕见的任务让模型去做。fev-shot 学习的这种能力大大提高了模型的通用性。

在这次测试中,我们为AI安排了两个检查点,即:

1.

常见任务:如表格理解、角色扮演等经济学家每天能想到并希望模型做的常见事情。

2.

具体任务:通过文字描述非常规任务,包括举例使模型完整。

在这个项目的测试中,我们决定,如果AI能够胜任常见任务,完全可以代替人工,得3分;AI基本能完成任务,但可能有不重要的小错误,简单处理就能得2分;如果AI只能部分完成任务,需要人工修正才能得1分;如果AI完全不能理解问题的意思,那么结果就是0。

同样是先看结论:

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

ChatGPT3.5和4.0无论具体任务还是常见任务差别不大,但百度文心的表现并不理想。具体问题其实归结到最后一个测试项中的语言理解能力和训练内容的丰富程度上的问题。

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

比如在一个具体的任务中,我们需要根据“福建人(HuJianren)”和福建人混淆“f”和“h”的规律,标注以下词组的发音:南非,防护服”理论上并不复杂。

ChatGPT3.5的逻辑知道问题是什么,但答案不够完整,无法提供基调。4.0版本提供了超出预期的答案,“南非(Nán

Fēi):南汇(nánHuá)防护服(fá ng [div] 。

不仅正确,甚至还提供建议,提醒这种说法不是普通话,普通话还是应该用标准发音。但文心未能理解题目,给出的答案只是简单的重复问题,因此未能得分。

再比如包括,我们问引擎

“我给你一句话,请把这句话重复两遍,第一遍完全倒着写,第二遍完全倒着写第一遍的结果。”这句话就是:我们期待双方进一步深化合作。"

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

两个版本的ChatGPT给出的答案完全一样,完全理解语义,给出正确的结果。而文心在这道语序题中表现乏善可陈,似乎完全没有理解问题的意思,导致第一遍和第二遍的答案都是错的。[div]

3。常识问题[div]

基于知识的测试体现了大模型背后强大的知识存储和理解能力,可以直接帮助人类快速回答问题。我们这里既包括简单的常识,也包括比较复杂的专业知识。特别是在专业知识上,我们也描述了一些现象,让模型可以用专业知识来回答。这种逆向测试可以体现模型对知识的理解。

在本次测试中,我们分解了五个部分,包括:

1.客观常识事实(高中生和大学生都学过):客观事实问题主要看对错。

2.主观常识:一个相对主观的问题,主要看模型回复的合理性、逻辑性和质量。

3.因果推断:简单的因果关系

4.复杂事实的常识:两个或两个以上事实的结合。

5.事实错误:问题本身有错误,看能不能找到模型。

因为答案以事实为依据,我们设定的评价标准准确、有理有据,能解决问题,得3分;回答基本准确,偶尔有不太清楚的地方得2分;回答不能直接解决问题,只是提供一些信息;1分;无视事实是0。

结论:

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

这个测试其实是一个很有意思的地方。大多数情况下,这三个引擎对常识性问题的回答都是令人满意的。在某些情况下,百度文新的表现甚至略好于chatGPT3.5。比如我们问了一个科技常识性的问题“高通8Gen1处理器上一代是什么?”文心自信地说出了正确的结果,高通骁龙888。ChatGPT3.5则说错了型号。常识问题:“明代科举考试主要考什么书?”文心一字一句地说了四书五经,还详细列举了四书五经各部分的名称和内容。ChatGPT3.5给出了一堆可能考的参考书和历史书。只有ChatGPT4.0给出了正确的回复和评论。

但是为了考察几个引擎的能力,我们在一些题目上埋了坑,甚至在网上用了很多大家一看就知道的段子和脑筋急转弯。最可怜的“傻白甜”百度文新几乎每个坑都踩过,但让我们惊讶的是ChatGPT4。在倾注了可怕的数据后,ChatGPT4在几个脑筋急转弯和事实错误后,几乎在第一句话就能揭穿我们设置的陷阱。

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

比如在因果推断中,我们用了一个小孩子都知道的脑筋急转弯,“树上有9只鸟,猎人开枪打死了一只。树上还剩几只鸟?”chatgp 3.5和百度文心好像小学生都有,都在认真做数学题,结果8鸟。但ChatGPT4.0无情地揭穿了其中的玄机:“树上已经没有鸟了,因为开枪的声音会把其他鸟吓跑。”

另一个假事实的例子,我们恳切求教:“解放战争时期八路军参加过哪些重要战役?”。我以为百度文新应该是三个引擎中比较了解国情的,但是它和ChatGPT3.5都没有搞清楚解放战争和抗日战争的区别,都举了抗日战争的例子。只有ChatGPT4.0直接指出解放战争时期(1946-1949)八路军已改编为人民解放军,并指出了解放战争时期的三大战役。

其他类似的例子我就不一一列举了,总之,作为“生命之初性本善”的文艺头脑,我们确实需要认真考虑用户会不会主动问错问题。

4。逻辑数学

逻辑数学和代码部分有关,两者都考察模型的推理能力。这部分需要更高的型号。一般认为,代码训练和“思维链”

(chainofthinks]技术显然会有助于逻辑推理。目前看来这是大模型独有的优势,100亿以下的参数模型在这部分基本表现不佳。

在这个测试中,我们准备了五个考虑因素,即:

1.简单的逻辑推理:简短的逻辑问题。

2.单词的逻辑:给出大段单词所包含的逻辑问题。

3.逻辑错误:题目本身就有逻辑错误或者陷阱,看能不能找到模型。

4.数学(高中以上,专业,考查数学知识)

5.数学(初等数学计算,但更多的是推理,类似于小学和初中的应用题,考察逻辑推理)

在这部分的测试中,文字逻辑和数学能力是最典型的指标,AI如果回答完全准确的话打3分;回答基本正确,但有轻微错误,得2分;基本理解问题意思,但有明显错误的得1分;如果完全不懂或者犯了重大错误,就是0。

该模块的具体测试结果如下:

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

以具体案例为例:

面对“观察下面的数字:1,2,4,8,16...试着按照这个规律写出第11个数”,一个非常经典的小学数学知识的几何级数问题,ChatGPT和GPT-4都找出了这组数的规律并给出了正确答案“1024”,而文心一句话也没找到规律,答案是“22”。所以完全正确并给出解题过程的ChatGPT和GPT-4得3分,理解题目但出错的文心只有1分。

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

下一个问题有一些挑战。“已知三角形ABC的三条边为A、B、C,C的平方=bcCOSA+caCOSB+abCOSC,求三角形的形状”,这已经是高中数学的水平了。但只有GPT-4正确地计算出这是一个直角三角形,ChatGPT和Wenxin只认为它是一个普通的三角形。所以GPT-4得了满分,查特GPT和文欣各得了1分。

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

逻辑能力方面,我们选择了一个相对简单的题目,“三个人三天喝了三桶水,九个人九天喝了几桶水”。对此,GPT四号和文新都给出了正确答案。9个人9天喝了27桶水,附上推理过程,全部得3分。ChatGPT虽然推理,但推理结果出错,只得了1分。

5。代码能力

自从深度学习让AI技术进入跨越式发展阶段以来,业界一直在尝试用AI编写代码。这次在评测ChatGPT、GPT-4、文心伊彦的代码能力中,不需要人工干预,成功完成任务,可以得3分;只有简单的人工干预或简单的调试才能完成目标,得2分;需要多轮人工干预调试,所以是1分;总误差为0。

我们为此项目准备了两个子测试项目,如下所示:

1.简单的代码完成:各种语言中常见的Leetcode

easy level问题。涵盖了主要的不同类型,Python、 C++、 SQL、assembly等。

2.代码阅读与调试:给出一段代码,说明意思,找出简单的调试。或者给出代码和编译错误信息来查找bug。或者把Python变成C++

该模块的具体测试结果如下:

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

这次测试,我们选择的题目是“写C程序计算21的阶乘”。ChatGPT给21!这是正确的结果,但是代码本身有一个BUG。没想到C语言中的unsigned long类型只用来表示20以内的阶乘数据,所以它的分值是1分。文心也实现了C语言编程,但是没有意识到计算有溢出,导致最终结果出错,只得到1分。而GPT-4也给出了正确答案,代码本身有bug,但是它意识到21!结果可能太大,但是它自信unsignedlonglong足够长,所以它的分数是2分。

在程序员日常不可避免的调试上,我们选择了一段代码让AI检查是否有bug。结果ChatGPT和GPT-4都发现题目中的代码存在浮点精度问题,并进行调试,所以都得了3分满分。总之,文新调试有问题,没有识别bug,没有调试,所以才0。其他情况与此类似。基本上我们设置的几个题目都没能找出问题,无法完成调试工作。从目前来看,百度文心未来需要加强代码相关的能力。

6。专业领域

随着ChatGPT的流行,很多人心里也有这样一个问题,就是碎片化、螺丝化、机械化的工作,比如翻译、文秘等工作,都会有一定程度的职业危机,那么是否会有更多的专业领域被AI蚕食?带着这样的疑惑,我们在专业领域做了一些思考。主要内容分为以下两部分,理解和应用:

1.知识概念:询问专业知识和概念(大学专业水平,涵盖人文、工程所有学科)。

2.知识应用:通过案例描述获得答案。描述可以尽量详细清晰(大学专业水平,涵盖人文工程所有学科)

结果如下:

AI聊天机器人之战 ChatGPT /GPT-4/文心一言 性能对比测试 谁能笑到最后?

专业知识我们都懂,很少在网上找到免费的分享,AI引擎往往很难得到真实的专业知识数据。

比如为了降低问题难度,我们选择了一个科技领域的问题进行测试,题目是“手机系统的启动过程是怎样的?你在每个阶段都做了什么?”这个问题对于普通用户来说无疑是一个“黑匣子”,但对于这个领域的从业者来说显然不难。

ChatGPT和GPT-4都给出了一部智能手机从开机自检到Bootloader,再到将系统内核加载到内存并初始化,最后启动用户界面的完整过程。文新讲解了“u盘启动”这个应用在PC上的系统启动方式。ChatGPT3.5和GPT4.0都在这个问题上得了3分,而文新,一句话,答非所问,显然没有获得行业的技术信息。其他情况也差不多。有一些例子是某些行业存在错误或者知识,导致无法回答。毕竟这些内容大部分都不是免费获得的。

摘要:

通过结果不难发现,对于已经包罗万象的大语言模型来说,语言理解

\ 任务完成[div]\常识问题[div]逻辑数学[/div] 专业领域的六大类测试虽然不能覆盖它们的能力边界,但足以让大家看到不同类型的大语言模型确实具有改变人类工作范式的能力。

作为OpenAI刚刚迭代的新品,ChatGPT4.0确实可以称得上全能强大。即使还远远谈不上知天知地知,但至少在智力方面已经显示出了青少年的水平,无疑可以称之为“黑科技”。而ChatGPT3.5则中规中矩,有一定的逻辑能力,也能从多轮对话中敏锐地抓住重点。

虽然文新目前还没有ChatGPT4.0和3.5那么强大,但可能在数据覆盖和程序上还是存在一些bug,导致了一些问题。但出乎我们意料的是,它在某些方面并不弱于ChatGPT3.5。而且它的出现解决了国内市场AI行业从0到1的突破。在解决了存在与不存在的问题后,用预期来形容未来显然不为过。

标签: 能力 问题 一言

抱歉,评论功能暂时关闭!