科大讯飞星火模型V4.0,全新升级,人工智能再次引领行业标准

访客 测评 1.1W+
科大讯飞星火模型V4.0凭借其全面进化的特性,超越了现有的GPT-4,为用户带来更出色的人工智能体验。无论是在处理复杂任务、解答问题,还是进行文本生成等方面,都展现出强大的实力。这不仅是一款AI助手,更是一个跨时代的技术革新,引领未来人工智能的发展方向。

在6月27日举行的科大讯飞星火4.0发布会上,科大讯飞发布了科大讯飞星火模型4.0版及其在医疗、教育、商业等领域的人工智能应用。

科大讯飞星火模型V4.0基于国内首个万卡计算集群“邢飞一号”进行训练,全面提升了模型基地的七大核心能力。它在整体上超越了GPT-4 Turbo,特别是对于复杂指令、复杂逻辑推理、空之间的推理、数学、基于逻辑关系的多模式理解等等。

同时,科大讯飞还带来了全新升级的科大讯飞Spark App/Desk,并发布了“个人空房间”,打造每个人的AI助手。

为了进一步了解科大讯飞Spark model V4.0的实际体验,我们也做了一些体验评测,今天给大家发一份体验报告。

一、讯飞星火 App / Desk 功能升级

随着科大讯飞Spark model V4.0的到来,Spark App/Desk也迎来了功能升级。以科大讯飞星火桌为例。进入主界面,可以看到元素更加丰富,左上角有一个“创建代理”的功能入口,左栏新增“代理中心”,右边是“个人空房间”界面。

点击左下角的头像打开“我的”标签页,底部中间的输入框可以进行对话。

App端的界面也有了很大的变化,底部变成了对话、代理、房间空和个人四个标签页。每个选项卡对应的功能界面也各不相同,更加丰富。

1.对话功能

在“对话”功能中,增加了长文问答的能力。点击对话框右侧的上传文件按钮,上传对话文件。

我在中国通信标准化协会上传了一份关于扩展现实行业的调查报告,请它帮我总结一下。不出所料,很快就能给出准确的总结,这也与文件本身的主要内容一致。

随后边肖还询问了科大讯飞Spark V4.0版关于文档中的一些内容。比如边肖问它,“文件里先生的定义是什么?”也给出了准确的答案。对比文件中的相关解释,答案是正确的。

点击对话界面顶部的返回按钮,进入对话列表界面。你创建的所有对话都可以在这里显示,你也可以置顶或者删除。

通过顶部的搜索功能,还可以使用关键词搜索相关代理、我空房间的文档、待办事项等信息。

2.代理人

随着生成式人工智能的发展,agent将成为大规模模型应用的一个重要方向。目前,科大讯飞Spark已开放超过16000个代理,覆盖职场、生活、创作等多个场景,打造开箱即用的大模型应用。

面向专业垂直场景,科大星火App/Desk首批推出了14家代理商,包括科大小易、小智、星火签约助手、科大智作、科大文志。

以搭载科大星火医疗模型的“科大小医”为例,它可以为你提供症状自查、药物查询、中医辨证、报告解读、医院和科室推荐、饮食建议等功能。

例如,在对报告的解读中,边肖在一份血常规检测报告中选择了两个异常指标让科大霍星4.0版判断,即“红细胞压积50.80”和“红细胞6.01(10 ^ 12/L)”。科大讯飞霍星4.0版给出的判断与原检测报告给出的判断一致,也给出了可能导致指标异常的原因。

在我们的日常生活中,我们在吃药的时候,经常会遇到“不知道这两种药能不能一起吃”的烦恼,所以为此请教医生比较麻烦。这时候我们可以利用“科大小易”的拍照功能,同时取两个药盒,“科大小易”会用自己的专业知识告诉你这两种药是否可以一起服用。

在这里,边肖用她之前患带状疱疹时医生开的两种药物进行测试,并同时拍摄了两个药箱。当边肖说自己手臂有疱疹时,“科大讯飞小伊”初步判断是带状疱疹,然后给出了带状疱疹的相关科普和用药建议。在用药建议中,我们可以看到这两种药可以一起服用,和医生开的结果是一样的。

除了药物拍照,还可以上传自己的体检报告,让科大讯飞小易帮你分析。比如边肖把自己过去肝胆脾超声体检的照片拍下来给科大讯飞小易看,上面给出了详细的分析结果,尤其是肝脏的分析非常准确,有轻微的脂肪肝。

不过,边肖还是想提醒大家,最终的结果和治疗还是以专业医生的建议为准。科大讯飞小易主要为大家提供有用的健康科普信息。

然后测试一个更实用的agent: Spark合同助手,支持合同情报审核、合同生成、合同对比、合同汇总等功能。这里以合同情报审查为例,边肖通过拍照上传了一份驾校陪练签订的合同。通过AI识别,科大讯飞合同助手成功帮助我识别了合同中与培训进度、跳费、补考费、电子路考培训费、教练资质、违约相关的风险点。这些点,

3.个人空和个人标签体验

以前很多时候,我们使用AI大模型产品得到的结果都是公开的信息,而对于我们的个人信息,那些公开的大模型却无能为力。但事实上,无论是学习、工作还是生活,我们往往需要一个大模型来更好地了解我们的个人需求,拥有一个属于我们的知识库。全新升级的科大讯飞Spark也考虑到了这一点,特别推出了“个人空”的功能。

“个人空房间”相当于为用户打造的专属私人领域知识库。通过上传个人文档,大模型可以进行更精准的知识问答和内容生成;而且通过设置标签、管理日程、订阅信息、创建演讲者等方式,为用户提供更个性化、更有趣的服务。

在个人空房间里,上传的文档默认会按时间顺序排列,你也可以切换到不同的文件分类项进行查看。

选择一个或多个对应的文件,可以对这些选择的文件进行翻译、总结、理解、分析或其他形式的答题。

例如,边肖在他的手机里上传了一张最近日程安排的截屏。选择这张截图,点击“更多问答”进入对话界面,然后边肖问“我接下来几天有什么计划”?科大讯飞Spark能准确地列出我未来几天需要完成的事情,也很准确,就像边肖当初在手机上设置的一样。

例如,边肖上传了她在过去十月份写的文章的统计EXCEL表格。选中后,她点击“Excel”分析选项,进入对话界面。边肖首先问它“这个月我写了多少篇文章”,它准确地回答了21篇。然后边肖问它“我所有的文章有多少个单词”,它给出了50563个单词。边肖的计算也是正确的。

此外,在边肖的个人空房间里,还有几份与新能源汽车“三电”系统相关的研究报告。测试过程中,边肖还选取了五个数据文件,让科大讯飞Spark根据这五个数据文件写一篇介绍新能源汽车“三电”系统的文章。文章的内容需要包括:

(1)什么是新能源汽车的“三电”系统?

(2)新能源汽车“三电”系统的技术类别有哪些?

(3)我国新能源汽车“三电”系统发展现状。

大家可以看到,科大讯飞Spark很快也出了一篇短文,语义通顺,囊括了所有要求的内容,结构清晰,但整体略显程式化,如果使用可以略加修改。

此外,在短文中,科大讯飞Spark V4.0还给出参考出处标签,一段话来自那部分数据,都有出处说明,让文章更加有理有据,减少了大模大样的错觉。

除了个人空房间,科大讯飞Spark App/Desk现在还可以通过个人标签、日程管理、信息订阅、主讲人创建等方式,提供更加个性化和有趣的服务。

以App为例。在“我的”栏中,您现在可以设置自己的个人标签。选好要标记的人后,大模型会根据你的标记提供个性化的内容和答案。

比如,边肖先让科大霍星在不设置任何标签的情况下,写一篇关于什么是最有意义的人生的短文,然后在设置中将自己的标签设置为“语录,文化内涵”,再让科大霍星写一篇同样要求的文章。比较两段短文:

大家可以看到,在设置了“引经据典、文化内涵”的标签后,科大讯飞Spark输出的论文中确实加入了很多名言和典故,包括孟子的《忏悔录》、《阳货论语》、《论语记叙》等等。

总的来说,新升级的科大讯飞Spark App/Desk功能更强大、更丰富,但在交互布局上并不凌乱。无论是Spark App还是Spark Desk的所有功能层级都是有序清晰的,丰富代理的加入让科大讯飞Spark更加有用实用,personal 空和个性化标签等个性化功能让科大讯飞Spark成为更懂你的大模型AI助手。

二、讯飞星火大模型 V4.0 通用能力体验

如上所述,科大讯飞Spark V4.0总体上全面提升了大模型库的七大核心能力,尤其是在复杂指令、复杂逻辑推理、空之间的推理、数学、基于逻辑关系的多模式理解等方面。同时,多模态能力也得到了升级。

这里也对这些通用能力做一个体验测试。测试时,边肖使用GPT-4o进行对比,方便大家深入了解科大讯飞Spark V4.0的体验

1、视频理解体验

科大讯飞Spark V4.0目前已经能够支持对视频的分析和理解。在测试过程中,一个先前发布的视频程序被上传供他分析。这个视频是关于2023年苹果WWDC的快速回顾。边肖让科大讯飞Spark V4.0简单描述一下视频内容,它的回答非常准确,完整地给出了视频的核心内容。

目前,GPT-4o不支持视频分析功能。如果GPT-4o回答同样的问题,将会出现“无法处理”的信息。

对于这个视频,边肖又问了两个问题,视频的作者是谁,作者来自哪里,科大讯飞Spark V4.0的回答完全正确。

然后,边肖问视频作者对苹果Vision Pro有什么看法。科大讯飞Spark V4.0也给出了正确答案,表示是真的理解这个视频的内容。

2、图形能力测试

除了视频理解能力,图形能力也是人们使用较大模型的一个功能。首先这里考察的是对图片的理解能力。

边肖先上传了一张网上的搞笑图片,一只戴着奥特曼面具的小狗,问这张图片的笑点在哪里V4.0科大讯飞Spark V4.0准确分析了图片的笑点。

然后问GPT-4o,它的回答和讯飞Spark V4.0差不多,也准确的解释了画面的笑点。

接着用一道几何证明题来考验讯飞星火 V4.0:然后用一道几何证明题来考科大讯飞Spark V4.0:

上传这张图,让科大讯飞Spark V4.0直接回答。如你所见,它给出的答案是正确的,在解题过程中没有任何问题。让GPT-4o再解决这个问题,结果有点奇怪。虽然最后的答案是正确的,但是GPT-4o输出的内容有三分之二是错误的解题步骤。自我发现后,思路重新整理,最终输出正确答案所用的中值定理也是错误的。看文圣地图的能力,这也是目前很多人都会用的功能。边肖先让科大讯飞Spark V4.0画了一条赛博朋克风格的闹市区街道,它生成的画面还是很贴切的:然后边肖改成了中国风,给的图也很好,很好的展现了古代中国风的闹市,画面细腻,清晰,符合要求。再看GPT-4o,生成的图片也很好看。让我们把它改成中国式的。画面整体风格和之前没有太大区别,有一些中国风建筑的元素在里面。3、逻辑推理能力测试

逻辑推理能力是科大讯飞Spark V4.0的一大升级,科大讯飞Spark V4.0在逻辑思维方面的表现也在测试中得到强调。

首先是生活常识推理。边肖问了一个问题:

1991年1月25日到2024年3月2日(含)有多少天?

科大讯飞Spark V4.0给出了详细的计算步骤,边肖看了一下,思路很清晰。结果是12091天,没错。

而同样的问题,用GPT-4o来计算,它直接给出了答案,也是正确的。边肖继续询问计算步骤。没想到GPT-4o在计算步骤中给出了Python代码,美中不足。接着边肖问了一个需要更高逻辑思维的话题:

假设有一个无限水的池塘,有两个空的水壶,容量分别为5升和6升。用这两个水壶怎么从池塘里取3升水?

对于这个问题,科大讯飞Spark V4.0回答步骤清晰,逻辑清晰,实际可操作性没有问题。

在GPT-4o中,逻辑思路相当清晰,实际可操作性没有问题。但是生成的答案都是重复的,解释的文字比较多,步骤略显繁琐,也是美中不足。接着边肖问了一个推理和联想的话题:

求模式:1=2,2=6,3=12,4=?

对于这个问题,科大讯飞Spark V4.0给出了详细的思考步骤和一个正则公式,结果当然是正确的。

GPT-4o给出的思考步骤和答案没有错:4.数学能力测验

前面我们测试了两个大模型的逻辑推理能力,和它们类似的,其实还有数学的答题能力,可以进一步测试大模型的“智商水平”。考试的时候直接上了今年全国高考试卷的真题。

例如,这个问题:

这是泛函解析几何的一个题目。科大讯飞Spark V4.0成功解答。边肖看了看答案,答案是正确的。至于GPT-4o,操作猛如虎,答案一看就没算出来。然后看更难的选择题最后一题:科大讯飞Spark V4.0给出的答案非常简洁。虽然边肖数学知识所剩不多,但是看解题步骤是没问题的,最后的结果也是正确的。GPT-4o这次也给出了正确答案,只是解题步骤有点复杂,有些步骤没必要。5.语言理解测验

在语言理解方面,主要测试大模型的文本信息提取能力、情感分析能力、翻译能力和歧义理解能力。

首先,在文本信息提取能力方面,我们选择了两条之前发布的新闻进行混合,让大模型从中提取信息。这些问题如下:

先看科大讯飞Spark V4.0版的回答。前两个问题的答案都是准确的。最后一个问题需要绕道。科大讯飞Spark V4.0已经知道了5月和1-5月的出口数据,除了减法。GPT-4o对前两个问题的回答也很准确,但是第三个问题直接输出了错误的答案。然后看情绪分析能力。边肖在这里摘录了2022年江苏连云港语文期末试卷的一个阅读理解题目。题目如下:对于这两个问题,科大讯飞Spark V4.0分别给出了答案。将科大讯飞Spark V4.0的答案与标准答案进行对比,虽然语言表达上有差异,但整体意思是没有问题的,标准答案中需要体现的点也是科大讯飞Spark V4.0在答案中涵盖的。GPT-4o给出的答案没有问题,作者的情感把握比较准确,第二个问题的回答相对更有条理。在翻译能力方面,我找到了外媒tomshardware的新闻节选,里面有很多专业术语,测试两大机型的翻译能力:整体来看,科大讯飞Spark V4.0的翻译语言流畅,意思清晰,专业术语没有错漏。GPT-4o的翻译效果也很好,和讯飞Spark V4.0差不多

最后,理解语言歧义的能力,找到可能产生歧义的句子进行大模型分析:

分析并修改下列句子中可能存在的歧义:

县里的通知说,赵乡长要在本月15日前报到。

科大讯飞Spark V4.0精准分析了中心可能存在歧义的原因,在于时间的表述不清晰。给出的两种修改方案可以使句子无歧义。

GPT-4o对这句话歧义的分析有失偏颇,修改后的结果也是错误的,有点混乱。6、内容生成能力测试

内容生成可能是人们使用大模型最常用的功能,用来辅助我们做一些文案。在这里,边肖还测试了两个大型模型。

首先,边肖想让他们帮我写一份招聘文案:

招聘要求:经济学背景,有媒体工作经验,文笔优秀,能接受经常出差。

招聘待遇:有五险一金,月薪15K起,工作环境新颖优雅,逢年过节有礼品,旅游团一年一建。

文案要求:文风轻松幽默,500字以内。

科大讯飞Spark V4.0给出的文案基本没有扣分:

GPT-4o写的文案也很优秀,各项要求都达到了。上班族经常需要写一些计划,活动计划之类的。这时候他们也可以利用大模型的内容生成能力,帮助自己更快的完成任务。这里的测试是基于“我们公司计划开展一次读书活动,帮我写一份活动方案”的需求。

科大讯飞Spark给出的方案比较完整,包括时间、地点、目标、流程、前期准备、人员配备、预算评估、结果评估等等,不缺细节,可用性很高。

GPT-4o的平面图比较简洁,但也比较完整,各个地方应该都有。7、代码生成能力测试

使用AI big model辅助编写代码也是一些程序员常见的使用场景,这也可以看作是big model内容生成能力的重要组成部分。

在测试过程中,边肖首先用下面的问题来测试两个大模型:

请用c#语言生成如下代码:给你一个字符串S,求S中最长的回文子串..

如果一个字符串的逆序与原字符串相同,则称为回文字符串。

请遵循以下代码模板:

公共类解决方案{

公共字符串longestpalindome(string s){

}

}

本着代码可以直接使用的原则,我们会用程序运行工具对大模型生成的代码进行测试,看是否可以直接完美运行。

首先我们看一下科大讯飞Spark V4.0,给出了标准的代码格式和简单的算法,看起来很清爽。

因为边肖自己也不知道代码,所以直接拿到测试工具上运行测试,发现这段代码可以直接运行,输出结果准确,也就是说可以直接使用。在GPT-4o方面,给出的代码也有标准格式,相对简洁。在检测软件里运行一下,也能运行成功,性能同样不错。总的来说,科大讯飞Spark V4.0与ChatGPT最先进的GPT-4o模型相比,在大模型通用能力上不相上下,在多模、逻辑思维、数学能力上甚至优于GPT-4o。在日常生活和工作中,我们可以只使用科大讯飞Spark V4.0,这将带来极大的效率提升和其他好处。

结语

科大讯飞Spark模型从去年5月正式发布到现在才一年多,已经迭代到第四个大版本了。这一年,科大星火的进步可以说是突飞猛进,从最基础的开放问答到AI智能助手,再到多模态能力、全语音交互、飞伴,再到代理和个人的在线功能空。科大讯飞Spark在功能越来越全面强大的同时,也注重用户对内容生成的“个性化”需求。今天,科大讯飞Spark V4.0是功能最丰富、应用最广泛的AI模型产品之一。

在发布会上,科大讯飞还谈到了科大讯飞星火模式在国家能源集团、中国石油、中国移动、中国PICC、太平洋保险、交通银行等重点行业的应用。可见科大讯飞Spark在AI模型领域已经构建了自己独特的可控优势,而通过科大讯飞Spark V4.0的体验,也对科大讯飞Spark未来在AI领域的表现充满了期待。我相信他们可以继续进化,让国内的AI模型技术和应用生态真正引领国际化。

标签: 飞星 模型 小编

抱歉,评论功能暂时关闭!