AI在高考中的表现引发了公众的关注和讨论。在这次考试中,AI的表现似乎并不尽如人意。从数学部分来看,它整体上显示出了严重的缺陷,甚至出现了全毁的情况。这个结果引发了公众对人工智能能否真正替代人类教师的担忧,同时也提出了如何提高AI教育质量的问题。
近日,上海人工智能实验室发布了首份ai高考全卷评测结果,展示了GPT-4o和6个开源模型在高考语文、数学、英语试卷面前的表现。
参与此次测试的开源模型如下:
Mixtral 8x22B:法国AI公司Mistral于2024年4月17日开源的对话模型。Yi-1.5-34B:零一万物公司于2024年5月12日开源的Yi-1.5系列最大的模型。GLM-4-9B:智谱AI于2024年6月4日推出的最新一代预训练模型GLM-4系列的开源版本。InternLM2-20B-WQX:上海人工智能实验室于2024年6月4日开源的书生・浦语2.0系列文曲星大语言模型。Qwen2-57B:阿里巴巴于2024年6月6日开源的Qwen2系列MoE对话模型。Qwen2-72B:阿里巴巴于2024年6月6日开源的72B稠密模型。
此次选取的6个模型都是高考前开源的,防止开发者利用高考题训练模型,从而“作弊”。
该测试的结果如下:
可以看到,阿里的Qwen2-72B总分排名第一,303分;GPYT-4o以296分排名第二;第三名是上海人工智能实验室的Internm2-20b-Wqx,得分295.5。
不过有意思的是,数学成了这次考试所有大模型的短板。在150分的试卷中,没有一个模特能达到90分的及格分。
从结果来看,目前各种大模型在语义理解和文本交流方面表现相对较好,但面对数学这样一个逻辑运算能力很强的领域,AI还是会力不从心。