敢于对标ChatGPT,国产大模型迎来高光时刻

日期:2023-05-10 11:50:55 作者:fuli 浏览: 查看评论 加入收藏


值得一提的是,讯飞星火并不是“PPT发布”,目前已经向大规模开放体验,发布会现场也演示了星火认知大模型的多种能力。

那么,它的实力究竟如何呢?

构建科学评价体系

对标ChatGPT

自诞生以来,ChatGPT通过高质量清洗海量数据,学习训练上亿参数的模型,实现不断进化。

最新的GPT-4在文本生成、语言理解、基于思维链的逻辑推理、数学和代码能力等多个领域的表现让人惊叹。

讯飞星火想要追赶并超越ChatGPT,首先需要构建一套科学的评测体系。

因为这样才能知道目前技术达到什么程度、存在哪些不足,还有下一步该往哪走。

根据这套评价体系,目前讯飞星火在文本生成和数学能力(一定程度代表通用认知大模型的智慧水平)已经显著领先国内同类产品,且相比ChatGPT也具有一定优势。

而在语言理解和知识问答方面也达到接近ChatGPT水平,处于国内领先水平。

为了测试讯飞星火的实力,科技每日推送也注册体验了一番,并设计了多个场景的测试。

我们来问个简单的脑筋急转弯,看看它的IQ如何。

可以看到,讯飞星火成功Get到了这是一个玩笑,并没有掉进陷阱里,还呼吁我们要保护动物不要当真。

同样,中文十级测试题也没能难倒它,可以准确理解了我们的语意。

此外,讯飞星火还十分精通国际象棋。

既然逻辑理解没问题,接下来就上点难度,问它一个经典“电车难题”。

面对这道让无数男人头疼的家庭伦理题,讯飞星火不仅给出了合情合理的答案,还会提醒我们救人的同时要注意自身安全。

他真的,我哭死.......

当然,如果你先选择救妈妈,还能让它给你支招去和老婆 狡辩 解释(反之亦然)。

关于长文本生成,例如写邮件、做方案、讲故事、写新闻稿件这些活儿,讯飞星火也通通不在话下。

比如,我们可以让它针对即将到来的618写个促销方案,还可以让它不断调整细节,享受一把当甲方当乐趣。

在数学能力方面,讯飞星火也展示出好学生的气质,不仅能正确回答,还会展示解题过程和思路。

让它敲个Python爬虫代码,也是几秒钟的事情。

存在的不足

当然,讯飞星火也不是百分百完美,在发布会上刘庆峰也表示,目前大模型技术还有待攻克的缺陷。

这是因为认知大模型都是使用历史数据进行训练,通过在海量的模型参数中记忆学习,从而实现智慧涌现和触类旁通。

而这也造成了新知识难以及时更新的问题。

我们也实际测试了一下,在面对“特种兵旅行”这种网络流行词汇,讯飞星火也没有及时更新,就算多次重新生成,答案都不尽如人意。

同时,讯飞星火在回答事实类问题时偶尔会张冠李戴,而在一些史实、传统典籍上也容易“编造情节”等。

如果我们问“耶稣比刘邦大多少岁”这种“关公战秦琼”的题目,它很可能会给出错误的答案。

在回答“唐朝帝王顺序”这类历史问题时,讯飞星火容易搞乱顺序,偶尔还会夹杂着英文,这可能跟中英文一起双语训练有关。

或者一开始我们就往错误的历史上引导,讯飞星火有时也不会发现。

例如问它“泰坦尼克号为什么会在太平洋沉没”,它会顺着我们的问题说下去,而不是指出泰坦尼克号在大西洋沉没。

除了上述问题,多模态的输入和表达也是很多用户期待的功能。

不仅能生成文案,还可以根据用户的描述和指令,输出图片甚至视频,带来更广泛的应用前景和发展空间。

针对用户的期待,科大讯飞也坦率承认不足,并表示有非常明确的方法来改进它。

同时,发布会上还给到了今年大模型技术持续升级的三个关键里程碑节点:

6月9日,将突破开放式问答、多轮对话能力明显提升、数学能力再升级;

“1+N”全场景布局

除了能“唠嗑”,讯飞星火认知大模型技术正逐渐为更多行业赋能。

围绕星火认知大模型“1+N”架构中“N”个领域的内容,科大讯飞还带来了大模型在教育、办公、汽车、数字员工等多个方向的行业应用成果。

教育方面,星火大模型的语言能力跟讯飞学习机结合,能达到因材施教的效果。

比如,可对作文进行深度理解,同时自动生成评语和范文,像老师一样批改作文,并给出优化建议。

它还可以实现写作思路启发,利用 AI 润色技术生成片段优化参考和写作建议提升,让孩子在启发中精准提升。

让无数家长头大的英语口语练习,在讯飞星火的帮助下也不再是问题。

它可以实现跟人一样的自由对话,对话的时候还可以自动进行翻译评测,目前已覆盖了所有中小学课标话题。

相比传统面对面的口语练习,这种学习方法更加灵活高效。它打破了时空限制,学生党可以随时随地和大模型互动交流,利用好零碎时间提升效率。

对于社恐人群来说,这也是一大福音;在大模型的帮助下,他们可以一个人努力练习,再默默惊艳所有人。

办公方面,在讯飞星火的加持下,根据现有录音和笔记,讯飞智能办公本能把一大段录音转写出来的文字生成会议纪要。

甚至可以把一大篇口水稿,通过语篇规整变成更容易阅读的书面语言,极大减少不必要的工作量。

不仅如此,在讯飞听见中,只需提供一段录音,即可生成品宣文案、新闻稿件、工作总结等文案,可以说是无数打工人的梦寐以求的功能。

其他方面,在数字员工场景中,数字员工可以按照事先编写的脚本,自动操作计算机中的各种软件,实现业务流程的自动化,轻松胜任各种工作。

而在汽车场景中,讯飞星火不仅可提供自驾游、亲子游推荐路线,还能订餐、买电影票、听新闻等等,可谓十分方便。

实现智慧涌现

讯飞底气从何而来?

讯飞星火发布会上,刘庆峰自信表示:讯飞星火完全可以重现OpenAI的智慧涌现。

简单来说,智慧涌现就是通过自我学习和推理来产生新的知识和洞察力。

要知道,对于人工智能来说,实现智慧涌现是一项非常复杂和困难的任务,需要多学科的知识技能,以及长期的努力和不断的创新。

刘庆峰这句话的背后,有着科大讯飞长远的战略谋划和充足的技术实力作为支撑。

如果从发展的视角来看,大模型仅仅是人工智能历程中的一个阶段而已。

早在1999年,科大讯飞就致力于让机器像人一样能听会说。

2014年,讯飞启动讯飞超脑项目,开始布局认知智能,提出要让机器像人一样具备能理解会思考的能力,并在2017年开始承载认知智能国家重点实验室的重任。

正是在相关国家级平台和讯飞超脑计划的支撑下,科大讯飞在认知智能领域才能取得一系列全球领先成果,为星火认知大模型的推出和落地应用提供充分铺垫。

当然,对于大模型来说最重要的还是数据,数据的质量和数量直接影响模型的质量。

科大讯飞在Transformer深度神经网络算法方面拥有丰富经验,达到国际领先水平。

同时,作为国内语音AI龙头,讯飞开放平台每天有超50亿次用户交互,给大模型投喂海量文本语料和用户反馈数据,进一步提高模型理解能力,推进更新迭代。

此外,由于超大模型由于参数规模大、数据体量大,因此需要更大的算力支持。

讯飞自建有业界一流的数据中心,目前已建成四城七中心深度学习计算平台,为大模型训练平台建设奠定了可靠的硬件基石。

-最后-

1950年,英国数学家阿伦·图灵发表了具有里程碑意义的论文《电脑能思考吗?》,创造性提出“机器思维”的概念,成为人工智能领域的金科玉律。

如今,以ChatGPT为代表的认知大模型,不仅能听会说,还会理解和思考,让我们看到了通用人工智能的曙光。

作为后起之秀,讯飞星火体验下来给我们带来的惊喜远远高于预期。

尽管还存在一些不足,但已燃起星星之火,在不断更新迭代中,我们也期待星火大模型在未来能实现“智慧涌现”,为我们创造更大的价值。

责任编辑:

留言与评论(共有 0 条评论)
   
验证码: