2024年3月5日,消费日报网报道,随着去年ChatGPT的崛起,我国大模型技术也迎来了激烈的竞争。在此背景下,大模型的能力评测成为了业界的重要课题。近日,一场权威的数学能力测评基准MathEval对国内外30个大模型进行了全面评估。结果显示,学而思旗下的九章大模型、百度文心一言4.0以及讯飞星火V3.5分别位列前三。
据最新统计数据显示,至去年10月,国内已累计发布大模型数量超过200个。这些大模型正日益广泛地应用于数学领域,包括但不限于数学问题解答、数据深度分析、学术研究和学习辅导等多个方面。无论是通用型大模型还是垂直领域专用的大模型,它们都展现出了不同程度的数学能力。然而,对于这些大模型数学能力的具体表现,目前尚缺乏专门的测评机制。
MathEval测评基准的推出填补了行业空白,为全面评估大模型的数学能力提供了有力的工具。该基准由智慧教育国家新一代人工智能开放创新平台联合多所知名高校共同发起,通过收集广泛使用的数学能力测评数据集,对大模型的数学能力进行全面、具体的评估。学而思也积极参与了MathEval的评测工作,与业界共同推动大模型技术的持续发展和优化。
随着大模型技术在数学应用领域的不断拓展,其能力表现将越来越受到业界的关注。MathEval等权威测评基准的推出,将有助于推动大模型技术的持续发展和优化,为未来的应用落地提供更加坚实的基础。学而思也将继续深耕教育科技领域,通过技术创新为孩子们带来更加优质的学习体验,推动教育行业的进步与发展。