极客公园搞了一个非常全的国内模型高考题测试,字节豆包的文科成绩拉满了。
仅次于GPT4o超过了一本线21分,用的还是地狱难度的河南卷子和分数线。历史得分甚至超过了GPT-4o。
国内模型还是有数据优势,英语的成绩大家也都不错,毕竟翻译是LLM最长的长处了。
从这次的结果来看,文科学生的辅导和学习感觉豆包这类的国产LLM也完全可以胜任。
从文科来看大家明年估计都会用LLM介入教学,对教育资源不足的学生来看是个好事,毕竟目前国内的LLM基本全部免费。
理科成绩大家都很拉跨,毕竟推理和逻辑能力还是现在LLM研究大家都在努力的方向,即使这个状态下豆包也是国内所有LLM仅次于GPT-4o的,他们最近的进步真的很大。
但其实物理数学这种内容虽然模型本身无法很好的完成,调用工具也是可以胜任的,希望各家在产品层面可以优化一下,期待明年国产LLM的成绩,我感觉理科过线也不是什么问题。
刚好今天Open AI大规模提醒国内的API使用者,不允许国内IP使用,长远来看国内的LLM还是得加大力度投入。
点击图片查看原图
点击图片查看原图
点击图片查看原图