极客公园搞了一个非常全的国内模型高考题测试，字节豆包的文科成绩拉满了。仅次于GPT4o超过了一本线21分，用的还是地狱难度的河南卷子和分数线。历史得分甚至超过了GPT-4o。国内模型还是有数据优势，英语的成绩大家也都不错，毕竟翻译是LLM最长的长处了。

发布时间: 2024-06-26 01:00:26

1分

数据加载中

关注推特

收听电报

2

1

0

极客公园搞了一个非常全的国内模型高考题测试，字节豆包的文科成绩拉满了。
仅次于GPT4o超过了一本线21分，用的还是地狱难度的河南卷子和分数线。历史得分甚至超过了GPT-4o。
国内模型还是有数据优势，英语的成绩大家也都不错，毕竟翻译是LLM最长的长处了。
IT技术
( twitter.com )

5个月前由歸藏(guizang.ai) 提交

极客公园搞了一个非常全的国内模型高考题测试，字节豆包的文科成绩拉满了。

仅次于GPT4o超过了一本线21分，用的还是地狱难度的河南卷子和分数线。历史得分甚至超过了GPT-4o。

国内模型还是有数据优势，英语的成绩大家也都不错，毕竟翻译是LLM最长的长处了。

从这次的结果来看，文科学生的辅导和学习感觉豆包这类的国产LLM也完全可以胜任。

从文科来看大家明年估计都会用LLM介入教学，对教育资源不足的学生来看是个好事，毕竟目前国内的LLM基本全部免费。

理科成绩大家都很拉跨，毕竟推理和逻辑能力还是现在LLM研究大家都在努力的方向，即使这个状态下豆包也是国内所有LLM仅次于GPT-4o的，他们最近的进步真的很大。

但其实物理数学这种内容虽然模型本身无法很好的完成，调用工具也是可以胜任的，希望各家在产品层面可以优化一下，期待明年国产LLM的成绩，我感觉理科过线也不是什么问题。

刚好今天Open AI大规模提醒国内的API使用者，不允许国内IP使用，长远来看国内的LLM还是得加大力度投入。

点击图片查看原图

点击图片查看原图

点击图片查看原图

Markdown支持

评论加载中...

您可能感兴趣的：更多

1

2

1

1

当 AI 能考上一本，十年寒窗苦读还有意义吗？
这两天被一条新闻刷屏，就是极客公园做的一个测试，找了九个大模型测试 2024 年高考试卷，结果有四个大模型文科成绩上了一本线，整体表现最强的是 GPT-4o（文科 562 分），国内模型中表现最好的是字节的豆包（文科 542.5）。相比文科，AI
IT技术
( twitter.com)

5个月前 • 宝玉 • -- 点击 0 评论

2

2

1

1

极客公园做了一次相当完整的测试，把主流大模型全都牵了出来去做高考全科试卷，用的还是新课标I卷，这比简单写篇命题作文的参考性要高得多。

先说结果吧，大模型做文科题几乎就是在打表演赛。这应该不意外，「政史地」的拿分点主要在于信息储备，正是AI比较擅长的地方。
时政
( twitter.com)

5个月前 • 阑夕 • -- 点击 0 评论

3

2

1

1

从考公、写周报到下厨指南，我们评测了18个大模型
大陆资讯
( www.latepost.com)

7个月前 • 猪是的念过来倒 • -- 点击 0 评论

4

2

1

1

极客公园张鹏：中国的硬科技公司，不管你初心是怎样的，在一段时间之后，都会面临一个问题，就是变成了高科技施工队，到处做集成项目，核心竞争力成了搞政府关系，跟客户喝酒。
大陆资讯
( weibo.com)

1年前 • rabbit • -- 点击 0 评论

5

2

1

1

中国版Sora，快手可灵AI可用性测试。
分别测试了吃播、风景、运动、动物。
所有测试均使用 1 shot，拒绝抽卡。
可以看到这个模型的可用性非常之高。
当然也能发现很多问题。
全部视频和prompt都放到这一个视频里。
请欣赏。
The Chinese version of Sora, Kling AI usability test.
Tested eating,
IT技术
( twitter.com)

5个月前 • orange.ai • -- 点击 • 下载视频 0 评论

00:01:01

6

2

1

1

2024 年第一个模型，基于gemma-2b和 Linux 中国文章数据训练的科技文章标题生成模型。这个模型解决了我写文章起什么标题的难题🤣。然后这个模型我开放了训练期间所有的中间模型，供大家参考。我个人倾向于用2000 step 的这个。
时政
( huggingface.co)

9个月前 • GanymedeNil • -- 点击 0 评论

7

2

1

1

国内某大模型领域大佬的话：谈国内创新难的解决方法：把美国做大模型的华人弄几个回来，就成了。谈日常：昨天给公司请了一尊财神。一个弄字，一个请字，绝了
时政
( twitter.com)

1年前 • Song • -- 点击 0 评论

8

2

1

1

OpenAI o1 智商测试120，高考数学全对。
但是当人们询问模型的思维过程时，却收到 OpenAI 的封号警告，o1 的思维过程里到底隐藏着怎样的秘密，才会受到如此严密的保护？
带着这个疑问看完了模型的技术报告，似乎有点懂了...
一、为了提高智力，放弃了安全
但是要提升模型的解题能力，只通过 CoT
IT技术
( twitter.com)

2个月前 • orange.ai • -- 点击 0 评论

9

2

1

1

国内大模型目前有四个赛道：
ToC、ToD（开发者）、ToB、ToG（政府）
其实讯飞碰到的问题也是ToB、ToG 大模型公司的共性问题，目前客户预算都在压缩，且大模型并没有带来行业生产力的革命性改变，造成对营收的贡献较少。
目前反倒是ToC 以及 ToD 风头十足，但是大模型的成本较高，以moonshot
时政
( twitter.com)

7个月前 • 九原客 • -- 点击 0 评论

0.15511 Second , Gzip Enable.本网所有言论均来自网络，不代表本网站立场。联系方式: [email protected]

©2012.11.21 bad.news All rights reserved. 社区自动运营第 -- 年零 -- 天
This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

关注推特