初探 OpenAI GPT-4.1 性能:AI 编程能力大增,但谷歌 Gemini 依然称王

发布时间:2025-05-12 10:28:15 来源:互联网

本站 4 月 16 日消息,科技媒体 bleepingcomputer 昨日(4 月 15 日)发布博文,报道称 OpenAI 最新发布的 GPT-4.1 系列模型,其性能相比 GPT-4o 虽然实现重大飞跃,但多项跑分未能超越谷歌的 Gemini 系列。

本站昨日报道,OpenAI 公司发布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,官方公布的跑分数据来看,这些模型在编程方面的能力,远超 GPT-4o 及 GPT-4o mini。

例如在 SWE-bench Verified 跑分中,GPT-4o 的得分为 21.4%,GPT-4.5 的得分为 26.6%,而 GPT-4.1 的得分为 54.6%。

尽管性能有较大提升,不过根据多位专家测试,相比较谷歌的 Gemini 系列,GPT-4.1 对比中却显露劣势。

根据 Stagehand(一款生产级浏览器自动化框架)发布的基准数据,Gemini 2.0 Flash 的错误率仅为 6.67%,精确匹配率高达 90%,且价格低廉、速度更快。相比之下,GPT-4.1 的错误率高达 16.67%,成本更是 Gemini 2.0 Flash 的 10 倍以上。

此外,哈佛大学 RNA 科学家 Pierre Bongrand 提供的数据也指出,GPT-4.1 的性价比不及 Gemini 2.0 Flash、Gemini 2.5 Pro 及 DeepSeek 等竞品。

在编码专项测试中,GPT-4.1 同样未能占据上风。Aider Polyglot 的测试结果显示,GPT-4.1 的编码得分仅为 52%,而 Gemini 2.5 则以 73% 的成绩遥遥领先。

值得注意的是,GPT-4.1 被归类为非推理模型(non-reasoning model),但其编码能力仍属行业顶尖。

本周热门攻略

1
《生化危机1》或将重制:配音演员疑似使眼色暗示?

《生化危机1》或将重制:配音演员疑似使眼色暗示?

2025/04/21

2
《准儿媳》在线观看完整版:一部引发家庭纷争与情感碰撞的剧集

《准儿媳》在线观看完整版:一部引发家庭纷争与情感碰撞的剧集

2025/03/27

3
《妻子5》免费完整版高清韩剧观看:解密剧情与观影体验

《妻子5》免费完整版高清韩剧观看:解密剧情与观影体验

2025/03/27

4
《曼娜艳荡性史》电影:探索人性与欲望的深层次呈现

《曼娜艳荡性史》电影:探索人性与欲望的深层次呈现

2025/03/26

5
17c.14起槽:掌握关键技术,提升生产效率

17c.14起槽:掌握关键技术,提升生产效率

2025/03/27

6
ONLYfans盛世容颜柚子猫小僵尸:如何打造独特个人品牌并吸引粉丝

ONLYfans盛世容颜柚子猫小僵尸:如何打造独特个人品牌并吸引粉丝

2025/03/27

7
舒淇主演《灵与欲》免费在线观看:探索电影深层次的情感与欲望

舒淇主演《灵与欲》免费在线观看:探索电影深层次的情感与欲望

2025/03/23

8
为艺术献身的明星:那些全心投入事业,追求艺术极致的明星们

为艺术献身的明星:那些全心投入事业,追求艺术极致的明星们

2025/03/27

9
《英魂之刃口袋版》全新焕影皮肤上线,八周年豪礼多多

《英魂之刃口袋版》全新焕影皮肤上线,八周年豪礼多多

2025/03/29

10
全服争夺10万奖金!2024《英魂之刃口袋版》精英联赛正式开赛!

全服争夺10万奖金!2024《英魂之刃口袋版》精英联赛正式开赛!

2025/04/21