11月中文大模型基準測評出爐:GPT 5.1奪冠、DeepSeek開源第一
11月28日消息,月中源第SuperCLUE公布了2025年11月中文大模型基準測評結果。模型 本次測評圍繞數學推理、基準科學推理、測評出爐代碼生成(含web開發)、月中源第幻覺控制、模型精確指令遵循五大核心任務展開,基準題目總量為822道新題,測評出爐最終得分取各任務平均分。月中源第 本次共測評27個國內外大模型同臺競技,模型OpenAI的基準GPT 5.1與國產模型DeepSeek分別斬獲綜合冠軍與開源領域第一。 OpenAI的測評出爐GPT-5.1 (high) 以68.11的總分登頂,成為本月綜合表現最佳的月中源第大模型。 GPT-5.1 在數學推理(74.07)、模型代碼生成(76.30)等項表現突出,基準幻覺控制得分 88.80,展現出強穩定性。 Anthropic的Claude-Opus-4.5-Reasoning以62.57分緊隨其后,其幻覺控制得分高達90.33,在該項能力上領跑。 而在開源模型中,深度求索的 DeepSeek-V3.2-Exp-Thinking以53.69分位列開源陣營第一。
- 最近發表
- 隨機閱讀
-
- 全新榮耀WIN系列正式揭曉 “年度電競夯機”即將發布!
- “東亞困獸”露出“三重獠牙”,日本軍國主義將危險出鞘?| 國際識局
- 電機塞車輪,雙缸做增程 這批工信部新車真讓我看傻了
- 王騰回應王化轉崗:祝好
- 游戲黨狂喜!榮耀WIN 12月發布:年度電競夯機 性能天花板
- 甘甜軟糯:賀四喜稻蝦香米29.9元10斤大促
- 挪威環球小姐扮成三文魚走紅網絡 銀粉戰衣完美復刻魚頭超吸睛
- 衛星通信再添新丁 我國成功發射通信技術試驗衛星二十一號
- 比亞迪征集天神之眼救駕瞬間:一等獎共發10000元
- 國內首條大容量全固態電池產線建成 電車續航有望從500公里達1000公里以上
- 小米武漢青年公寓代言人選定!項目計劃2026年中竣工
- 中新人物丨樊振東,傷痕不再可見
- 斬獲“明耀星選”大獎!哈趣H3UltraMax成2000元內LCD投影標桿
- 國家網信辦、工信部公開征求意見:聯網設備要網絡安全標識!家用攝像頭首批實施
- 甘肅五年拓展“科技朋友圈” 重大成果領跑全新賽道
- (粵港澳全運會)蘇炳添“最后一舞”不說再見
- 周鴻祎回應被指做假賬:惡意詆毀!言辭極端失實
- 阿根廷統促會聯合僑界強烈譴責高市早苗涉臺錯誤言論
- 看到鴻蒙智行的MPV 我覺得友商們要緊張起來了
- 國內首條大容量全固態電池產線建成 電車續航有望從500公里達1000公里以上
- 搜索
-