您現在的位置是:熱點 >>正文
11月中文大模型基準測評出爐:GPT 5.1奪冠、DeepSeek開源第一
熱點85人已圍觀
簡介11月28日消息,SuperCLUE公布了2025年11月中文大模型基準測評結果。本次測評圍繞數學推理、科學推理、代碼生成含web開發)、幻覺控制、精確指令遵循五大核心任務展開,題目總量為822道新題 ...
11月28日消息,月中源第SuperCLUE公布了2025年11月中文大模型基準測評結果。模型
本次測評圍繞數學推理、基準科學推理、測評出爐代碼生成(含web開發)、月中源第幻覺控制、模型精確指令遵循五大核心任務展開,基準題目總量為822道新題,測評出爐最終得分取各任務平均分。月中源第
本次共測評27個國內外大模型同臺競技,模型OpenAI的基準GPT 5.1與國產模型DeepSeek分別斬獲綜合冠軍與開源領域第一。
OpenAI的測評出爐GPT-5.1 (high) 以68.11的總分登頂,成為本月綜合表現最佳的月中源第大模型。
GPT-5.1 在數學推理(74.07)、模型代碼生成(76.30)等項表現突出,基準幻覺控制得分 88.80,展現出強穩定性。
Anthropic的Claude-Opus-4.5-Reasoning以62.57分緊隨其后,其幻覺控制得分高達90.33,在該項能力上領跑。
而在開源模型中,深度求索的 DeepSeek-V3.2-Exp-Thinking以53.69分位列開源陣營第一。
Tags:
相關文章
賴清德推薦陸配面館? 國臺辦指裝模作樣營造假象
熱點中新社北京12月17日電 (張楊彬 黃欣欣)民進黨當局領導人賴清德近日推薦某位大陸配偶開設的面館,宣稱“臺灣多元、開放”。國務院臺辦發言人朱鳳蓮17日應詢指其一邊罔顧人倫欺凌迫害島內陸配群體,一邊裝模 ...
【熱點】
閱讀更多經典CRPG續作《天外世界2》耕升 RTX 5070 Ti 炫光·超 OC太空冒險
熱點2019年由黑曜石工作室打造的《天外世界》曾憑借豐富的世界觀架構、精彩的敘事塑造和深度的RPG體驗,驚艷了無數玩家,屢獲各大媒體獎項。如今時隔6年,《天外世界2》如約而至。這款續作延續了初代幽默詼諧的 ...
【熱點】
閱讀更多夏威夷火山噴發:出現“火龍卷”奇觀
熱點11月11日消息,據媒體報道,夏威夷基拉韋厄火山于當地時間11月9日發生噴發,噴發的熔巖柱最高超過300米,噴出的巖漿覆蓋了火山口過半區域。此次噴發還伴隨出現了 “火龍卷”,這 ...
【熱點】
閱讀更多