您現(xiàn)在的位置是:百科 >>正文
里程碑時(shí)刻!螞蟻推出業(yè)內(nèi)首個(gè)100B擴(kuò)散語(yǔ)言模型
百科45人已圍觀
簡(jiǎn)介12月12日消息,“螞蟻開(kāi)源”公眾號(hào)發(fā)文,螞蟻技術(shù)研究院正式推出LLaDA2.0系列離散擴(kuò)散大語(yǔ)言模型dLLM),并同步公開(kāi)技術(shù)報(bào)告。這一發(fā)布打破了行業(yè)對(duì)擴(kuò)散模型難以擴(kuò)展的固有 ...
12月12日消息,刻螞擴(kuò)散“螞蟻開(kāi)源”公眾號(hào)發(fā)文,蟻推語(yǔ)螞蟻技術(shù)研究院正式推出LLaDA2.0系列離散擴(kuò)散大語(yǔ)言模型(dLLM),出業(yè)并同步公開(kāi)技術(shù)報(bào)告。內(nèi)首
這一發(fā)布打破了行業(yè)對(duì)擴(kuò)散模型難以擴(kuò)展的模型固有認(rèn)知,實(shí)現(xiàn)了參數(shù)規(guī)模與性能的刻螞擴(kuò)散雙重重大突破。
LLaDA2.0系列包含基于MoE架構(gòu)的蟻推語(yǔ)16B (mini) 和里程碑式的100B (flash) 兩個(gè)版本,首次將擴(kuò)散模型的出業(yè)參數(shù)規(guī)模成功擴(kuò)展至百億量級(jí)。
尤為引人注目的內(nèi)首是,該模型在代碼、模型數(shù)學(xué)及智能體任務(wù)上的刻螞擴(kuò)散性能超越了同級(jí)別的自回歸(AR)模型。
通過(guò)螞蟻創(chuàng)新的蟻推語(yǔ)Warmup-Stable-Decay (WSD) 持續(xù)預(yù)訓(xùn)練策略,LLaDA2.0能夠高效繼承現(xiàn)有AR模型的出業(yè)知識(shí)儲(chǔ)備,顯著避免了從頭訓(xùn)練的內(nèi)首巨大成本。
在訓(xùn)練優(yōu)化方面,模型LLaDA2.0結(jié)合了置信度感知并行訓(xùn)練(CAP)和擴(kuò)散模型版DPO,不僅保障了生成質(zhì)量,更充分發(fā)揮了擴(kuò)散模型并行解碼的先天優(yōu)勢(shì)。最終,模型實(shí)現(xiàn)了相比AR模型高達(dá)2.1倍的推理加速。
LLaDA2.0的成功有力證明:在超大規(guī)模參數(shù)下,擴(kuò)散模型不僅完全可行,更能展現(xiàn)出比傳統(tǒng)自回歸模型更強(qiáng)的性能與更快的速度。
Tags:
相關(guān)文章
從被動(dòng)到主動(dòng)防御:麒麟軟件VARA大會(huì)展示漏洞管理“黑科技”
百科在新一輪科技革命和產(chǎn)業(yè)變革加速演進(jìn)的背景下,網(wǎng)絡(luò)安全正邁向“智防”新階段,產(chǎn)業(yè)鏈各方需進(jìn)一步強(qiáng)化協(xié)同創(chuàng)新,加快構(gòu)建自主創(chuàng)新的“網(wǎng)數(shù)智”安全保障體系。12 ...
【百科】
閱讀更多市場(chǎng)監(jiān)管出手規(guī)范“賣車須明碼標(biāo)價(jià)及交付” 小鵬汽車迅速表態(tài)
百科12月13日消息,據(jù)國(guó)家市場(chǎng)監(jiān)管總局網(wǎng)站12月12日消息,為規(guī)范汽車行業(yè)價(jià)格行為,國(guó)家市場(chǎng)監(jiān)督管理總局研究起草了《汽車行業(yè)價(jià)格行為合規(guī)指南(征求意見(jiàn)稿)》(以下簡(jiǎn)稱《指南》),現(xiàn)向社會(huì)公開(kāi)征求意見(jiàn)。據(jù) ...
【百科】
閱讀更多大跳水!喜美諾60W快充C
百科天貓【喜美諾旗艦店】喜美諾 60W 快充 C-C 數(shù)據(jù)線 1 米,日常售價(jià) 29.9 元,下單立減 12 元,疊加 10 元優(yōu)惠券。店鋪新客可享 1 元首單禮金,抵扣后實(shí)付低至 6.9 元包郵。購(gòu)買鏈 ...
【百科】
閱讀更多