欧美国产日韩A在线观看,日韩一欧美内射在线观看,丝瓜app下载

金融島推薦閱讀：

[返回金融島首頁] [免費注冊] [登錄]

主題：中國聯(lián)通：針對DeepSeek系列模型進行了優(yōu)化升級平均節(jié)省30%推理計算量

2025-02-26 16:04:12

功能： [發(fā)表文章] [回復] [快速回復] [進入實時在線交流平臺]

頭銜：金融島總管理員

昵稱：大牛股

發(fā)帖數(shù)：112593

回帖數(shù)：21874

可用積分數(shù)：99853450

注冊日期：2008-02-23

最后登陸：2025-05-29

主題：中國聯(lián)通：針對DeepSeek系列模型進行了優(yōu)化升級平均節(jié)省30%推理計算量

　　中國聯(lián)通近日宣布，繼1月開源元景“自適應慢思考”思維鏈大模型后，又針對DeepSeek系列模型進行了“自適應慢思考”優(yōu)化升級，平均可節(jié)省約30%的推理計算量，現(xiàn)已開源。這也是目前業(yè)界首個對DeepSeek系列思維鏈模型做“自適應慢思考”優(yōu)化升級的工作。

　　“以我為主，為我所用”的開放創(chuàng)新

　　元景思維鏈大模型具備多學科、多場景通用推理能力，且能在確保慢思考能力不打折的情況下，做到針對不同任務和難度的自適應慢思考，大幅降低了資源消耗，實現(xiàn)了大模型“慢思考”能力高性價比落地應用。

　　元景思維鏈大模型接入DeepSeek-R1并非簡單的“拿來主義”，而是“從其善，優(yōu)其不善”，對DeepSeek-R1版本進行了調(diào)整，最大程度規(guī)避了其面對簡單問題“過度思考”的現(xiàn)象，使模型具備了“自適應”能力。即在面向難度較高問題時使用慢思考模式生成長思維鏈，面向簡單問題時則傾向于生成簡潔的思維鏈，迅速準確的輸出相關答案。這樣避免了答案的冗余、資源的浪費以及減少用戶等待時間，提升用戶體驗。

調(diào)整步驟完整分享

　　難度自適應微調(diào)：為實現(xiàn)模型推理的難度自適應，中國聯(lián)通利用DeepSeek-R1滿血版模型采樣生成數(shù)據(jù)，通過復雜度量化模塊構造長度偏好數(shù)據(jù)集，對于簡單問題從采樣答案中挑選長度較短的答案，對困難問題挑選長度較長的答案，使得答案長度與當前問題復雜度相匹配。在此基礎上對DeepSeek-R1進行微調(diào)，使得微調(diào)后的模型具備對不同難度題目的自適應慢思考能力。

　二次蒸餾：針對DeepSeek-R1的系列蒸餾模型，由于其使用的蒸餾數(shù)據(jù)來自訓練滿血版R1時使用的訓練數(shù)據(jù)，而非由性能更好的R1滿血版自身生成的數(shù)據(jù)，這會導致得到的蒸餾模型未能充分學習R1滿血版的能力，蒸餾效果大打折扣。為解決這個問題，中國聯(lián)通使用了二次蒸餾的策略，即利用DeepSeek-R1滿血版將已積累的高質(zhì)量數(shù)據(jù)轉化為包括深度思考過程的長思維鏈格式數(shù)據(jù)，在DeepSeek-R1蒸餾系列模型基礎上再進行一次微調(diào)，使模型具備更強的推理能力。

　　難度自適應強化學習：在對模型進行二次蒸餾后，中國聯(lián)通進一步借鑒DeepSeek-R1的構建思路，在GRPO算法基礎上提出了一種難度自適應強化學習算法DA-GRPO（Difficulty Adaptive GRPO），對二次蒸餾模型進行難度自適應的強化學習訓練，進一步提升其推理效果。除了使用傳統(tǒng)的基于規(guī)則的正確性獎勵、格式獎勵、語言一致性獎勵外，DA-GRPO還基于每個問題的復雜程度和生成答案的長度對獎勵得分進行校準。具體而言，如果模型對一個簡單問題輸出較長的答案，則對獎勵分數(shù)進行相應的懲罰。同時，若模型對困難的問題輸出較長的答案，則給予其更高的獎勵分數(shù)，以鼓勵其進行更充分的思考。這樣，通過提高樣本答案獎勵得分的區(qū)分度，使模型具備根據(jù)問題難度輸出相應長度答案的能力，在保證推理準確率的前提下顯著減少了答案冗余和資源消耗，從而實現(xiàn)對不同難度問題的自適應慢思考。

　推理計算量節(jié)省約30%

　　中國聯(lián)通以DeepSeek-R1-distill-32B模型為例，對上述方法的效果進行了驗證。通過在數(shù)學任務測評集（MATH500）上對比以及具體實驗可以看到，經(jīng)過難度自適應改造后的模型在不同難度等級問題上生成的回答長度較原版均明顯下降，并且對于最高難度（Level 5）輸出的回答長度降幅最大，體現(xiàn)了模型對不同難度等級問題具備自適應慢思考能力。經(jīng)過測評，這種創(chuàng)新的自適應慢思考方法，平均可節(jié)省約30%的推理計算量，冗余輸出大幅減少，用戶體驗得到有效提升。

【免責聲明】上海大牛網(wǎng)絡科技有限公司僅合法經(jīng)營金融島網(wǎng)絡平臺，從未開展任何咨詢、委托理財業(yè)務。任何人的文章、言論僅代表其本人觀點，與金融島無關。金融島對任何陳述、觀點、判斷保持中立，不對其準確性、可靠性或完整性提供任何明確或暗示的保證。股市有風險，請讀者僅作參考，并請自行承擔相應責任。

當前 1/1 頁： 1 上一頁下一頁 [最后一頁]

關于我們&公司介紹上海大牛網(wǎng)絡科技有限公司域名：m.bh9708g.cn www.jrd8.com

上海大牛網(wǎng)絡科技有限公司聯(lián)系方式：leshj@tom.com 021-67630917 滬ICP備10214494號-1 滬ICP備10214494號-2 滬公安網(wǎng)備:31011702007325

友情鏈接：投資者關系平臺金融界新浪新華網(wǎng) 上證交易所

結構注釋

結構注釋