本站真誠介紹香港這個「東方之珠」和「亞洲國際都會」

亞洲國際都會 asiasworldcity

MiniMax追着DeepSeek打

(本文内容不代表本站观点。)
香港飛龍 Hong Kong HK Dragon
「香港飛龍」標誌

本文内容:

經濟觀察報 記者 陳月芹6月17日,MiniMax(稀宇科技)宣佈其自主研發的MiniMax M1模型開源,並計劃在未來5天內每天發佈一項新產品或新技術。而這款MiniMax M1模型,在關鍵技術規格、架構設計、上下文處理能力、訓練成本等維度全面對標DeepSeek R1,甚至是谷歌Gemini 2.5 Pro,比拼誰更好用、誰更低成本。對大語言模型而言,上下文窗口與長文本處理能力是衡量一箇模型處理複雜、長篇任務能力的關鍵指標。MiniMax M1支持100萬個token的上下文長度,是DeepSeek R1上下文大小(12.8萬Token)的8倍,僅落後於谷歌的Gemini 2.5 Pro。支持百萬級上下文輸入的能力,使得MiniMax M1擅長處理長文檔,適用於法律文件審查、深度研究分析或處理整個代碼庫等應用。在架構上,MiniMax M1和DeepSeek R1均採用了混合專家(MoE)架構。MiniMax M1的總參數量爲4560億,每個token激活459億參數;而DeepSeek R1雖然總參數量更大(6710億),但每個token激活的參數量相對較低,爲370億。此外,與DeepSeek R1相比,MiniMax-M1在生成10萬個token時僅消耗25%的浮點運算。在生成長度達64000個token的推理任務中,M1所需的計算能力不到DeepSeek R1的一半,進一步降低了模型操作成本。2025年2月,DeepSeek火爆出圈,除了免費和好用之外,還因其僅以500萬至600萬美元的GPU成本,就訓練出了與OpenAIo1能力不相上下的DeepSeek R1模型,引起行業震撼,不過這一成本數據也引發了廣泛爭議。MiniMax稱,M1模型的整個強化學習階段僅使用了512塊英偉達H800 GPU,耗時三週,成本僅爲53.5萬美元,這一成本“比最初的預期少了一箇數量級”。MiniMax解釋,MiniMax M1的強文本處理能力和更低成本,背後是兩大核心技術作爲支撐,一是線性注意力機制(Lightning Attention)混合構架和強化學習算法CISPO。例如,CISPO算法通過裁剪重要性採樣權重,而非傳統算法中調整Token的更新方式,來提升強化學習的效率和穩定性。降低訓練成本後,MiniMax也把用戶使用API服務的價格打下來了。MiniMax M1採用分級計費,根據用戶輸入或輸出的Token數量(即內容的長度)而變化。第一檔爲0—32k Token,每100萬個輸入Token收取0.8元,輸出則爲8元/百萬Token;第二檔爲32k—128k Token,輸入爲1.2元/百萬Token,輸出則爲16元/百萬Token;第三檔爲128k—1M Token,輸入爲2.4元/百萬Token,輸出爲24元/百萬Token。而DeepSeek R1 的API服務收費標準爲?輸入每百萬Tokens?收費?0.55美元?(約合人民幣3.95元),?輸出每百萬Tokens?收費?2.19美元?(約合人民幣15.4元)。據此計算,MiniMax M1前兩檔位的定價均低於DeepSeek R1,而第三個超長文本檔位,目前DeepSeek模型尚未覆蓋。目前,MiniMax M1已在Hugging Face和GitHub上公開其代碼和模型權重,允許用戶進行透明的檢查、定製和本地部署。


(本文内容不代表本站观点。)
---------------------------------
本网站以及域名有仲裁协议(arbitration agreement)。

依据《伯尔尼公约》、香港、中国内地的法律规定,本站对部分文章享有对应的版权。

本站真诚介绍香港这个「东方之珠」和「亚洲国际都会」,香港和「东方之珠」和「亚洲国际都会」是本站的业务地点名称。

本网站是"非商业"(non-commercial),没有涉及商业利益或竞争。


2025-Jun-20 03:05am (UTC +8)
栏目列表