2025-11-08 13:02:30
11月6日晚,月之暗面旗下Kimi大模型發(fā)布Kimi K2 Thinking,稱其是“Kimi迄今能力最強的開源思考模型”,在多項測試中達SOTA水平,且在通用基礎能力上同步升級,目前其API已上架。但Kimi面臨市場競爭壓力,大廠憑借生態(tài)優(yōu)勢擠壓獨立應用空間,且AI交互成本下降。Kimi嘗試垂類合作探索商業(yè)化,能否將模型能力轉化為用戶價值、構建可持續(xù)商業(yè)模式是其破局關鍵。
每經(jīng)記者|李宇彤 每經(jīng)編輯|黃博文
月之暗面今年以來的技術迭代還在繼續(xù)。
11月6日晚間,月之暗面旗下Kimi大模型發(fā)布了Kimi K2 Thinking,并稱其為“Kimi迄今能力最強的開源思考模型”。
Kimi官方表示,Kimi K2 Thinking是基于“模型即Agent(智能體)”理念訓練的新一代Thinking Agent,它原生掌握“邊思考,邊使用工具”的能力。
從實測成績來看,Kimi K2 Thinking在“人類最后的考試”(Humanity's Last Exam)、自主網(wǎng)絡瀏覽能力(BrowseComp)、復雜信息收集推理(SEAL-0)等多項基準測試中表現(xiàn)達到SOTA(當前技術水平的最前沿)水平。
自7月進入“K2”版本之后,Kimi的升級正在提速。9月5日,Kimi發(fā)布Kimi K2模型的最新版本“0905”,進一步提升其在真實編程任務中的表現(xiàn)。9月25日,月之暗面Kimi發(fā)布全新Agent模式“OK Computer”并開啟灰度測試。
這也是整個AI市場的一個縮影。事實上,AI市場正進入快速迭代階段。據(jù)QuestMobile發(fā)布的2025年三季度AI應用行業(yè)報告,以頭部互聯(lián)網(wǎng)集團為例,今年1月—9月共完成182次模型發(fā)布/更新/迭代,平均每5.7天就迎來一次模型升級。
模型迭代節(jié)奏持續(xù)加快,技術競爭正轉向應用能力與推理深度的實戰(zhàn)較量。
據(jù)Kimi官方,Kimi K2 Thinking是“Kimi迄今能力最強的開源思考模型”,這一定位源于其在技術架構、任務執(zhí)行與評測表現(xiàn)上的系統(tǒng)性突破。
作為基于“模型即Agent”理念訓練的新一代Thinking Agent,Kimi K2 Thinking實現(xiàn)了“邊思考,邊使用工具”的原生能力融合。該模型可在無人干預的情況下,自主完成多達300輪的工具調用與多輪思考,可提升處理復雜問題的連續(xù)性與穩(wěn)定性。
在多項關鍵能力維度上,Kimi K2 Thinking均有明顯進步,其Agentic(智能代理)搜索、Agentic編程、寫作與綜合推理性能得到進一步強化。
在推理能力方面,該模型在涵蓋100多個專業(yè)領域的“人類最后的考試”(Humanity's Last Exam)中取得了卓越成績。該測試允許使用搜索、Python及網(wǎng)絡瀏覽等工具,Kimi K2 Thinking以44.9%的得分達到SOTA水平。作為對比,Kimi公布的同場測試中GPT-5(High)的成績?yōu)?1.7%。
面對信息過載的復雜搜索場景,Kimi K2 Thinking同樣表現(xiàn)出色。BrowseComp測試旨在評估AI在信息密集環(huán)境中的堅持性與創(chuàng)造力。在該項測試中,人類平均得分僅為29.2%,而Kimi K2 Thinking以60.2%的成績刷新了SOTA紀錄。
此外,該模型在編程相關任務中亦有穩(wěn)步提升。在多語言軟件工程基準SWE-Multilingual、SWE-bench驗證集以及Terminal終端使用等測試中,其表現(xiàn)有了進一步提升。
除了專項能力的突破,Kimi表示Kimi K2 Thinking模型在通用基礎能力上也實現(xiàn)同步升級。無論是在創(chuàng)意寫作、學術研究,還是在回應個人與情感類問題時,模型都展現(xiàn)出更成熟的理解與表達能力。
為進行對比驗證,《每日經(jīng)濟新聞》記者使用與測試Kimi K2時相同的提示詞,要求Kimi K2 Thinking模型以2025年北京高考作文題“數(shù)字閃耀時”為例,模擬高中生身份完成一篇一類記敘文。從結果看,文章結構完整、扣題準確,但在切題方式上,該模型與K2一樣,仍存在表達略顯生硬的情況。

使用了長思考模式的Kimi撰寫的作文圖片來源:Kimi網(wǎng)頁版截圖
目前,Kimi K2 Thinking模型的API(應用程序編程接口)已在Kimi開放平臺正式上架,支持256K上下文長度,定價與Kimi K2-0905相同:每百萬Token(大模型處理文本時的最小單位)輸入收費4元,輸出16元,若命中緩存,輸入費用僅為1元。同時,平臺也推出了生成速度高達100 Token/s的Turbo API,其每百萬Token輸入為8元,輸出58元,命中緩存的輸入同樣為1元。
然而,技術優(yōu)勢能否成功轉化為市場認可,是擺在Kimi K2面前的首要挑戰(zhàn)。
QuestMobile數(shù)據(jù)顯示,今年三季度,接近60%的原生App陷入負增長,對于新入局者或中小應用而言,獨立打造一款成功的原生App的窗口正在收窄。2025年,國內大模型競爭已從初期的“百花齊放”步入“巨頭主導”的新階段。
Kimi自身的增長也面臨壓力。
根據(jù)量子位智庫10月數(shù)據(jù),在AI助手APP新增下載榜上,Kimi與DeepSeek分別以超420萬和360萬的下載量位列第三、四位,但相較9月,兩者的下載量均下滑超過13%。與此同時,字節(jié)跳動的“豆包”以近2800萬新增下載穩(wěn)居第一,騰訊“元寶”則以超1300萬下載、環(huán)比14%的漲幅位列第二。大廠憑借其生態(tài)優(yōu)勢,持續(xù)擠壓著獨立應用的生存空間。
并且,更多跨界玩家正依托自身業(yè)務場景加速入局。11月3日,美團LongCat(龍貓)團隊宣布推出全新開源大模型LongCat-Flash-Omni,這也是美團在兩個月內第四次發(fā)布新模型。
另一個行業(yè)信號是AI交互成本的下降。
QuestMobile在報告中表示,人均單次Token消耗的下降也標志著AI行業(yè)進入了一個以“效率提升、成本控制、價值驅動”為特征的新階段。這是行業(yè)走向成熟和商業(yè)化的關鍵信號。
在此背景下,今年以來的Kimi正嘗試通過垂類合作探索商業(yè)化路徑。今年“雙11”期間,《每日經(jīng)濟新聞》記者測試發(fā)現(xiàn)Kimi更新了“導購”功能,可根據(jù)用戶需求推薦商品并附帶淘寶或京東鏈接,不過商品多來自代理店鋪,尚未與官方旗艦店打通。相較于字節(jié)“豆包+抖音”、阿里“通義+電商”的生態(tài)閉環(huán),Kimi暫未形成同等強度的業(yè)務綁定。
數(shù)據(jù)表明,具備清晰場景的垂直類AI應用仍具有增長潛力。據(jù)QuestMobile,字節(jié)跳動旗下即夢AI、豆包愛學及螞蟻集團旗下AQ健康管家等垂類應用三季度月活躍用戶規(guī)模復合增長率分別達12.1%、15.7%和83.4%。
對Kimi而言,差異化的核心在于將模型能力轉化為用戶可感知的價值。其能否在Agent搜索、編程助手、深度研究等場景建立起不可替代性,將決定技術升級的市場成效。
Kimi K2 Thinking展現(xiàn)出的技術縱深,為月之暗面在“思考型Agent”這一差異化路徑上贏得了重要籌碼。然而,在白熱化的大模型競爭中,技術領先性只是入場券,能否將“長思考”“強推理”的模型能力,轉化為用戶高頻依賴的應用場景,并構建起可持續(xù)的商業(yè)模式,才是真正的破局關鍵。
封面圖片來源:圖片來源:視覺中國-VCG211478193393
如需轉載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經(jīng)濟新聞APP