“價格屠夫”DeepSeek的理想主義:開源、降本與AI普惠

訊石光通訊網(wǎng) 2025/1/28 9:52:46

  一天內(nèi)登頂中美App Store免費榜、火到兩天崩潰兩次、Meta開設(shè)四個作戰(zhàn)室研究,連日來,DeepSeek猶如一顆 “東方核彈”,引爆了全球AI圈。

  DeepSeek這次引發(fā)全球震動的根源之一,就是其最新發(fā)布的開源模型DeepSeek-R1。據(jù)公司介紹,在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,DeepSeek-R1性能比肩已經(jīng)能OpenAI o1正式版,并采用MIT許可協(xié)議,支持免費商用、任意修改和衍生開發(fā)等。

  可以說,DeepSeek和它的大模型證明了,在“大力出奇跡”的Scaling Law之外,AI大模型或許還有另一條制勝之道、一種“DeepSeek Law”:調(diào)整改變大模型的基礎(chǔ)結(jié)構(gòu)+有效利用有限資源。

▌“一份給全球的開源大禮”

  DeepSeek的很多選擇都和國內(nèi)的大模型創(chuàng)業(yè)公司不同,比如堅定選擇開源路線,將代碼、模型權(quán)重和訓(xùn)練日志全部公開,DeepSeek-R1自然也不例外。

  對于DeepSeek-R1,多位AI行業(yè)大佬都不乏溢美之詞。

  “DeepSeek-R1是我見過最令人驚嘆、最讓人印象深刻的突破之一,而且它還是開源的,可以說是一份給全球的大禮。”頂級風(fēng)投之一A16Z創(chuàng)始人Marc Andreesen如此形容這個模型。

  “我們生活在這樣一個時代,一家非美國公司正在讓OpenAI的初衷得以延續(xù),即做真正開放、為所有人賦能的前沿研究。”英偉達高級研究科學(xué)家Jim Fan表示,DeepSeek-R1可能是第一個展示了RL(強化學(xué)習(xí))飛輪可發(fā)揮作用,且能帶來持續(xù)增長的OSS(開源軟件)項目

  Meta首席科學(xué)家楊立昆(Yann Lecun)則表示, “開源模型正在超越專有模型。DeepSeek從開放研究和開源中獲益匪淺。他們提出了新的想法,并基于其他人的工作進行創(chuàng)新。由于他們的工作是公開和開源的,所有人都能從中獲益。這就是開源研究和開源技術(shù)的力量?!?

  隨之而來的,是全球范圍內(nèi)AI技術(shù)人員們掀起的“DeepSeek復(fù)現(xiàn)熱潮”:

  比如UC伯克利博士生潘家怡和兩位研究人員,就在游戲CountDown中復(fù)現(xiàn)了DeepSeek R1-Zero。團隊驗證了通過RL,3B的基礎(chǔ)語言模型也能夠自我驗證和搜索,成果出色。更重要的是,這項復(fù)現(xiàn)成本僅僅不到30美元

  全球最大開源平臺HuggingFace團隊,也已官宣復(fù)刻DeepSeek R1所有pipeline。復(fù)刻完成后,所有的訓(xùn)練數(shù)據(jù)、訓(xùn)練腳本等等,將全部開源。

  “在顛覆性的技術(shù)面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超?!盌eepSeek創(chuàng)始人梁文鋒曾這樣解釋選擇開源的原因,“開源,發(fā)論文,其實并沒有失去什么。對于技術(shù)人員來說,被follow是很有成就感的事。開源更像一個文化行為,而非商業(yè)行為……我們不會閉源。我們認(rèn)為先有一個強大的技術(shù)生態(tài)更重要?!?/strong>

  ▌技術(shù)降本造就“AI價格屠夫”

  談到DeepSeek大模型,另一個被常常提到的形容詞,應(yīng)該是“物美價廉”。

  最新面世的這一DeepSeek-R1,API服務(wù)定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元,輸出API價格僅僅只有OpenAI o1的3%。

  這不是DeepSeek第一次舉起“價格屠刀”。

  在去年5月,DeepSeek已經(jīng)帶著開源第二代MoE大模型DeepSeek-V2,頂著“價格屠夫”、“AI界拼多多”的稱號一炮而紅——性能比肩GPT-4,但定價上每百萬token輸入1元、輸出2元(32K上下文),僅是GPT-4的近百分之一水平。

  在這之后,字節(jié)跳動、百度、騰訊、阿里巴巴等互聯(lián)網(wǎng)大廠紛紛按捺不住,紛紛官宣大模型降價,由此打響了國內(nèi)大模型價格戰(zhàn)。

  低價背后,還是離不開“技術(shù)炫技”帶來的降本。

  一個多月前DeepSeek-V3就曾引發(fā)業(yè)內(nèi)高度關(guān)注,關(guān)鍵原因之一就是預(yù)訓(xùn)練成本之低——這個參數(shù)量高達671B的大模型,在預(yù)訓(xùn)練階段僅使用2048塊GPU訓(xùn)練了2個月,且只花費557.6萬美元。與此同時,DeepSeek-V3相比其他前沿大模型,性能卻足以比肩乃至更優(yōu)。

  在這背后,DeepSeek-V3采用了用于高效推理的多頭潛在注意力(MLA)和用于經(jīng)濟訓(xùn)練的DeepSeekMoE。研發(fā)團隊證明,多Token預(yù)測目標(biāo)(Multi-Token Prediction,MTP)有利于提高模型性能,可以用于推理加速的推測解碼。后訓(xùn)練方面,DeepSeek V3引入了一種創(chuàng)新方法,將推理能力從長思維鏈模型(DeepSeek R1)中,蒸餾到標(biāo)準(zhǔn)模型上。這在顯著提高推理性能的同時,保持了DeepSeek V3的輸出風(fēng)格和長度控制。

  ▌AI應(yīng)用普及前奏

  “DeepSeek的目標(biāo)是實現(xiàn)AGI,而不僅僅是短期的商業(yè)化?!?/strong>梁文鋒曾在采訪中如此強調(diào)。

  DeepSeek的降價并非為了搶用戶,而是基于成本下降和對普惠AI的追求。他相信,隨著經(jīng)濟的發(fā)展,中國也應(yīng)該成為技術(shù)創(chuàng)新的貢獻者,而不僅僅是應(yīng)用創(chuàng)新的跟隨者。

  站在當(dāng)下時點,AI應(yīng)用滲透率仍然較低,產(chǎn)業(yè)仍在早期。中信證券指出,DeepSeek模型相比GPT4模型更小的參數(shù)量也意味著更低的推理成本,推理成本的降低,將是AI應(yīng)用普及的前奏,正如4G提速降費給我國移動互聯(lián)網(wǎng)產(chǎn)業(yè)提供了助力。

  其進一步表示,豆包pro、DeepSeek-v3等國產(chǎn)模型連續(xù)發(fā)布。模型能力上,國產(chǎn)模型在文本和知識能力上接近GPT-4、Claude、Llama等海外前沿模型水平,多模態(tài)能力逐步完備,邏輯和代碼能力在非o1技術(shù)路線下達到可用水平。價格上,國產(chǎn)模型API百萬tokens輸出普遍定價10元以內(nèi),是GPT-4o的1/3甚至更低。

  預(yù)計模型性價比持續(xù)提升下,國內(nèi)AI應(yīng)用依托豐富生態(tài)和成熟流量,有望加速在各領(lǐng)域落地。其中,Agent模式有望以更長的任務(wù)流程、更好的場景理解、更高的自主能力,成為所有互聯(lián)網(wǎng)用戶的數(shù)字助手,在企業(yè)管理、教育、辦公、金融等領(lǐng)域展現(xiàn)應(yīng)用價值。

  值得一提的是,有消息稱Meta生成AI小組和基礎(chǔ)設(shè)施團隊已開設(shè)四個作戰(zhàn)室,學(xué)習(xí)DeepSeek工作原理。其中兩個動員起來的小組正在試圖了解High-Flyer如何降低訓(xùn)練和運行DeepSeek的成本。第三個Meta研究小組正在試圖弄清楚High-Flyer可能使用哪些數(shù)據(jù)來訓(xùn)練其模型。第四作戰(zhàn)室正在考慮基于DeepSeek模型屬性重構(gòu)Meta模型的新技術(shù)——

  這或許也意味著,站在巨人肩膀上的DeepSeek,成為了有望托舉更多人的巨人。

新聞來源:財聯(lián)社