DeepSeek令人驚訝的具有成本效益的AI模型挑戰了行業巨頭。最初被吹捧為訓練只需600萬美元的培訓,DeepSeek V3(一個強大的神經網絡)已成為主要的競爭對手,甚至導致NVIDIA的股票下跌。但是,真正的成本要高得多。
圖片:ensigame.com
DeepSeek的成功源於創新技術的結合:多型預測(MTP),以提高準確性和效率;專家(MOE)的混合物使用256個神經網絡進行加速培訓;以及多頭潛在註意力(MLA),以增強信息提取。
圖片:ensigame.com
與最初的主張相反,半分析顯示DeepSeek的大量基礎設施:約50,000名NVIDIA GPU,價值約16億美元,運營成本達到9.44億美元。這與宣傳的600萬美元的預培訓成本形成鮮明對比,後者省略了研究,改進,數據處理和整體基礎設施費用。
圖片:ensigame.com
DeepSeek獨特的結構,是中國對沖基金的高飛行員的子公司,可以迅速創新和決策。擁有其數據中心提供了對優化的完全控制。該公司的大量投資超過5億美元,再加上高薪吸引了中國頂級人才(一些研究人員每年超過130萬美元),這對其競爭優勢做出了重大貢獻。
圖片:ensigame.com
儘管DeepSeek的“預算友好”敘述可以說是誇大的,但其成功卻凸顯了資金充足的獨立AI公司的潛力。培訓成本的形成鮮明對比 - DeepSeek的R1與Chatgpt的4O相比1億美元的$ 500萬美元,即使有實質性的實際投資也強調了DeepSeek的相對成本效益。但是,該公司的成功故事更準確地歸因於重大投資,技術進步和高技能的勞動力。