DeepSeek令人惊讶的具有成本效益的AI模型挑战了行业巨头。最初被吹捧为训练只需600万美元的培训,DeepSeek V3(一个强大的神经网络)已成为主要的竞争对手,甚至导致NVIDIA的股票下跌。但是,真正的成本要高得多。
图片:ensigame.com
DeepSeek的成功源于创新技术的结合:多型预测(MTP),以提高准确性和效率;专家(MOE)的混合物使用256个神经网络进行加速培训;以及多头潜在注意力(MLA),以增强信息提取。
图片:ensigame.com
与最初的主张相反,半分析显示DeepSeek的大量基础设施:约50,000名NVIDIA GPU,价值约16亿美元,运营成本达到9.44亿美元。这与宣传的600万美元的预培训成本形成鲜明对比,后者省略了研究,改进,数据处理和整体基础设施费用。
图片:ensigame.com
DeepSeek独特的结构,是中国对冲基金的高飞行员的子公司,可以迅速创新和决策。拥有其数据中心提供了对优化的完全控制。该公司的大量投资超过5亿美元,再加上高薪吸引了中国顶级人才(一些研究人员每年超过130万美元),这对其竞争优势做出了重大贡献。
图片:ensigame.com
尽管DeepSeek的“预算友好”叙述可以说是夸大的,但其成功却凸显了资金充足的独立AI公司的潜力。培训成本的形成鲜明对比 - DeepSeek的R1与Chatgpt的4O相比1亿美元的$ 500万美元,即使有实质性的实际投资也强调了DeepSeek的相对成本效益。但是,该公司的成功故事更准确地归因于重大投资,技术进步和高技能的劳动力。