O modelo surpreendentemente econômico de Deepseek desafia os gigantes da indústria. Inicialmente, apoiado como custando apenas US $ 6 milhões para treinar, a Deepseek V3, uma poderosa rede neural, tornou -se um grande concorrente, causando quedas significativas de ações para a NVIDIA. No entanto, o custo verdadeiro é muito maior.
Imagem: Ensigame.com
O sucesso de Deepseek decorre de uma combinação de tecnologias inovadoras: previsão de vários toques (MTP) para maior precisão e eficiência; Mistura de especialistas (MOE) utilizando 256 redes neurais para treinamento acelerado; e atenção latente de várias cabeças (MLA) para obter uma extração aprimorada de informações.
Imagem: Ensigame.com
Ao contrário das reivindicações iniciais, a semiânica revelou a infraestrutura substancial da Deepseek: aproximadamente 50.000 GPUs da NVIDIA, avaliadas em cerca de US $ 1,6 bilhão, com custos operacionais atingindo US $ 944 milhões. Isso contrasta acentuadamente com o custo pré-treinamento de US $ 6 milhões divulgado, que omite pesquisas, refinamento, processamento de dados e despesas gerais de infraestrutura.
Imagem: Ensigame.com
A estrutura única da Deepseek, uma subsidiária da High-Flyer, um fundo de hedge chinês, permite a inovação e a tomada de decisões rápidas. Possuir seus data centers fornece controle completo sobre otimização. O investimento substancial da empresa superior a US $ 500 milhões, juntamente com altos salários que atraem os principais talentos chineses (mais de US $ 1,3 milhão anualmente para alguns pesquisadores), contribui significativamente para sua vantagem competitiva.
Imagem: Ensigame.com
Embora a narrativa "amiga do orçamento" de Deepseek seja inflada, seu sucesso destaca o potencial de empresas independentes de IA bem financiadas. O forte contraste nos custos de treinamento-US $ 5 milhões da DeepSeek por R1 versus US $ 100 milhões do ChatGPT para 4o-sublinham a relação de relação com a relação relativa da Deepseek, mesmo com seu investimento real substancial. A história de sucesso da empresa, no entanto, é atribuída com mais precisão a investimentos significativos, avanços tecnológicos e uma força de trabalho altamente qualificada.