Zaskakująco opłacalny model AI Deepseek wyzwala gigantów branżowych. Początkowo reklamowane jako kosztujące tylko 6 milionów dolarów na trening, Deepseek V3, potężna sieć neuronowa, stała się głównym konkurentem, nawet powodując znaczne spadki akcji dla NVIDIA. Jednak prawdziwy koszt jest znacznie wyższy.
Zdjęcie: engame.com
Sukces Deepseek wynika z kombinacji innowacyjnych technologii: prognozy wielu tokenów (MTP) w celu poprawy dokładności i wydajności; Mieszanka ekspertów (MOE) wykorzystujących 256 sieci neuronowych do przyspieszonego szkolenia; oraz wielorakiej ukrytej uwagi (MLA) dla zwiększonej ekstrakcji informacji.
Zdjęcie: engame.com
W przeciwieństwie do początkowych twierdzeń, semianaliza ujawniła znaczną infrastrukturę Deepseek: około 50 000 GPU NVIDIA, o wartości około 1,6 miliarda dolarów, a koszty operacyjne wyniosły 944 miliony dolarów. Kontrastuje to gwałtownie z opublikowanymi kosztami przed treningiem w wysokości 6 milionów dolarów, co pomija badania, udoskonalenie, przetwarzanie danych i ogólne wydatki infrastrukturalne.
Zdjęcie: engame.com
Unikalna struktura Deepseek, spółka zależna od chińskiego funduszu hedgingowego, pozwala na szybkie innowacje i podejmowanie decyzji. Posiadanie centrów danych zapewnia pełną kontrolę nad optymalizacją. Znaczna inwestycja firmy przekraczająca 500 milionów dolarów, w połączeniu z wysokimi pensjami, które przyciągają najwyższe chińskie talenty (ponad 1,3 miliona dolarów rocznie dla niektórych badaczy), przyczynia się znacząco do jej przewagi konkurencyjnej.
Zdjęcie: engame.com
Podczas gdy „przyjazna budżet” narracja Deepseeka jest prawdopodobnie zawyżona, jej sukces podkreśla potencjał dobrze finansowanych niezależnych firm AI. Stark kontrast kosztów szkolenia-5 milionów dolarów Deepseek za R1 w porównaniu z 100 milionami dolarów Chatgpt za 4o-podkreśla względną opłacalność Deepseek, nawet przy jego istotnej faktycznej inwestycji. Historia sukcesu firmy jest jednak dokładniej przypisywana znacznym inwestycjom, postępom technologicznym i wysoko wykwalifikowanej sile roboczej.