Suppicion de l'IA: l'ascension rapide de Deepseek sous surveillance

OpenAI soupçonne que les modèles d'IA profonde de la Chine, nettement moins chers que les homologues occidentaux, peuvent avoir été formés à l'aide de données OpenAI, déclenchant la controverse et les troubles du marché. L'émergence de Deepseek a provoqué une forte baisse des cours des actions des grandes sociétés d'IA, NVIDIA subissant sa plus grande perte d'une journée.

Le modèle R1 de Deepseek, basé sur l'Open-source Deepseek-V3, possède des coûts de formation nettement inférieurs (estimés à 6 millions de dollars) et des exigences de calcul par rapport aux modèles occidentaux comme Chatgpt. Bien que cette affirmation soit contestée, elle a soulevé des inquiétudes concernant les investissements massifs réalisés par les entreprises technologiques américaines en IA. La popularité de Deepseek a bondi dans les graphiques de téléchargement des applications américaines, alimentées par des discussions entourant sa rentabilité.

OpenAI et Microsoft étudient si Deepseek a violé les conditions d'utilisation d'OpenAI en utilisant la «distillation», une technique pour former des modèles d'IA à l'aide de données extraites de modèles plus grands. OpenAI a confirmé sa conscience de ces tentatives de chinois et d'autres sociétés de reproduire les principaux modèles d'IA américains et a déclaré son engagement à protéger sa propriété intellectuelle. David Sacks, le tsar de l'IA du président Trump, a corroboré les soupçons d'Openai, suggérant que les actions de Deepseek impliquaient la distillation de connaissances des modèles Openai.

Deepseek est accusé d'utiliser le modèle d'Openai pour former son concurrent en utilisant la distillation. Crédit d'image: Andrey Rudakov/Bloomberg via Getty Images.

Cette situation met en évidence l'ironie des accusations d'Openai, compte tenu de ses propres controverses passées concernant l'utilisation du matériel protégé par le droit d'auteur dans la formation du chatppt. Les critiques ont souligné la dépendance d'Openai sur de grandes quantités de données Internet, ce qui soulève des questions sur ses propres pratiques éthiques.

OpenAI avait précédemment reconnu l'impossibilité de former des modèles de grandes langues sans matériel protégé par le droit d'auteur, citant la large étendue de la protection des droits d'auteur. Cette position est en outre soulignée par les batailles juridiques en cours, y compris un procès du New York Times alléguant une utilisation illégale de son contenu et une action en justice distincte déposée par 17 auteurs. Alors qu'Openai défend ses actions comme une «utilisation équitable», ces poursuites mettent en évidence le paysage juridique complexe et évolutif entourant l'utilisation du matériel protégé par le droit d'auteur dans la formation de l'IA. La situation est encore compliquée par un bureau de droit d'auteur américain de 2018, ce qui a statué que l'art généré par l'IA n'est pas éligible à la protection des droits d'auteur.