Operai sospecha que los modelos de IA Deepseek de China, significativamente más baratos que las contrapartes occidentales, pueden haber sido entrenados utilizando datos de OpenAI. Esta revelación, después de la caída masiva de NVIDIA, ha sido denominada "llamada de atención" para la industria tecnológica de los Estados Unidos por Donald Trump.
El modelo R1 de Deepseek, basado en el código abierto Deepseek-V3, cuenta con costos de capacitación significativamente más bajos (estimados en $ 6 millones) y requisitos computacionales en comparación con modelos occidentales como ChatGPT. Si bien este reclamo se disputa, ha impulsado las preocupaciones de los inversores sobre los miles de millones invertidos en IA por parte de los gigantes tecnológicos estadounidenses, causando una recesión del mercado que afecta a compañías como Nvidia, Microsoft, Meta, Alphabet y Dell. La aplicación de Deepseek incluso encabezó las listas de descarga de los EE. UU. En medio de la controversia.
Operai y Microsoft están investigando si Deepseek violó los términos de servicio de OpenAI empleando "destilación", una técnica para extraer datos de modelos más grandes, potencialmente utilizando la API de OpenAI. Openai reconoce que las empresas chinas con frecuencia intentan replicar los principales modelos de IA de EE. UU. Y está colaborando con el gobierno de los Estados Unidos para proteger su propiedad intelectual.
David Sacks, AI Czar del presidente Trump, apoya la afirmación de que Deepseek empleó la destilación de datos de los modelos Operai. Anticipa más medidas de las empresas de IA líder para evitar tales prácticas.
La situación destaca una ironía significativa: OpenAi, acusada de utilizar el contenido de Internet con derechos de autor para entrenar a ChatGPT, ahora está protestando en las supuestas acciones de Deepseek. Esta hipocresía ha sido ampliamente anotada en las redes sociales. Operai previamente argumentó a la Cámara de los Lores del Reino Unido que capacitar modelos de idiomas grandes sin material con derechos de autor es imposible, una posición más subrayada por las demandas en curso del New York Times y 17 autores que alegan infracción de derechos de autor. Estas demandas, junto con una decisión de la oficina de derechos de autor de EE. UU. 2018 contra los derechos de autor de arte generados por IA, destacan el complejo paisaje legal que rodea los datos de capacitación de IA.