OpenAI usou tudo na internet para treinar sua IA; agora acusa o DeepSeek de roubar seus dados

  • Funcionários da OpenAI acreditam que a DeepSeek destilou seus modelos

  • Técnica é muito comum no campo da IA, mas a OpenAI a proíbe em seus termos de serviço

  • OpenAI foi acusada de treinar seus modelos em dados sem o consentimento de seus proprietários, incluindo trabalhos protegidos por direitos autorais

Imagem | TechCrunch
Sem comentários Facebook Twitter Flipboard E-mail
pedro-mota

PH Mota

Redator

Jornalista há 15 anos, teve uma infância analógica cada vez mais conquistada pelos charmes das novas tecnologias. Do videocassete ao streaming, do Windows 3.1 aos celulares cada vez menores.

Os modelos de IA do DeepSeek são realmente bons. Testes comparativos o colocam em pé de igualdade com ChatGPT, Claude ou Gemini, o que desencadeou elogios, mas também suspeitas. Há pessoas que não acreditam que o treinamento do DeepSeek custou apenas US$ 5,6 milhões, mas a OpenAI está acusando o DeepSeek de outra coisa.

DeepSeek, você está usando nossos dados sem permissão

Os porta-vozes da OpenAI disseram ao Financial Times que descobriram evidências de que técnicas de "destilação" foram usadas nos modelos da OpenAI usados ​​pela DeepSeek.

O que é "destilação" na IA?

Os desenvolvedores do DeepSeek usaram um grande número de técnicas para atingir um modelo eficiente. Entre elas, o aprendizado por reforço se destaca, mas também se sabe que eles usam a destilação de modelos. Nessa técnica, um "modelo de aluno" menor é ensinado a se comportar como um "modelo de professor" maior e mais avançado. Dados do "modelo de professor" são usados ​​para tornar o modelo pequeno mais rápido e eficiente, mas igualmente inteligente em tarefas específicas.

Uso não permitido

A destilação de modelos é uma prática comum na indústria, mas os termos de serviço da OpenAI proíbem que seus modelos sejam usados ​​para essa finalidade. Assim, é especificado que os usuários não podem "copiar" nenhum de seus serviços ou "usar a saída [dos modelos da OpenAI] para desenvolver modelos que competem com os da OpenAI".

OpenAI e Microsoft já fizeram suas pesquisas sobre isso

De acordo com a Bloomberg, ambas as empresas analisaram contas que estavam sendo usadas para alavancar seus chatbots no outono passado e que aparentemente pertenciam aos desenvolvedores do DeepSeek. Eles usaram a API da OpenAI, mas havia suspeitas de que eles violaram os termos de serviço ao alavancar esse acesso para destilar seus modelos.

Original

Muitos já fazem isso

David Sacks, chefe de IA da equipe de Donald Trump, alertou-o sobre o que estava acontecendo e garantiu que havia evidências de que o DeepSeek havia usado dados da OpenAI. Porta-vozes da empresa liderada por Sam Altman indicaram que "sabemos que empresas na República Popular da China – e outras – estão constantemente tentando destilar os modelos das principais empresas de IA nos EUA".

OpenAI também usou dados de outros serviços

A ironia aqui é que a OpenAI não teve escrúpulos em coletar dados da internet para treinar seus modelos, violando também os termos de serviço dessas plataformas. No ano passado, por exemplo, foi descoberto como transcreveram um milhão de horas do YouTube para treinar o GPT-4. Timnit Gebru, famoso por sua polêmica demissão do Google, comentou no LinkedIn que a OpenAI "deve ser a empresa mais insuportável do mundo", e continuou: "Eles podem roubar do mundo inteiro e devorar todos os recursos possíveis. Mas ninguém pode dar a eles um gostinho do próprio remédio, nem um pouco."

Se está na internet, você pode usar, certo?

Outras empresas fazem exatamente o mesmo e se escondem atrás do argumento do "uso justo". Elas coletam qualquer conteúdo público na internet sem pedir permissão aos usuários ou plataformas. Não só isso: suspeita-se que em muitos casos esses modelos sejam treinados com obras protegidas por direitos autorais, algo que levou a inúmeros processos judiciais.

Imagem | TechCrunch

Inicio