Tendências do dia

Elon Musk diz que a IA já consumiu todo o conhecimento humano (mas ele tem um plano B)

A escassez de dados para treinar modelos de IA representa um ponto de inflexão histórico. Como alternativa, o uso de dados sintéticos surge como uma solução viável, mas não está isento de riscos.

Plano B na vida de Elon Musk. Imagem: Xataka con Midjourney
Sem comentários Facebook Twitter Flipboard E-mail
sofia-bedeschi

Sofia Bedeschi

Redatora

Jornalista com mais de 5 anos de experiência no ramo digital. Entusiasta pela cultura pop, games e claro: tecnologia, principalmente com novas experiências incluídas na rotina. 

A inteligência artificial está prestes a esgotar todos os dados disponíveis na internet para seu treinamento, segundo Elon Musk, proprietário da X e CEO da xAI, entre outras empresas.

A solução proposta envolve cruzar um dos maiores desafios do treinamento de modelos: o uso de dados sintéticos – ou seja, permitir que a própria IA gere os dados com os quais continuará aprendendo.

Por que isso é importante?

A escassez de dados para treinar modelos representa um ponto de inflexão no desenvolvimento da IA. Esse cenário pode desacelerar o ritmo de avanço tecnológico, que nos últimos anos tem sido exponencial.

O contexto

Os grandes modelos de linguagem precisam de quantidades massivas de dados para aprimorar seu desempenho. Com o esgotamento dos dados reais disponíveis – aqueles gerados por humanos de maneira tradicional –, a indústria é forçada a buscar alternativas viáveis para continuar avançando no desenvolvimento de produtos como chatbots e geradores de imagens.

Essa ideia não é nova e já foi aplicada em outros projetos de IA. Segundo a Gartner, 60% dos dados utilizados em projetos de IA em 2024 foram gerados sinteticamente. Empresas como Microsoft, OpenAI, Anthropic e Meta já adotam essa abordagem.

  • O Palmyra X 004, um modelo criado para aprimorar aplicações de IA já existentes, foi treinado com dados sintéticos e custou 700 mil dólares.
  • O custo estimado para treinar um modelo de tamanho semelhante da OpenAI é de 4,6 milhões de dólares.

A diferença da proposta de Musk

Até agora, os dados sintéticos foram utilizados como um complemento aos dados reais, e não como um substituto completo. No entanto, Musk acredita que, em breve, eles serão a única fonte de treinamento possível, o que pode transformar radicalmente a forma como os modelos de IA são desenvolvidos.

O que isso significa?

Essa não é a primeira vez que um grande nome da indústria faz uma previsão semelhante. Em dezembro, Ilya Sutskever, ex-cientista-chefe da OpenAI, já havia feito um alerta parecido: "Chegamos ao pico de dados e não haverá mais".

O grande problema dos dados sintéticos é que eles podem criar um ciclo fechado, no qual os sesgos (viéses) e limitações dos modelos são amplificados. Isso pode levar a um colapso do modelo, resultando em uma perda progressiva de criatividade e precisão.

Apesar desses riscos, a indústria está cada vez mais adotando essa abordagem, pois a escassez de dados reais já é uma realidade.

Inicio