A inteligência artificial está prestes a esgotar todos os dados disponíveis na internet para seu treinamento, segundo Elon Musk, proprietário da X e CEO da xAI, entre outras empresas.
A solução proposta envolve cruzar um dos maiores desafios do treinamento de modelos: o uso de dados sintéticos – ou seja, permitir que a própria IA gere os dados com os quais continuará aprendendo.
Por que isso é importante?
A escassez de dados para treinar modelos representa um ponto de inflexão no desenvolvimento da IA. Esse cenário pode desacelerar o ritmo de avanço tecnológico, que nos últimos anos tem sido exponencial.
O contexto
Os grandes modelos de linguagem precisam de quantidades massivas de dados para aprimorar seu desempenho. Com o esgotamento dos dados reais disponíveis – aqueles gerados por humanos de maneira tradicional –, a indústria é forçada a buscar alternativas viáveis para continuar avançando no desenvolvimento de produtos como chatbots e geradores de imagens.
Essa ideia não é nova e já foi aplicada em outros projetos de IA. Segundo a Gartner, 60% dos dados utilizados em projetos de IA em 2024 foram gerados sinteticamente. Empresas como Microsoft, OpenAI, Anthropic e Meta já adotam essa abordagem.
- O Palmyra X 004, um modelo criado para aprimorar aplicações de IA já existentes, foi treinado com dados sintéticos e custou 700 mil dólares.
- O custo estimado para treinar um modelo de tamanho semelhante da OpenAI é de 4,6 milhões de dólares.
A diferença da proposta de Musk
Até agora, os dados sintéticos foram utilizados como um complemento aos dados reais, e não como um substituto completo. No entanto, Musk acredita que, em breve, eles serão a única fonte de treinamento possível, o que pode transformar radicalmente a forma como os modelos de IA são desenvolvidos.
O que isso significa?
Essa não é a primeira vez que um grande nome da indústria faz uma previsão semelhante. Em dezembro, Ilya Sutskever, ex-cientista-chefe da OpenAI, já havia feito um alerta parecido: "Chegamos ao pico de dados e não haverá mais".
O grande problema dos dados sintéticos é que eles podem criar um ciclo fechado, no qual os sesgos (viéses) e limitações dos modelos são amplificados. Isso pode levar a um colapso do modelo, resultando em uma perda progressiva de criatividade e precisão.
Apesar desses riscos, a indústria está cada vez mais adotando essa abordagem, pois a escassez de dados reais já é uma realidade.
Ver 0 Comentários