Tendências do dia

O DeepSeek não copiou o raciocínio do OpenAI: ele o reinventou do zero e é isso que é revolucionário

DeepSeek mostrou que é possível criar modelos com habilidades avançadas de raciocínio usando principalmente aprendizado por reforço

Imagem | Xataka com Mockuuups Studio
Sem comentários Facebook Twitter Flipboard E-mail
pedro-mota

PH Mota

Redator

Jornalista há 15 anos, teve uma infância analógica cada vez mais conquistada pelos charmes das novas tecnologias. Do videocassete ao streaming, do Windows 3.1 aos celulares cada vez menores.

Com o R1, o DeepSeek conseguiu algo que parecia impossível: treinar um modelo de IA com capacidades de raciocínio comparáveis ​​às do OpenAI... mas sem depender de enormes conjuntos de dados rotulados.

Sua abordagem baseada em aprendizado por reforço abre a porta para muitos outros grupos desenvolverem IAs avançadas.

Porque isso importa

Este avanço muda as regras que assumimos no desenvolvimento de IA. Até agora, criar modelos com capacidade de raciocínio exigia enormes quantidades de dados rotulados e recursos computacionais apenas ao alcance de gigantes como OpenAI, Meta ou Google.

O DeepSeek mostrou que há um caminho alternativo muito mais eficiente.

Nos bastidores

O processo de treinamento do DeepSeek R1 é dividido em duas fases principais:

  1. Primeiro, o R1-Zero aprende a raciocinar exclusivamente por meio de aprendizado por reforço, explorando soluções por tentativa e erro.
  2. O R1 então refina essas capacidades com uma pequena quantidade de dados de "inicialização a frio" para melhorar aspectos como legibilidade.

O modelo usa uma arquitetura Expert Mix (MoE) com 671 bilhões de parâmetros totais, mas ativa apenas 37 bilhões por consulta. É isso que permite que você obtenha desempenho comparável ao o1 do OpenAI com uma fração dos recursos computacionais.

Contraste

Enquanto o OpenAI investe centenas de milhões em dados rotulados e computação, o DeepSeek obteve resultados semelhantes com menos de US$ 6 milhões (investimento declarado, cerca de R$ 34,1 milhões).

Seus modelos de destilados menores, variando de 1,5 bilhão a 70 bilhões de parâmetros, também alcançaram um desempenho surpreendente.

O exemplo

É um exemplo bobo, mas justamente por isso queríamos verificar sua maneira de raciocinar diante do tipo de pergunta que desorienta. Fizemos a ele a pergunta "Se Xataka fosse um time de futebol espanhol, qual seria?".

Imagem: Xataka com Mockuuups Studio Imagem: Xataka com Mockuuups Studio

Sua resposta muito longa estava se reafirmando e depois descartando a conclusão repetidamente.

  1. No início, ele se limitou a descrever Xataka e fazer uma revisão superficial dos principais clubes espanhóis.
  2. Depois, ele se perguntou se seríamos o Athletic, mas entendeu que, embora sua política de "apenas jogadores bascos" seja única, isso não é comparável à inovação de Xataka. Ele fez algo semelhante com Valencia, Barça e Rayo argumentando causas diferentes para descartá-los.
  3. Ele nos vinculou ao Real Madrid por causa da nossa, ahem, liderança em massas sociais... mas ele concordou que isso não está ligado à inovação.
  4. Ele passou por Eibar e Getafe, descartando ambos... mas então ele retornou ao Eibar quando "percebeu" que eles usam análise e tecnologia. No final, ele descartou porque era um clube pequeno.
  5. Ele comentou que a liderança de Xataka se encaixa em um estilo ofensivo como o do Barça de Guardiola ou o contra-ataque do Madrid de Ancelotti...
  6. ... e finalmente chegou ao Villarreal e Girona.
  7. Depois de algum raciocínio, ele escolheu Girona, argumentando sua forte cultura de dados, sua abordagem inovadora, seu crescimento recente e sua visão global (faz parte do City Football Group), além de acrescentar algo marcante: "Ambos combinam recursos limitados com inteligência estratégica: Girona maximiza seu elenco com olheiros avançados, enquanto Xataka otimiza conteúdo relevante e acessível para um público de massa".

Sua conclusão final foi "Girona FC incorpora a essência do Xataka: modernidade, adaptação tecnológica e uma nova narrativa que desafia o status quo". 🚀⚽

Ler todo o seu raciocínio foi espetacular.

Ponto de virada

Este desenvolvimento antecipa a entrada em uma nova era onde a inovação em IA não dependerá exclusivamente do acesso a grandes recursos, como tem sido o caso até agora.

Técnicas de aprendizado por reforço e destilação de modelos podem nivelar o campo de jogo entre grandes empresas (ou startups com investimentos de nove a zero) e equipes muito menores.

Vá mais fundo. Este avanço vai além de simples melhorias incrementais. O DeepSeek mostrou que é possível construir modelos que raciocinam autonomamente sem ter que mostrar a eles milhares e milhares de exemplos.

O aprendizado por reforço permite que o modelo descubra estratégias de raciocínio eficazes por conta própria, semelhante a como os humanos aprendem a resolver problemas.

Imagem em destaque | Xataka com Mockuuups Studio

Inicio