Publicidade

Thiago de Aragão

O avanço da DeepSeek: um momento Sputnik para a China ou um alerta para as big techs?

Startup criou um modelo de linguagem que rivaliza com os melhores esforços da OpenAI, mas com menos custos

DeepSeek (Foto: Adobe Stock)
DeepSeek (Foto: Adobe Stock)

Por anos, o Vale do Silício operou sob a suposição de que o desenvolvimento de inteligência artificial (IA) de ponta exigia investimentos astronômicos, vastos recursos computacionais e acesso exclusivo a GPUs de última geração. A chegada da DeepSeek, uma startup chinesa, desmontou essa crença ao criar um modelo de linguagem de grande escala que rivaliza com os melhores esforços da OpenAI, gastando uma fração do custo.

Esse episódio levanta questões fundamentais: as big techs ocidentais estão gastando mais do que o necessário em IA? A DeepSeek descobriu um caminho mais eficiente para alcançar um desempenho similar — ou superior? Ou isso foi apenas um golpe de sorte, facilitado pelas condições industriais únicas da China? Mais importante ainda, estaríamos diante de um momento Sputnik na corrida pela IA? (lembrando o nome do programa do satélite russo lançado em órbita em 1957, colocando a União Soviética à frente dos EUA na corrida espacial). Um salto tecnológico, que sinaliza uma mudança na liderança global do setor?

A DeepSeek desenvolveu o modelo DeepSeek-R1 baseado em uma arquitetura Mixture-of-Experts (MoE), uma técnica que ativa apenas os recursos computacionais necessários para cada tarefa, otimizando a eficiência. Com 236 bilhões de parâmetros, mas apenas 21 bilhões ativos por token, o DeepSeek-R1 atinge um desempenho comparável ao da OpenAI, consumindo significativamente menos poder computacional.

Para contextualizar: o treinamento do DeepSeek-R1 utilizou cerca de 2.000 GPUs Nvidia H800 por 55 dias, com um custo estimado de US$ 5,6 milhões. Isso representa uma fração das centenas de milhões — ou até bilhões — que se estima terem sido gastos para treinar o GPT-4. É uma espécie de Davi contra Golias: uma startup chinesa, apoiada por gigantes como Tencent e Alibaba, desafiando as instituições mais bem financiadas da IA global — e com um orçamento enxuto.

Publicidade

A grande questão não é apenas como a DeepSeek conseguiu construir um modelo competitivo com tão poucos recursos, mas por que as big techs ocidentais não fizeram o mesmo.

O investimento da indústria em IA tem sido gigantesco. OpenAI, Google DeepMind e Anthropic gastaram centenas de milhões de dólares no treinamento de modelos de última geração. A Microsoft, por exemplo, investiu mais de US$ 10 bilhões na OpenAI. A suposição sempre foi de que esses investimentos eram indispensáveis — que quanto mais GPUs, dinheiro e dados fossem alocados, melhor seria o modelo.

O sucesso da DeepSeek sugere que isso pode não ser verdade. Com o uso da arquitetura MoE, Multi-Head Latent Attention (MLA) para otimização de memória e um processo de treinamento mais eficiente, a startup chinesa conseguiu resultados comparáveis a um custo drasticamente menor. Se uma empresa emergente na China conseguiu isso, o que isso diz sobre os hábitos de gastos das gigantes do Vale do Silício? Estão desperdiçando bilhões em ciclos de treinamento redundantes e infraestrutura superdimensionada?

DeepSeek muda a percepção sobre a China como pioneira tecnológica?

Durante anos, a China foi acusada de copiar e melhorar inovações ocidentais em vez de liderar com sua própria tecnologia. Seja em eletrônicos de consumo, e-commerce ou fintech, o país sempre foi visto como um seguidor ágil, mas não como um pioneiro.

A DeepSeek muda essa percepção. Esse não é um simples aprimoramento de um modelo americano existente — é um avanço significativo e eficiente na metodologia de treinamento de IA. E isso acontece num momento geopolítico crítico: enquanto as big techs ocidentais consolidam sua influência política e levantam debates sobre governança, regulamentação e censura da IA, a China dá um salto à frente na eficiência do setor.

É impossível ignorar o paralelo histórico. Quando a União Soviética lançou o Sputnik 1 em 1957, os Estados Unidos foram tomados por um choque tecnológico, levando à criação da NASA e a um aumento massivo no financiamento de ciência e tecnologia. O avanço da DeepSeek parece algo semelhante — um momento que força o Ocidente a reavaliar suas certezas sobre sua superioridade na IA.

Publicidade

Apesar de seu poder técnico, a DeepSeek-R1 não está isenta de controvérsias. O modelo é submetido às regras de censura do governo chinês, com restrições para tópicos politicamente sensíveis, como Taiwan, a Praça da Paz Celestial e críticas ao regime. Diferente dos modelos da OpenAI, que operam sob valores democráticos ocidentais, a DeepSeek funciona em um ambiente onde o Estado tem a palavra final sobre o que pode ou não ser gerado.

O que acontece quando a China, e não os EUA, lidera em eficiência de IA?

Isso levanta uma questão fundamental: o que acontece quando a China, e não os EUA, lidera em eficiência de IA? A narrativa sempre foi de que o Ocidente manteria a dianteira na pesquisa e desenvolvimento de IA, enquanto a China ficaria para trás. Mas a DeepSeek provou que essa suposição está errada. O que acontecerá se o futuro da IA for moldado não pelo Vale do Silício, mas por Pequim?

As empresas ocidentais de IA agora se veem diante de uma escolha. Podem continuar apostando em estratégias de alto custo, assumindo que o sucesso da DeepSeek foi um caso isolado, ou podem aceitar a realidade de que modelos mais eficientes são possíveis. Se escolherem a primeira opção, correm o risco de ficar para trás — não apenas em relação à China, mas a qualquer startup, universidade ou laboratório governamental que descubra como replicar o modelo da DeepSeek.

A DeepSeek revelou uma verdade essencial: a inovação em IA não depende apenas de dinheiro — mas do método. Em um mundo onde a IA se tornou tanto uma corrida armamentista geopolítica quanto um empreendimento comercial, eficiência é poder. A questão agora é: as big techs aprenderão com o avanço da DeepSeek ou ficarão para trás enquanto uma nova superpotência da IA emerge?

Ainda há, no entanto, questões fundamentais a serem respondidas antes de considerar a DeepSeek uma virada definitiva no jogo da IA. A transparência no treinamento do modelo ainda é um ponto nebuloso, e há acusações de que a DeepSeek pode ter treinado seu modelo a partir do próprio ChatGPT, levantando dúvidas sobre a originalidade da abordagem chinesa. A OpenAI já sugeriu que o DeepSeek-R1 pode ter sido treinado com dados extraídos de interações do ChatGPT, o que, se comprovado, reduziria o impacto de sua suposta eficiência ao indicar que a startup chinesa não partiu do zero para alcançar esse nível de desempenho. Se isso for verdade, a DeepSeek pode ter encontrado um atalho em vez de uma solução inovadora. Portanto, antes de declarar esse episódio como um “momento Sputnik” definitivo, é essencial que análises independentes esclareçam quais foram as fontes de dados utilizadas no treinamento do modelo e se a DeepSeek de fato desenvolveu sua IA de maneira autônoma ou se aproveitou do trabalho prévio de seus concorrentes ocidentais.

Publicidade

Encontrou algum erro? Entre em contato

O que este conteúdo fez por você?