Porto Alegre, sex, 11/04/25

Anuncie no JC
Assine agora
Mercado Digital
Patricia Knebel

Patricia Knebel

Publicada em 29 de Janeiro de 2025 às 12:09

Pesquisador da universidade de Pelotas avalia frenesi em torno da DeepSeek

Chinesa afirmar ter investido menos para chegar a modelo similar de empresas americanas

Chinesa afirmar ter investido menos para chegar a modelo similar de empresas americanas

Lionel Bonaventure/AFP/JC
Compartilhe:
Patricia Knebel
Patricia Knebel
Nos Estados Unidos, a Inteligência Artificial avançou a partir de milhões de dólares de financiamento, com gigantes desse mercado atribuindo os gastos aos aportes em infraestrutura, chips e software para o treinamento dos modelos.
Nos Estados Unidos, a Inteligência Artificial avançou a partir de milhões de dólares de financiamento, com gigantes desse mercado atribuindo os gastos aos aportes em infraestrutura, chips e software para o treinamento dos modelos.
E, então, de repente, a DeepSeek, uma empresa chinesa que poucos ouvimos falar, lança um modelo de raciocínio de código aberto que, segundo ela, está no mesmo nível do desempenho do criado pela OpenAI (que no ano passado foi responsável por começar a democratizar a IA generativa).
Detalhe: afirma que treinou seu modelo com chips mais simples e apenas US$ 5,6 milhões em poder de computação – nada comparado aos mais de US$ 100 milhões dos americanos.
Está explicado o buzz que a DeepSeek, criada a partir de um fundo de hedge High-Flyer de Liang Wenfeng, gerou no mercado essa semana.
“O drama do Vale do Silício é uma liquidação em ações de chips e energia, já que a empresa alterou suposições sobre quanto custa desenvolver IA de alto desempenho”, aponta análise da CB Insights.
Nesta entrevista, o consultor em IA e pesquisador no Hub de Inovação em Inteligência Artificial e no Programa de Pós-Graduação em Computação da Universidade Federal de Pelotas, Ricardo Matsumura Araújo, fala sobre esse novo momento para a IA. Ele é doutor e mestre em Ciência da Computação pela UFRGS, atuou como consultor pesquisador para empresas como Google e Myspace e já teve diversos projetos financiados em editais, como da Fapergs e Google Latin American Research Awards.
Mercado Digital – O que explica o frenesi em torno desse movimento da Deekseek no mercado de IA?
Ricardo Matsumura Araújo – Uma confluência de três fatores tornou a família DeepSeek, em particular DeepSeek-v3 e DeepSeek-R1, notável. O primeiro é a questão da supremacia de modelos de IA que o Ocidente, em particular os EUA, tinham até então, Modelos como o GPT-4o, o1, Claude, Gemini, considerados os melhores modelos publicamente disponíveis atualmente, são de empresas americanas. O DeepSeek é um modelo de uma empresa chinesa, e tem demonstrado desempenho semelhante aos melhores modelos existentes até então. Isso é particularmente relevante devido à tentativa dos EUA de impedir que a China obtenha os chips necessários para exatamente criar esses modelos.
O segundo fator é que, já há algum tempo, há um movimento de tornar abertos alguns grandes modelos de linguagens, ou seja, disponíveis para qualquer um poder inspecionar, usar e construir em cima. O Llama, da Meta, é talvez o mais famoso, mas também há uma diversidade de modelos de vários países (China, França e Brasil, inclusive). Modelos abertos, porém, focam primariamente em modelos relativamente pequenos ou especializados.
Os modelos DeepSeek foram liberados como modelos abertos, com o DeepSeek-R1 tornando-se possivelmente o primeiro modelo aberto a competir diretamente com os melhores modelos privados.
Mercado Digital – E, claro, existe o fato custo de produção que, de acordo com a empresa chinesa, são infinitamente mais baratos que os modelos americanos.
Matsumura – Exatamente, esse é o terceiro fator decisivo, pois a empresa por trás do DeepSeek diz ter criado o modelo usando muito menos recursos do que os modelos fechados, ou mesmo alguns modelos abertos menos capazes.
Porém, é difícil fazer comparações diretas. Algumas estimativas colocam o custo de treinar o gpt-4 acima de US$ 100 milhõess, mas não é claro o que este valor inclui ou o que o valor do DeepSeek exclui. Por exemplo, há um custo alto em descobrir o que funciona, e muito deste custo foi coberto pelos que vieram antes com pesquisa e desenvolvimento.
Ainda assim, o DeepSeek-v3 faz uso de uma arquitetura que reduz significativamente o custo de inferência, que é o custo de usar o modelo depois de treinado. Isto permite que se use o modelo em hardwares mais modestos, o que permite que a empresa ofereça o modelo por preços mais baixos do que os praticados por outros modelos igualmente capazes.
Mercado Digital – Quais as implicações reais dessa redução de custo daqui para frente?
Matsumura – Este baixo custo tem uma potencial implicação na narrativa atual, pois empresas como OpenAI e Anthropic estão constantemente procurando investimentos para poder treinar modelos cada vez maiores. Agora, há a possibilidade de que os modelos não precisam ser tão maiores afinal. E isso também pode significar que a Nvidia, hoje a empresa mais valiosa do mundo por fornecer quase exclusivamente o hardware onde estes modelos são treinados, pode não conseguir vender tantas infraestrutura como esperado.
O DeepSeek-v3 ganhou notoriedade por ser um modelo aberto de alto desempenho, chinês e de baixo custo. Todas estas coisas eram esperadas, mas acho que poucos esperavam que ocorresse tão cedo.
Mercado DigitalA DeepSeek nos mostra, então, que a IA pode avançar com investimentos mais baixos do que o esperado?
Matsumura – Certamente. Em termos de desempenho e utilidade de modelos de linguagem, está claro que o DeepSeek-v3 se tornou uma importante alternativa para modelos como os da OpenAI, Anthropic, Google e Meta. A Nvidia é um caso particular, pois ela não oferece modelos de linguagem diretamente (ou pelo menos não de forma ampla), mas sim a infraestrutura onde estes modelos rodam. E o DeepSeek é mais uma evidência de que pode-se ir longe com uma infraestrutura mais modesta.
Mercado Digital - ⁠Como você vislumbra os movimentos futuros dos EUA e da China em relação a IA?
Matsumura – Me parece que no curto e médio prazo continuaremos tendo uma grande expansão dos modelos de IA em ambos os países (EUA e China). Mas, como acontece com praticamente todas as tecnologias, depois que se descobre como fazer algo funcionar, temos uma rápida aceleração no barateamento e eventual comoditização dessas tecnologias.
Parte do processo de otimização de custo, e mesmo desempenho, poderá vir de modelos especializados para certas línguas. Hoje, por exemplo, é muito mais custoso, para uma mesma tarefa, realizar ela em português do que inglês em um modelo como gpt-4o. Isso vem da maneira como esses modelos quebram o texto em tokens. Otimizar para uma linguagem, com a tecnologia atual, leva a menos otimização em outra, então ter modelos especializados faz sentido.
Mercado Digital – Que lugar você acredita que o Brasil pode ocupar nesse jogo?
MatsumuraO Brasil já tem exemplos disso, com o Sabiá-3, da Maritaca, por exemplo, além de diversos modelos acadêmicos. Com o DeepSeek mostrando que é possível treinar modelos competitivos de relativo baixo custo, é possível vislumbrar o Brasil podendo também competir com modelos próprios. E há vantagens em usar os mesmos modelos que outros usam, mas treinando com dados relevantes para o Brasil. Mas, para realmente competir em desempenho bruto, precisaríamos investir em encontrar outros caminhos, encontrar maneiras de tornar os modelos mais eficientes ainda e fazer muito mais com muito menos.
Tem um ditado na computação, talvez relevante aqui, que diz que o melhor hardware não substitui melhor software. E o que temos visto nos últimos dois anos é o mercado investindo em mais hardware e pensando pouco em melhor software. O DeepSeek é ultimamente um melhor software exigindo menos hardware. E esse é um caminho que o Brasil pode escolher trilhar e poderia ser competitivo: investir em encontrar melhores softwares – modelos melhores e, não necessariamente, maiores.






Notícias relacionadas

Comentários

0 comentários