Um laboratório de IA pouco conhecido na China provocou pânico em todo o Vale do Silício depois de lançar modelos de IA que podem superar os melhores da América, apesar de serem construídos de forma mais barata e com chips menos potentes.
DeepSeek, como o laboratório é chamado, revelou um modelo gratuito e de código aberto em grande linguagem no final de dezembro que diz levou apenas dois meses e menos de US$ 6 milhões para ser construído, usando chips de capacidade reduzida da Nvidia, chamados H800s.
Os novos desenvolvimentos levantaram alarmes sobre se a liderança global dos EUA em inteligência artificial está a diminuir e puseram em causa os enormes gastos das grandes empresas de tecnologia na construção de modelos de IA e centros de dados.
Em um conjunto de testes de benchmark de terceiros, o modelo da DeepSeek teve desempenho superior metaLlama 3.1 da OpenAI, GPT-4o da OpenAI e Claude Sonnet 3.5 da Anthropic em precisão que varia de resolução de problemas complexos a matemática e codificação.
DeepSeek lançou na segunda-feira r1, um modelo de raciocínio que também superado O mais recente o1 da OpenAI em muitos desses testes de terceiros.
“Ver o novo modelo DeepSeek é superimpressionante em termos de como eles realmente criaram um modelo de código aberto que faz esse cálculo de tempo de inferência e é supercomputador eficiente”, disse o CEO da Microsoft, Satya Nadella, no World Fórum Econômico em Davos, Suíça, na quarta-feira. “Devíamos levar muito, muito a sério os acontecimentos na China.”
A DeepSeek também teve que navegar pelas rígidas restrições de semicondutores que o governo dos EUA impôs à China, impedindo o país de ter acesso aos chips mais poderosos, como os H100 da Nvidia. Os últimos avanços sugerem que o DeepSeek encontrou uma maneira de contornar as regras ou que os controles de exportação não foram o estrangulamento pretendido por Washington.
“Eles podem pegar um modelo grande e realmente bom e usar um processo chamado destilação”, disse Chetan Puttagunta, sócio geral da Benchmark. “Basicamente, você usa um modelo muito grande para ajudar seu modelo pequeno a se tornar inteligente naquilo que você deseja. Isso é, na verdade, muito econômico.”
Pouco se sabe sobre o laboratório e seu fundador, Liang WenFeng. A DeepSeek nasceu de um fundo de hedge chinês chamado High-Flyer Quant, que administra cerca de US$ 8 bilhões em ativos, de acordo com mídia relatórios.
Mas a DeepSeek não é a única empresa chinesa a fazer incursões.
O principal pesquisador de IA, Kai-Fu Lee, disse sua startup 01.ai foi treinada usando apenas US$ 3 milhões. ByteDance, controladora da TikTok, na quarta-feira lançado uma atualização de seu modelo que afirma superar o o1 da OpenAI em um teste de benchmark importante.
“A necessidade é a mãe da invenção”, disse o CEO da Perplexity, Aravind Srinivas. “Como eles tiveram que descobrir soluções alternativas, acabaram construindo algo muito mais eficiente.”
Assista a este vídeo para saber mais.