Dentro de um amplo laboratório em Google Na sede em Mountain View, Califórnia, centenas de racks de servidores circulam por vários corredores, executando tarefas muito menos comuns do que executar o mecanismo de busca dominante no mundo ou cargas de trabalho para milhões de clientes do Google Cloud.
Em vez disso, eles estão executando testes nos próprios microchips do Google, chamados Unidades de Processamento Tensor, ou TPUs.
Originalmente treinados para cargas de trabalho internas, os TPUs do Google estão disponíveis para clientes da nuvem desde 2018. Em julho, Maçã revelou que usa TPUs para treinar modelos de IA que sustentam a Apple Intelligence. O Google também depende de TPUs para treinar e executar seu chatbot Gemini.
“O mundo tem uma espécie de crença fundamental de que todos os modelos de IA e de grandes linguagens estão sendo treinados em Nvidiae, claro, a Nvidia tem a maior parte do volume de treinamento. Mas o Google seguiu seu próprio caminho aqui”, disse o CEO do Futurum Group, Daniel Newman. Ele cobre os chips de nuvem personalizados do Google desde que eles foram lançados em 2015.
O Google foi o primeiro provedor de nuvem a fazer chips de IA personalizados. Três anos depois, Amazon A Web Services anunciou seu primeiro chip de IA em nuvem, o Inferentia. MicrosoftO primeiro chip de IA personalizado da , Maia, não foi anunciado até o final de 2023.
Mas ser o primeiro em chips de IA não se traduziu em um lugar no topo da corrida geral de IA generativa. O Google enfrentou críticas por lançamentos de produtos malfeitos, e o Gemini saiu mais de um ano depois do ChatGPT da OpenAI.
O Google Cloud, no entanto, ganhou força devido, em parte, às ofertas de IA. A Alphabet, empresa controladora do Google, relatou que a receita da nuvem aumentou 29% no trimestre mais recente, ultrapassando US$ 10 bilhões em receitas trimestrais pela primeira vez.
“A era da nuvem de IA reorganizou completamente a maneira como as empresas são vistas, e essa diferenciação de silício, a TPU em si, pode ser uma das maiores razões pelas quais o Google passou da terceira nuvem para ser visto verdadeiramente em paridade e, aos olhos de alguns, talvez até à frente das outras duas nuvens por sua proeza de IA”, disse Newman.
‘Um experimento mental simples, mas poderoso’
Em julho, a CNBC fez o primeiro tour na câmera do laboratório de chips do Google e sentou-se com o chefe de chips de nuvem personalizados, Amin Vahdat. Ele já estava no Google quando ele brincou pela primeira vez com a ideia de fazer chips em 2014.
Amin Vahdat, vice-presidente de aprendizado de máquina, sistemas e IA em nuvem do Google, segura o TPU versão 4 na sede do Google em Mountain View, Califórnia, em 23 de julho de 2024.
Marc Ganley
“Tudo começou com um experimento mental simples, mas poderoso”, disse Vahdat. “Vários líderes na empresa fizeram a pergunta: O que aconteceria se os usuários do Google quisessem interagir com o Google por voz por apenas 30 segundos por dia? E quanta potência de computação precisaríamos para dar suporte aos nossos usuários?”
O grupo determinou que o Google precisaria dobrar o número de computadores em seus data centers. Então eles procuraram uma solução melhor.
“Percebemos que poderíamos construir hardware personalizado, não hardware de propósito geral, mas hardware personalizado — Unidades de Processamento Tensor neste caso — para suportar isso muito, muito mais eficientemente. Na verdade, um fator de 100 mais eficientemente do que seria de outra forma”, disse Vahdat.
Os data centers do Google ainda dependem de unidades de processamento central de uso geral, ou CPUs, e unidades de processamento gráfico da Nvidia, ou GPUs. As TPUs do Google são um tipo diferente de chip chamado de circuito integrado específico de aplicação, ou ASIC, que são personalizadas para propósitos específicos. A TPU é focada em IA. O Google faz outro ASIC focado em vídeo chamado de Unidade de Codificação de Vídeo.
O Google também faz chips personalizados para seus dispositivos, semelhante à estratégia de silício personalizado da Apple. O Tensor G4 alimenta o novo Pixel 9 habilitado para IA do Google, e seu novo chip A1 alimenta o Pixel Buds Pro 2.
O TPU, no entanto, é o que diferencia o Google. Foi o primeiro do tipo quando foi lançado em 2015. Os TPUs do Google ainda dominam entre os aceleradores de IA de nuvem personalizados, com 58% da participação de mercado, de acordo com o The Futurum Group.
O Google cunhou o termo com base no termo algébrico “tensor”, referindo-se às multiplicações de matrizes em larga escala que acontecem rapidamente em aplicações avançadas de IA.
Com o segundo lançamento do TPU em 2018, o Google expandiu o foco da inferência para o treinamento e os disponibilizou para seus clientes de nuvem executarem cargas de trabalho, juntamente com chips líderes de mercado, como as GPUs da Nvidia.
“Se você estiver usando GPUs, elas são mais programáveis, são mais flexíveis. Mas elas têm sido escassas”, disse Stacy Rasgon, analista sênior de semicondutores da Bernstein Research.
O boom da IA elevou as ações da Nvidia às alturas, catapultando a fabricante de chips para uma capitalização de mercado de US$ 3 trilhões em junho, ultrapassando a Alphabet e disputando com a Apple e a Microsoft a posição de empresa pública mais valiosa do mundo.
“Sendo sincero, esses aceleradores de IA especializados não são nem de longe tão flexíveis ou poderosos quanto a plataforma da Nvidia, e é isso que o mercado também está esperando para ver: alguém consegue atuar nesse espaço?”, disse Newman.
Agora que sabemos que a Apple está usando TPUs do Google para treinar seus modelos de IA, o verdadeiro teste virá quando esses recursos completos de IA forem lançados em iPhones e Macs próximo ano.
Broadcom e TSMC
Não é pouca coisa desenvolver alternativas aos motores de IA da Nvidia. A TPU de sexta geração do Google, chamada Trillium, deve ser lançada ainda este ano.
O Google mostrou à CNBC a sexta versão de seu TPU, Trillium, em Mountain View, Califórnia, em 23 de julho de 2024. O Trillium deve ser lançado no final de 2024.
Marc Ganley
“É caro. Você precisa de muita escala”, disse Rasgon. “E então não é algo que todos podem fazer. Mas esses hiperescaladores, eles têm a escala, o dinheiro e os recursos para seguir esse caminho.”
O processo é tão complexo e custoso que nem mesmo os hiperescaladores conseguem fazê-lo sozinhos. Desde o primeiro TPU, o Google fez parceria com Broadcomum desenvolvedor de chips que também ajuda Meta projetar seus chips de IA. Broadcom diz que gastou mais de US$ 3 bilhões para fazer essas parcerias acontecerem.
“Chips de IA — eles são muito complexos. Há muitas coisas lá. Então o Google traz a computação”, disse Rasgon. “A Broadcom faz todas as coisas periféricas. Eles fazem o I/O e o SerDestodas as diferentes peças que envolvem esse computador. Eles também fazem a embalagem.”
Em seguida, o projeto final é enviado para fabricação em uma fábrica — principalmente aquelas de propriedade do maior fabricante de chips do mundo, Empresa de fabricação de semicondutores de Taiwanque produz 92% dos semicondutores mais avançados do mundo.
Quando perguntado se o Google tem alguma salvaguarda em vigor caso o pior aconteça na esfera geopolítica entre China e Taiwan, Vahdat disse: “É certamente algo para o qual nos preparamos e também pensamos, mas temos esperança de que, na verdade, não seja algo que teremos que acionar”.
A proteção contra esses riscos é a principal razão pela qual a Casa Branca está distribuindo US$ 52 bilhões em financiamento da Lei CHIPS para empresas que estão construindo fábricas nos EUA — com o maiores porções indo para Intel, TSMC e Samsung até o momento.
Processadores e potência
O Google mostrou à CNBC sua nova CPU Axion,
Marc Ganley
“Agora podemos trazer a última peça do quebra-cabeça, a CPU”, disse Vahdat. “E muitos dos nossos serviços internos, seja BigQueryseja Chave Inglesaanúncios do YouTube e muito mais estão sendo veiculados no Axion.”
O Google está atrasado no jogo da CPU. A Amazon lançou seu processador Graviton em 2018. Alibaba lançou seu chip de servidor em 2021. A Microsoft anunciou sua CPU em novembro.
Quando perguntado por que o Google não fez uma CPU antes, Vahdat disse: “Nosso foco tem sido onde podemos entregar o maior valor para nossos clientes, e foi aí que começou com a TPU, nossas unidades de codificação de vídeo, nossa rede. Nós realmente achamos que a hora era agora.”
Todos esses processadores de fabricantes não-chip, incluindo o do Google, são possíveis graças a Braço arquitetura de chip — uma alternativa mais personalizável e com baixo consumo de energia que está ganhando força em relação ao modelo x86 tradicional Intel e DMRI. A eficiência energética é crucial porque, até 2027, prevê-se que os servidores de IA consumam tanto poder a cada ano quanto um país como a Argentina. O mais recente relatório ambiental do Google relatório mostrou que as emissões aumentaram quase 50% de 2019 a 2023, em parte devido ao crescimento dos data centers para alimentar a IA.
“Sem ter a eficiência desses chips, os números poderiam ter acabado em um lugar muito diferente”, disse Vahdat. “Continuamos comprometidos em realmente impulsionar esses números em termos de emissões de carbono de nossa infraestrutura, 24 horas por dia, 7 dias por semana, levando-os a zero.”
É preciso uma quantidade enorme de água para resfriar os servidores que treinam e executam a IA. É por isso que a TPU de terceira geração do Google começou a usar resfriamento direto no chip, que usa muito menos água. É assim também Nvidia está resfriando seu mais novo Blackwell GPUs.
Apesar dos desafios, desde geopolítica até energia e água, o Google está comprometido com suas ferramentas de IA generativa e com a fabricação de seus próprios chips.
“Nunca vi nada parecido com isso e nenhum sinal de que isso vá desacelerar ainda”, disse Vahdat. “E o hardware vai desempenhar um papel muito importante nisso.”