Vazamento mostra como funcionam as buscas do Google – 06/04/2024 – Tec

junho 4, 2024

O algoritmo de buscas do Google utiliza dados de navegação dos usuários, como quantidade de cliques e tempo na página, para mostrar resultados; valorizar sites com mais confiança em determinados assuntos; favorece textos contratados por um autor e dá preferência a conteúdos acompanhados de vídeos.

Os mais de 14 mil critérios considerados pela empresa para ordenar os resultados das buscas constam em um vazamento de 2.596 arquivos de códigos do poderoso algoritmo da big tech, que joga luz sobre como rodam as engrenagens do maior buscador do mundo —e que confirma pontos que a empresa costumava negar publicamente.

As informações vieram à tona junto com outro vazamento relacionado à empresa, de uma série de alertas sobre visibilidade de privacidade, emitidos por funcionários entre 2013 e 2018. As informações colocadas em xeque as políticas de segurança da companhia.

Ambos os vazamentos indicam um descompromisso da empresa em manter seus usuários informados, na avaliação de um dos responsáveis pela divulgação das informações, o especialista em otimização para busca (SEO em inglês) Rand Fishkin.

Em pronunciamento, o Google afirmou que as informações vazadas estão desatualizadas e podem gerar confusão por estarem fora de contexto.

Procurado pela Folha, uma big tech diz que trabalha para proteger a integridade de nossos resultados. Esse seria o motivo de cautela para divulgar informações sobre o algoritmo.

A primeira leva de vazamentos indica que o Google usa dados de navegação dos usuários no navegador Google Chrome e em smartphones Android para classificar as buscas, ou seja, escolher a ordem dos resultados apresentados. Anteriormente, a empresa havia dito que não usava essas informações no seu processamento de ranking.

Embora esses dados estejam disponíveis desde 13 de março na plataforma de código aberto GitHubsó passou a repercutir junto à opinião pública após a divulgação de artigos dos especialistas SEO Fishkin e Mike King no fim de maio.

Além dos códigos com o algoritmo da plataforma, os pesquisadores coletaram dicas de uma fonte anônima, que depois foram acordados como o especialista em SEO turco Ergan Azimi. Nos últimos dias, pesquisadores se debruçaram sobre os trechos de programação divulgados atrás de novas pistas.

Os textos divulgados por Fishkin e King mostram que, na busca do Google, há análise de número de cliques, tempo na página e o chamado “bounce back” —quando o usuário entra e sai da página em instantes, um índice de excluído.

Sites com mais tempo na praça, com autoridade sobre certos assuntos, também são privilegiados pelo algoritmo. O Google negou que esses critérios fossem relevantes. Ganham destaque também textos com autor identificado e páginas com vídeos.

São mais de 14 mil critérios avaliados pelo algoritmo do Google, ao todo. O vazamento não mostra o peso de cada elemento na ponderação que dá ordem na lista de links.

A Folha, Fishkin, diz que é uma “afirmação dura” dizer que o Google mencionou, porém “não há outra palavra para descrever o ocorrido”. “Ao ser questionada sobre critérios que melhoram o desempenho de uma página no ranking do buscador, descobertas à base de tentativa e erro, a empresa negou afirmações verdadeiras.”

Ele diz que, entre os critérios avaliados, não há menção se o conteúdo é feito por inteligência artificial ou não.

De acordo com o segundo vazamento, divulgado inicialmente pelo site especializado 404 Media nesta segunda-feira (3)um gigante das buscas gravou a voz de crianças, armazenou a placa de carros fotografados durante o desenvolvimento de visualizações de ruas Street View e usou dados excluídos pelos usuários.

Os problemas foram corrigidos, conforme milhares de relatórios que somam 2.700 páginas e dados de 2013 a 2016, mas o Google não divulgou as informações ao público, como é de praxe no mercado.

Cada vazamento ocorreu, individualmente, poucas pessoas. Foram gravadas, por exemplo, a voz de 1.000 crianças. Por outro lado, são consideravelmente incidentes não notificados.

No caso das placas anotadas, o funcionário do Google que invejou o relatório diz que foi um acidente. “Usamos um algoritmo de inteligência artificial que detecta texto nas imagens e os transcrita. Por azar, placas de trânsito também são texto e foram transcritas em vários casos”, diz o relatório. Para evitar essa falha, o Google também tinha um algoritmo de inteligência artificial de detecção de placas, que, aparentemente, não funcionou.

O Google confirmou que as informações levantadas pela 404 Media fizeram sentido. Ao site americano o buscador disse: “No Google, os funcionários podem apontar rapidamente problemas potenciais enviados para revisão de especialistas, com diversos níveis de prioridade.”

“Os relatórios obtidos pela 404 Media são de ao menos seis anos atrás e todos foram avaliados e resolvidos naquele tempo”, afirma a empresa. “Houve casos, em que não foi sequer um problema”, acrescentou.

Para a diretora da entidade em defesa da proteção de dados Mariana Rielli, os vazamentos jogam luz sobre os efeitos não vislumbrados da adoção rápida de novas tecnologias, como a inteligência artificial. “Isso pode ficar cada vez mais frequente com a corrida para o desenvolvimento de IA.”

De acordo com o especialista, conforme informações divulgadas, como não há detalhes de localização da ocorrência, não permite verificar se houve violação de alguma lei de proteção de dados.

FOLHA DE SÃO PAULO

Artigo anterior

Candidato quer presença de observadores eleitorais na Venezuela

Próximo artigo

Sunak e Starmer se enfrentam no primeiro debate frente a frente

Vazamento mostra como funcionam as buscas do Google – 06/04/2024 – Tec

Haddad afirma que definição sobre presidência do BC depende de conversa entre Lula e Pacheco – 13/08/2024 – Mercado

Conta de luz: ministro fala em nova divisão para subsídios – 13/08/2024 – Mercado

Reforma tributária: entenda os principais pontos – 13/08/2024 – Mercado

Mais popular

A UPS compartilha tanque após orientação fraca, planeje cortar as entregas da Amazon

A IBM salta 13%, segue para o melhor dia desde 2000 com ganhos fortes

Apple (AAPL) Q1 ganhos 2025

Crypto Pac Fairshake tem US $ 116 milhões disponíveis para 2026 eleições

Escolhas do editor

A UPS compartilha tanque após orientação fraca, planeje cortar as entregas da Amazon

A IBM salta 13%, segue para o melhor dia desde 2000 com ganhos fortes

Apple (AAPL) Q1 ganhos 2025

POSTAGENS POPULARES

A UPS compartilha tanque após orientação fraca, planeje cortar as entregas da Amazon

A IBM salta 13%, segue para o melhor dia desde 2000 com ganhos fortes

Apple (AAPL) Q1 ganhos 2025

CATEGORIA POPULAR

Vazamento mostra como funcionam as buscas do Google – 06/04/2024 – Tec

FolhaMercado

Mais popular

Escolhas do editor

POSTAGENS POPULARES

CATEGORIA POPULAR