domingo, outubro 6, 2024
InícioECONOMIAComo big tech minera dados para desenvolver modelos de IA - 15/07/2024...

Como big tech minera dados para desenvolver modelos de IA – 15/07/2024 – Tec


Para treinar grandes modelos de inteligência artificialempresas de tecnologia soltam pela internet robôs chamados crawlers (rastreadores, em português), que a vasculham e reviram, a fim de extrair e categorizar dados disponíveis em sites.

Em alguns contextos, a prática pode ser considerada violação de direitos autorais.

Pesquisadores como o Google e o Bing, por exemplo, usa esses robôs, também chamados de spider (aranha), desde os primórdios da internet, para listar o que está disponível online. A tecnologia ainda é usado em serviços de comparação de preços, como Buscapé e Submarino. Essas soluções baixam apenas metadados — informações descritivas de um site, como horário e data de publicação.

Os rastreadores usados ​​para desenvolver modelos de IA, por sua vez, raspam todo o conteúdo da página para condicionar o sistema a gerar os melhores textos, imagens e vídeos para cada resposta, diz Lucas Lago, pesquisador do Instituto Aaron Swartz.

O próprio Swartz que dá nome ao instituto, cofundador da rede social Reddit, foi um ciberativista escolhido pelo governo americano por usar um rastreador nos sistemas do MIT (Instituto de Tecnologia de Massachusetts) com o objetivo de baixar mais de 4 milhões de artigos acadêmicos —ele cometeu suicídio a semanas do julgamento, em janeiro de 2013.

“Para a gente do Instituto Aaron Swartz é especialmente assustador ver empresas bilionárias sendo abertas com acesso clandestino a dados, quando o Aaron foi perseguido por ter feito algo semelhante com o objetivo de garantir um acesso mais democrático ao conhecimento”, diz Lago.

A prática por parte de startups que visam lucro reagiu à discussão sobre sua legalidade, uma vez que o material sintético gerado por IAs generativas, às vezes, tem trechos substituídos aos originais.

COMO FUNCIONA?

O primeiro passo da raspagem de dados é enviar um sinal para o servidor de internet para receber o código por trás do site — esse algoritmo informa o que há de metadados, texto, imagem, vídeo, tabelas ou links em uma página da internet.

Todo rastreador parte de uma lista inicial de links, de acordo com Lago. Os que miram toda a internet são feitos para pular de link em link que se encontram na sequência original de páginas. Uns buscam, especificamente, tabelas, outros textos, assim por diante.

De acordo com o relatório de 2012, o Google raspava mais de 20 bilhões de sites a cada dia. Hoje, o processo é tão rápido que a própria plataforma diz não ter uma estimativa precisa de quantas páginas são visitadas por seus rastreadores.

Para aumentar a eficiência do processo, eles listam as páginas pelas quais passaram, com o objetivo de não baixar a mesma informação várias vezes. Assim, categorizam os arquivos salvos.

Tudo o que é carregado fica salvo em um banco de dados, que serve para buscadores de alimentos ou desenvolvimento de inteligência artificial.

QUAIS SÃO OS BOTS DAS PRINCIPAIS EMPRESAS?

O Google, por exemplo, usa rotineiramente novos rastreadores: um para smartphones, um para computadores, um para imagens, um para notícias, um para vídeos, um para produtos, um para permitir uma busca avançada, outro com funções diversas e um último para treinar modelos de inteligência artificial como o Gemini, o ChatGPT do Google.

Esse último bot, chamado de extended, foi lançado pelo Google em setembro, mais de seis meses depois da primeira plataforma de IA do Google, o Bard (depois transformado em Gemini). O gigante das buscas diz que tirar um site da lista de buscas desse bot não retira o endereço das buscas, já que elas são organizadas por outros rastreadores.

A OpenAI tem um mecanismo semelhante para alimentar as redes neurais (códigos computacionais feitos para simular o comportamento de um neurônio) que dão vida ao ChatGPT, o GPTBot.

A Metaque tenta impedir a raspagem de conteúdos nos sites das próprias redes sociais (Facebook, Instagram e Threads), até para pesquisadores e jornalistas, também tem rastreadores que vasculham a web, e não dá informações sobre seus métodos.

COMO FUGIR DOS ROBÔS?

Quando há informações disponíveis sobre os rastreadores, como no caso de OpenAI e Google, os donos do site podem usar um arquivo chamado “robots.txt”, que serve para dar instruções aos tais robôs.

Com isso, é possível evitar que eles baixem à revelia textos, imagens, áudios e vídeos disponíveis na web.

O editor do site pode até indicar se uma página específica pode ser raspada ou não.

O “robots.txt” serve como um manual de instruções do que o bot pode fazer no endereço de propriedade de alguém.

As empresas de tecnologia, no entanto, nem sempre são transparentes sobre os bots que usam. OpenAI e Google só divulgam informações sobre seus rastreadores depois de terem desenvolvido grandes modelos de inteligência artificial, já disponíveis no mercado.

A Meta não será divulgada até hoje.

Lago, do Instituto Aaron Swartz, diz que obedecer às recomendações do arquivo “robots.txt” é uma “política de cordialidade”, e programadores têm meios para dribá-las.

COMO AS EMPRESAS USAM ESSES DADOS?

Os dados classificados pelos rastreadores podem ter diversas finalidades. As inteligências artificiais generativas que vimos usam uma técnica chamada de aprendizado profundo, que consiste em alimentar com grandes volumes de dados como redes neurais (algoritmos complexos, compostos por uma rede semelhante aos neurônios).

Em geral, os desenvolvedores primeiro treinam as redes neurais a partir de uma técnica chamada aprendizado por imitação, em que ensinam o modelo de inteligência artificial a repetir padrões encontrados na massa de dados.

Depois, use o chamado aprendizado por reforço, no qual utilize uma amostra menor para mostrar os resultados desejados.

As redes neurais atuais, em termos de código, são bem semelhantes entre si e conhecidas desde o início dos anos 2010. A tecnologia está disseminada em artigos científicos. Funcionam a partir de uma sequência enorme de matrizes matemáticas, como aquelas ensinadas no ensino fundamental.

O diferencial entre os produtos das grandes empresas está na qualidade e no tratamento dos dados minerados.

A PRÁTICA ESTÁ EM CONFORMIDADE COM A LEI?

A mineração de dados, muito usada em pesquisas científicas, pode ser ilegal ao carregar os servidores de um site, proteger concorrentes ou furta informações confidenciais — isso, em geral, quando viola os termos de uso de sites.

Há portais que informam proibir a raspagem de dados em suas normas, o que pode ser desrespeitado se houver interesse público, como no caso do jornalismo e da ciência.

No caso de uso de dados minerados para treinar inteligência artificial, não há um consenso.

O ato de inteligência artificial, que regula a tecnologia na União Europeia (UE), por exemplo, determina que os donos dos sites devem ser consultados antes da raspagem de dados e têm o direito de autorização a mineração.

No Japão, o treinamento de inteligência artificial é considerado um uso honesto (do inglês “fair use”) e não exige pagamentos de direitos autorais.

Nos Estados Unidos, não há definição sobre a pauta.

O CEO do Google, Sundar Pichaiargumentou em entrevista ao podcast do site Verge que os produtos de sua empresa trazem ganhos para a sociedade e, por isso, também “poderiam ser considerados como uso honesto”.

O QUE DIZEM AS REGRAS NO BRASIL?

O Brasil, atualmente, discute regulamentação de IA. O esboço de projeto elaborado pelo Senado, segue o caminho da UE e proíbe a prática sem consentimento. Abre ainda parágrafo remunerado pelo acesso a dados protegidos por direitos autorais.

O diretor científico do IBDA (Instituto Brasileiro de Direito Autoral), Allan Rocha de Souza, diz que, mesmo sem regulamentação, os procedimentos das empresas têm de proteção de direitos autorais.

Por isso, há disputas judiciais, como no caso do processo do jornal americano New York Times contra a OpenAI. A causa que pode ditar um precedente sobre o uso de dados minerados para desenvolver IAs.

COMO AS BIG TECHS PODEM LEVAR A LEGISLAÇÃO?

Mesmo se houver regulamentações e especialistas locais contrários aos interesses de gigantes da tecnologias, essas empresas ainda podem driblar as autoridades e usar dados de todo o mundo para treinar seus modelos de IA em países com legislação mais branda.

As chamadas big techs têm acesso a data centers —galpões repletos de computadores com o objetivo de centralizar processos computacionais— no Japão e nos Estados Unidos, por exemplo. No primeiro país, o treinamento de inteligência artificial é considerado um uso honesto (do inglês “fair use”) e não exige pagamentos de direitos autorais. No segundo, não há definição sobre a pauta.

Os gigantes da tecnologia, então, podem trazer seus modelos prontos e testados comercialmente para os países mais restritivos. “Só então as big techs precisariam se adequar à regulação local”, diz Souza.



FOLHA DE SÃO PAULO

ARTIGOS RELACIONADOS
- Advertisment -

Mais popular