Como criminosos camuflam conteúdos maliciosos para enganar o Google

Compartilhe

Na última edição desta newsletter mostramos o caminho da investigação até identificar como sites de órgãos públicos estão sendo utilizados para direcionar usuários a cassinos online. A história de hoje é sobre como uma pergunta mal respondida e uma apuração bem feita foram capazes de desvendar ainda mais mistérios na atuação destes agentes maliciosos.

Uma pulga alugou uma quitinete atrás da minha orelha assim que publicamos a última investigação. Eu não conseguia entender como os códigos-fontes das páginas e scripts usados pelos invasores não tinham qualquer menção aos termos que faziam os sites serem encontrados nas buscas do Google. As páginas que apareciam nas pesquisas sobre Pokémons, eficiência de motores de carro ou filmes de Hollywood só eram preenchidas por códigos que levavam o usuário a sites de jogos de azar.

Como poderiam então as páginas serem indexadas pelo Google associadas a termos completamente diferentes?

Parte dessa pergunta foi respondida na apuração da reportagem anterior, ao analisarmos os termos de uso do Google e encontrarmos uma das práticas de spam que a plataforma considera inadmissível: o cloaking (que em inglês se traduz por camuflagem), técnica que permite apresentar “diferentes conteúdos para os usuários e os mecanismos de pesquisa com a intenção de manipular as classificações de pesquisa e enganar os usuários”, conforme a definição do próprio Google.


Assine já a newsletter do Radar Aos Fatos e receba a cada quinze dias técnicas de investigação com dados abertos.


Outra peça desse quebra-cabeça chegou numa mensagem pelo Slack da Ajor (Associação de Jornalismo Digital), da qual Aos Fatos faz parte. Anderson Meneses, diretor de Negócios e Tecnologia da Agência Mural, compartilhou nossa reportagem e contou que recebera alertas do Google — serviço que avisa por email sempre que uma nova ocorrência das palavras-chave cadastradas aparece na busca — a partir de páginas de sites de órgãos públicos que replicaram conteúdo da Mural sem autorização.

Os textos plagiados, no entanto, também só apareciam nos resultados de pesquisa do Google e não nas páginas — que, mais uma vez, apenas direcionavam os usuários a cassinos online.

Usando técnicas de busca avançada no Google já descritas em edições anteriores, descobrimos que reportagens de outros sites jornalísticos também estavam sendo plagiados por hackers com o intuito de atrair cliques, em páginas falsas hospedadas em sites de prefeituras e câmaras municipais. Entre elas estão reportagens sobre as enchentes no Rio Grande do Sul — em alta nos buscadores — e até checagens do Aos Fatos da época das eleições presidenciais de 2022.

Assim, surgiu uma nova hipótese para entender como esses conteúdos têm sido indexados pelo buscador sem serem visíveis aos usuários. Se o buscador tem acesso a esse tipo de conteúdo, mas o usuário nunca chega ao ponto de interagir com o material, decidi tentar me passar pelo Google e ver o que estava acontecendo por trás das cortinas.

O primeiro passo foi alterar meu User-Agent, parte do código de identificação que aplicações fazem ao acessarem páginas na internet por meio do protocolo HTTP.

Enquanto um usuário comum, utilizando um navegador de internet atualizado como Chrome, Firefox ou Safari, tem User-Agent parecido com:

Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:125.0) Gecko/20100101 Firefox/125.0

O spider do Google, responsável por navegar pela internet e identificar as páginas que serão indexadas possui o User-Agent:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Com a ajuda da extensão User-Agent Switcher, para Firefox, fiz essa mudança e acessei as páginas que apareciam na busca do Google com frases plagiadas das reportagens. Consegui acessar o conteúdo original delas, sem ser direcionado aos cassinos online.

Descobri que os hackers aplicavam nas páginas invadidas a ética de produção de trabalhos escolares do “copia, mas não faz igual”. A versão das páginas que o Google indexa contém recortes de conteúdos de diferentes veículos jornalísticos — dos textos às imagens — que usam boas técnicas de SEO. É uma espécie de Frankenstein feita para garantir boa indexação nos buscadores.

Em um dos exemplos encontrados, a página falsa misturava um parágrafo de uma reportagem do ge sobre o aniversário de 80 anos do presidente do Athletico Paranaense com trecho de outro texto sobre uma partida da série A2 do Paulistão. Na imagem, contudo, aparecia uma foto de jogadores do Grêmio e um título que faz referência ao Cuiabá. Assim, o link poderia aparecer na pesquisa tanto de quem queria saber o resultado do jogo entre São José e Noroeste, como sobre a história do clube do Paraná, atraindo de tricolores a rubro-negros.

Trechos de reportagens diferentes do GE replicadas e misturadas em página falsa
Quase igual. Trechos de reportagens diferentes do GE (nas extremidades) foram replicadas e misturadas em página falsa (centro).

Questionado pelo Aos Fatos, o Google afirmou que seus “sistemas avançados de combate a spam nos permitem manter a busca 99% livre de spams”. Os casos encontrados pela reportagem, portanto, na versão do Google, devem fazer parte do 1% que a plataforma falha em identificar e combater. Diante da infinidade de páginas indexadas pelo Google, essa parcela não é tão pequena assim.

E nela cabem inúmeras outras artimanhas tanto de golpistas quanto de desenvolvedores e produtores de conteúdo honestos para conseguir melhores resultados na internet. A documentação das estratégias utilizadas nesta sequência de reportagens é só uma pequena parcela do que ocorre longe dos holofotes das grandes redes sociais, mas que impacta, de forma semelhante, a capacidade do internauta em receber informações de boa qualidade.

Compartilhe

Leia também

Decisão da ANPD pode piorar situação no ambiente digital para crianças e adolescentes

Decisão da ANPD pode piorar situação no ambiente digital para crianças e adolescentes

Como impedir que o WhatsApp use seus dados para treinar modelos de IA

Como impedir que o WhatsApp use seus dados para treinar modelos de IA

Como raspar postagens do X sem API nem bibliotecas alternativas

Como raspar postagens do X sem API nem bibliotecas alternativas