Como raspar postagens do X sem API nem bibliotecas alternativas

Compartilhe

Gargântua é o nome do objeto supermassivo representado no filme Interestelar (2014), dirigido por Christopher Nolan. Batizado em homenagem ao personagem de apetite descomunal criado por Rabelais, o sifão espacial capaz de sugar toda matéria à sua frente — para depois perdê-la, até onde sabemos, indefinidamente — me veio à mente diversas vezes no último mês.

Não que eu goste do filme, pelo contrário, mas porque imaginei Gargântua representado em dois episódios recentes, que por vezes se encontraram:

  1. a ascensão de Pablo Marçal, derrotado no primeiro turno da disputa pela Prefeitura de São Paulo — e a capacidade do personagem de sugar a atenção alheia;
  2. a restrição do acesso, pelo ministro Alexandre de Moraes, à rede que uma vez se chamou Twitter — e a tentativa dessa plataforma de manter informações guardadas para si, com a imposição de planos com custos astronômicos para a assinatura de APIs de pesquisa.

Após mais de um mês de acesso restrito à rede social e o desenrolar do primeiro turno das eleições municipais, a rede voltou ao ar na semana passada. Isso nos permitiu voltar a olhar para ela sem ter de usar subterfúgios como VPN — também proibidos por Moraes.
Mas o que, nos anos anteriores, seria uma pauta natural de análise de redes, desta vez tomou traços particulares. A hipótese de nossa equipe era de que, sem a fiscalização adequada e com a rede sendo frequentada principalmente por brasileiros dispostos a desobedecer às ordens judiciais, a desinformação teria sofrido um verdadeiro processo concentrado de depuração.

Frente à ausência de APIs próprias para pesquisa e sem tampouco contar com ferramentas alternativas voltada para a plataforma, nossa solução foi a de, simplesmente, raspar os resultados da página de busca avançada do X (ex-Twitter) a partir de palavras-chave sobre fraude e desinformação no primeiro turno.

Existe uma diferença crucial, entretanto, entre o método que utilizamos e o que é ensinado nas primeiras páginas dos cursos de jornalismo de dados: enquanto geralmente a orientação é raspar os elementos HTML das páginas, nossa empreitada exigiu fazer uma “raspagem por interceptação”.

Para isso usamos softwares como Burp Suite, mitmproxy e Charles, que são capazes de, uma vez que o usuário configure seu navegador da maneira correta, interceptar o tráfego entre o browser e o site acessado. Explico: em uma conexão normal, o navegador do usuário prefere trocar informações de forma confidencial com o servidor de destino. Os dados são encriptados para que ninguém mais neste processo consiga decifrar as informações. Foi preciso, nesse caso, usar certificados emitidos pelos próprios software para que eles também conseguissem decifrar os pacotes de dados trocados entre as máquinas.

Print da tela exibida com uso da aplicação Burp Suite para raspagem de conteúdo do X
Do lado esquerdo, a aplicação Burp Suite mostra o conteúdo interceptado da página. Na direita, como o usuário final enxerga as buscas feitas na rede social.

Com este desvio de trajeto devidamente configurado, foi possível exportar esses dados e analisá-los, extraindo as informações mais relevantes, além de criar tabelas e compartilhá-las com a equipe. Graças a esse processo conseguimos confirmar que a desinformação continuou sendo compartilhada no X de Elon Musk durante o bloqueio de Moraes, atingindo números bastante expressivos. O X foi uma das redes usadas por, quem diria, Marçal, para propagar desinformação em forma de um laudo falso contra seu adversário Guilherme Boulos (PSOL). A conta de Marçal no X acabou não sendo afetada pela decisão judicial que bloqueou suas redes, e o post enganoso superou 750 mil visualizações. A coluna de Malu Gaspar, no O Globo, reportou achados semelhantes a partir de levantamento feito pelo Instituto Democracia em Xeque.

Ao mesmo tempo em que a solução é flexível para funcionar em praticamente qualquer plataforma, e com um pouco mais engenhosidade pode ser até mesmo transplantada para dispositivos móveis, é pouco escalável para pesquisas muito grandes. Isso porque a quantidade de palavras que podemos utilizar para montar nossos bancos de dados é relativamente pequena. O processo é sensível aos limites impostos pela plataforma aos usuários de carne e osso, e os resultados podem demorar horas para ficar prontos. Tudo isso graças ao fato de que temos que simular o comportamento de rolagem de página com mais cuidado para não alertar as medidas antirraspagem do site. Mas é o que temos no momento.

Interestelar enfrenta o problema de seu enredo e o apetite destruidor de Gargântua utilizando o argumento da viagem no tempo. Personagens se comunicam com o passado e salvam a humanidade. Os Gargântuas com que lidamos em nossa cobertura, no entanto, não são tão gentis. Além de não inspirar esperança, como o do filme, ainda nos fazem perder tempo, impedindo que sejam discutidas maneiras e vantagens de nos emancipar de plataformas hostis e de personagens que sugam nossa atenção e energia.


💡EUREKA

Em edições anteriores desta newsletter, falamos como candidatos nas eleições deste ano declararam gastos com impulsionamento de conteúdos no Google e TikTok — plataformas que proíbem anúncios políticos — e ensinamos como descobrir esses gastos pelo DivulgaCand e como flagrar anúncios irregulares permitidos pelas próprias plataformas.

Usando essas dicas, encontramos agora despesas de candidatos com o Kwai. Durante o primeiro turno, três candidatos gastaram R$ 470 com a plataforma — que também não permite anúncios políticos. Mais uma pra lista de empresas com propaganda eleitoral irregular nessas eleições.

Compartilhe

Leia também

Como verificar seu perfil no Bluesky com a configuração de domínios personalizados

Como verificar seu perfil no Bluesky com a configuração de domínios personalizados

Decisão da ANPD pode piorar situação no ambiente digital para crianças e adolescentes

Decisão da ANPD pode piorar situação no ambiente digital para crianças e adolescentes

Como impedir que o WhatsApp use seus dados para treinar modelos de IA

Como impedir que o WhatsApp use seus dados para treinar modelos de IA