Formato PDF dificulta a análise de grandes volumes de dados e ainda pode esconder ameaças

Por João Barbosa

3 de junho de 2024, 13h42

Maus hábitos são difíceis de serem superados. Podemos supor isso pela ado(ra)ção generalizada do PDF como solução de entrega de documentos pelas mais diversas esferas da nossa vida: secretarias governamentais publicam relatórios no formato, tribunais operam a partir de petições e decisões submetidas utilizando a extensão — e, num efeito potencializador de tristezas, até os nossos boletos de cada dia chegam por email com as famigeradas três letrinhas no final.

Esse tipo de arquivo, pensado originalmente para que os documentos fossem visualizados de forma idêntica, independentemente do dispositivo utilizado, talvez seja o responsável pela maior parte da perda de produtividade hoje. Afinal, ninguém nunca deve ter pensado: “Poxa, quem me dera eu tivesse um PDF desses dados”. E, se alguém já pensou algo do tipo, deve estar enfrentando problemas sérios.

Por outro lado, uma busca pelas palavras how to convert from pode retornar alguns conversores de documentos online, alguns mais suspeitos que outros.

O maior ponto forte do formato, inclusive, talvez tenha se tornado seu ponto mais indesejado. Distanciamo-nos do meio impresso e suas limitações físicas, e temos telas com proporções variadas: 4:3, 16:9, 16:10… Leitores de ebooks, telas mais largas do que altas, algumas curvas — e até celulares dobráveis. Designers dedicam horas por dia a criar sites que se comportem nos mais variados formatos porque os usuários percebem maior conforto quando o conteúdo se adapta ao formato.

Se o propósito do PDF já se tornou, digamos, ultrapassado, o formato apresenta outros problemas. Os arquivos podem ser construídos de forma errada e será necessária mais alguma forma de processamento para serem úteis. Exemplo: um PDF formado por fotos de documentos físicos escaneados ou então a reprodução de um texto no formato de duas colunas por página.

No primeiro caso, simplesmente não há informação em texto para ser consumida rapidamente por um processador de texto. No segundo, talvez o texto para o computador não tenha a mesma ordem que para nós, humanos. E isso é um baita problema se trabalhamos com grandes volumes de dados.

Tive que lidar com um arquivo que parecia ter as informações em formato de texto, mas, ao tentar extrair o conteúdo, o resultado era inúmeros pontos de interrogação. Confesso que me senti falando a mesma língua que o computador.

Ferramentas capazes de auxiliar o usuário neste momento podem ser aquelas construídas com o Tesseract OCR, como as minhas preferidas: Scribe OCR e a gImageReader. Ambas são aplicações capazes de “interpretar” os pixels que formam a imagem e transformá-los em caracteres de texto. Diante da ocasional confidencialidade dos dados com que temos que lidar, ambas as soluções também funcionam de forma completamente offline, sendo desnecessário compartilhar o documento com qualquer site.

A insegurança do formato, por fim, se dá em razão do fato de que ele foi projetado para poder executar, por exemplo, JavaScript, uma linguagem de programação bastante comum na web, mas que é difícil de justificar em um documento de texto. O que pode ser uma conveniência para o usuário também pode ser uma mão na roda para um agente mal intencionado, que encontra uma maneira de executar qualquer algoritmo que deseja em máquinas alheias.

Neste caso, a dica é utilizar a ferramenta Danger Zone, que cria uma cópia segura do arquivo recebido utilizando técnicas de isolamento de ambientes e máquinas virtuais. É um pouco mais complicada de executar, mas necessária caso o repórter julgue estar lidando com fontes que inspirem desconfiança.


⭐ ANÚNCIOS DIGITAIS

O jornalista canadense Craig Silverman publicou, em sua newsletter, um guia sobre como investigar bibliotecas de anúncios digitais. Repórter da ProPublica e um dos maiores especialistas em investigar este tipo de assunto, ele dá recomendações preciosas para quem faz o que nós fazemos.

Além disso, Silverman oferece uma tabela sobre quais plataformas disponibilizam dados de anúncios e as funcionalidades de cada uma. Spoiler: fora da Europa, estamos em maus lençóis.

sobre o

Radar Aos Fatos faz o monitoramento do ecossistema de desinformação brasileiro e, aliado à ciência de dados e à metodologia de checagem do Aos Fatos, traz diagnósticos precisos sobre campanhas coordenadas e conteúdos enganosos nas redes.

Topo

Usamos cookies e tecnologias semelhantes de acordo com a nossa Política de Privacidade. Ao continuar navegando, você concordará com estas condições.