Como identificar conteúdos gerados por IA e não cair em desinformação nas redes

Compartilhe

O lançamento de versões mais recentes de ferramentas de IA (inteligência artificial) generativa especializadas em imagens – como o Sora 2, da OpenAI, e o Nano Banana Pro, do Google – multiplicou o número de vídeos sintéticos ultrarrealistas nas redes. Com o avanço da tecnologia, rostos, vozes e cenários artificiais alcançam um grau de realismo que torna difícil distinguir o que é real e o que foi produzido por máquinas.

À medida que as ferramentas evoluem, as técnicas de identificação também precisam se tornar mais sofisticadas. Se antes erros grosseiros, principalmente em mãos e dedos, eram suficientes para cravar que um conteúdo foi gerado por IA, agora é preciso analisar o movimento e o contexto da cena, a sincronização entre áudio e vídeo, a coerência física das pessoas retratadas, entre outros detalhes mais sutis.

Para lidar com este cenário de alto potencial desinformativo, Aos Fatos preparou um manual de como treinar o olhar (e os ouvidos) para navegar o mar de imagens reais e artificiais que inundam as redes sociais, identificando os principais sinais do novíssimo conteúdo gerado por IA.

Os principais pontos de atenção são:

  1. Sinais visuais e de áudio;
  2. Área focal;
  3. Contexto da cena;
  4. Marcas d’água;
  5. Ferramentas de detecção.

1. Sinais visuais e de áudio

Vídeos produzidos com inteligência artificial generativa costumam apresentar pequenos erros que, quando observados com atenção, ajudam a identificar manipulações. Esses sinais podem aparecer na imagem, no movimento, na fala ou no som e, juntos, formam um padrão típico de geração sintética.

Embora muitas dessas falhas estejam se tornando mais sutis com o avanço dos modelos, elas ainda são úteis como indícios de que o material pode não ser autêntico.

O que observar:

A imagem é composta por duas partes principais. Na parte superior, sobre fundo branco com cantos arredondados, há três itens em formato de lista com marcadores em forma de ponto. O texto diz: 'Sombras desalinhadas em relação à fonte de luz aparente; Bordas borradas ou tremidas ao redor do rosto ou do corpo; Objetos que surgem, somem ou mudam de forma entre um frame e outro;'. Na parte inferior, há uma fotografia em formato retangular com cantos arredondados. Nela aparece um homem que se assemelha ao bilionário Elon Musk em ambiente externo, vestindo uma roupa justa de tom claro e segurando uma bandeira do Brasil aberta à sua frente. A bandeira tem fundo verde, losango amarelo e círculo azul com estrelas brancas e a faixa com o texto 'Ordem e Progresso'. Ele está de perfil, voltado para a esquerda da imagem, com o rosto parcialmente iluminado pela luz do dia. Ao fundo, vê-se o céu com nuvens e uma estrutura vertical que se assemelha a um foguete ou torre. Sobre a imagem da bandeira, há três círculos desenhados em laranja destacando áreas diferentes: um círculo grande no centro, sobre o círculo azul da bandeira, e dois círculos menores à direita, um próximo à mão que segura o tecido e outro mais abaixo, sobre a parte verde da bandeira. No canto inferior direito da imagem há um pequeno selo preto com as letras 'af.' em branco.

2. Área focal

Um dos erros mais recorrentes em vídeos artificiais é a discrepância entre a área focal — região da imagem que mais chama a atenção do observador — e o restante da cena.

Quanto mais próximo das áreas focais, maior será a qualidade da imagem e, consequentemente, menor será a ocorrência de anomalias típicas de registros gerados por IA.

Em geral, os modelos sintéticos seguem a regra de concentrar o realismo na área focal, mas ainda têm dificuldade em manter profundidade de campo coerente. Por isso, é importante observar com atenção o que aparece ao fundo da cena.

Essa inconsistência foi constatada, por exemplo, em uma imagem já analisada por Aos Fatos. Gerada pelo Nano Banana Pro, do Google, o registro viralizou no X e enganou até aqueles que acreditavam ter o olhar bem treinado para identificar imagens artificiais:

Uma mulher de pele clara, com cabelos castanhos longos e ondulados, está sentada em uma mesa de madeira rústica, com os olhos fechados e a cabeça levemente inclinada sobre a mão esquerda. Ela veste uma blusa branca de manga longa. Em frente a ela, há uma taça de coquetel com líquido cor de pêssego e uma caneca branca com estampa azul-marinho. No canto inferior esquerdo, está um pequeno arranjo floral em um vaso transparente. Ao fundo, um balcão de bar branco com iluminação direcionada, e um homem com barba, vestindo um avental verde-oliva sobre uma camisa branca, está preparando uma bebida. O ambiente apresenta um teto de gesso branco com luminárias embutidas e prateleiras com garrafas de bebidas.
Imagem gerada pelo Nano Banana Pro viralizou devido à alta qualidade e enganou diversos usuários (Reprodução)

Em um olhar rápido, a imagem não apresenta grandes sinais visuais de distorção. O rosto da mulher está bem construído e a composição como um todo se assemelha bastante à de uma fotografia real.

No entanto, a partir da técnica da área focal, deve-se procurar as distorções não no centro da imagem, e sim no fundo e nos demais detalhes da cena. E é lá que estão, de fato, as anomalias:

  • A pessoa ao fundo está sentada no vão entre duas cadeiras;
  • O polegar do barman está distorcido, como se estivesse atravessando o copo;
  • A mesa é maior do lado direito do que do lado esquerdo da mulher.
A imagem é um painel composto por três visualizações do mesmo ambiente interno de um bar ou restaurante. A coluna central mostra uma pessoa de pele clara, com cabelos castanhos longos e ondulados, sentada à mesa. Ela veste uma blusa branca de manga longa e tem os olhos fechados, a mão esquerda apoiada no rosto. Em sua frente, na mesa de madeira rústica, há uma taça de coquetel cor de pêssego e uma caneca branca com estampa azul-marinho. Ao fundo, um homem com barba, avental verde-oliva e camisa branca está atrás do balcão, preparando uma bebida. A coluna da esquerda apresenta a mesma cena com filtros digitais nas cores vermelho, verde-água e amarelo. A coluna da direita mostra três recortes quadrados com detalhes da cena: o primeiro, de cima, é o detalhe da lateral de um balcão branco; o segundo, ao centro, é um plano de perto do homem no balcão derramando um líquido escuro de uma coqueteleira de metal em um copo; e o terceiro, embaixo, é um recorte da mesa focando na caneca.
Na imagem viral, as anomalias aparecem fora da área focal (Reprodução)

Outros erros comuns relacionados à área focal que também podem ser observados são:

  • Fundo excessivamente borrado, mesmo em cenas em que a câmera deveria manter tudo em foco;
  • Objetos ao redor do rosto com contornos imprecisos ou com profundidade incoerente;
  • Mudanças abruptas de foco sem motivo aparente, como se a lente “pulasse” entre elementos;
  • Regiões específicas do rosto (nariz, orelhas, cabelos) com nitidez incompatível com o restante da imagem;
  • Transições entre luz e sombra que não acompanham corretamente a geometria do ambiente.

3. Contexto da cena

Mesmo quando o vídeo parece visualmente convincente, o contexto da cena pode revelar inconsistências. Ambientes criados por IA às vezes apresentam elementos incompatíveis com a narrativa, como locais que não existem, roupas inadequadas para a ocasião ou interações impossíveis com objetos e pessoas. Nesses casos, a falta de coerência contextual pode ser tão reveladora quanto às falhas técnicas.

Um exemplo aparentemente inofensivo, mas que enganou muita gente, foi a gravação de um canguru se preparando para embarcar em um avião (veja abaixo):

@yagirlgabby_ Emotional support kangaroo rejected entry to plane. 😭😭 #fyp #viral #fypage #fypage #fypシ #wendyortiz #fypシ゚viral ♬ original sound - Gabby

Apesar da gravação apresentar outros indícios de geração artificial — como movimentos faciais pouco naturais e falta de sincronia entre os lábios e a voz — o contexto é um fator relevante para desmentir a autenticidade do registro:

  • Em primeiro lugar, pelo tamanho do animal: apesar de existirem diferentes espécies de canguru, a maioria deles possui um tamanho médio entre 1,40m e 2m;
  • Em segundo, pelo absurdo da situação: cangurus não são considerados domesticáveis e, por isso, não podem atuar como animais de suporte emocional, especialmente em aeronaves — onde as regras tendem a ser ainda mais restritas.

Os princípios se aplicam também a gravações criadas com a intenção de enganar, como é o caso da suposta pastora bolsonarista que viralizou nas redes no fim deste ano (veja abaixo).

Como a cena não traz grandes inconsistências visuais, foi necessário desmentir a autenticidade da gravação por meio de elementos contextuais, como o fato de ela estar caminhando no meio de uma rua movimentada sem que haja sinais de bloqueio ou protesto de motoristas.

4. Marcas d'água

Muitas plataformas de IA generativa incluem marcas d’água digitais ou visuais para indicar que o conteúdo foi criado artificialmente. Elas costumam aparecer como pequenos logotipos estáticos ou que “caminham” pelo vídeo ao longo de sua duração.

A imagem tem fundo branco com cantos arredondados e, ao centro, há um grande retângulo vertical com cantos arredondados em tom azul-claro. No meio desse retângulo aparece um ícone de reprodução em forma de triângulo branco apontando para a direita, semelhante a um botão de play. Na parte superior esquerda do retângulo está o nome 'Sora', acompanhado de um pequeno ícone circular escuro com dois pontos claros no centro. À esquerda do retângulo, fora dele, está o texto 'Sora, da OpenAI'. Na parte inferior direita do retângulo aparece o texto 'Veo', acompanhado de um símbolo em forma de estrela de quatro pontas. À direita do retângulo, fora dele, está o texto 'Veo e Gemini, do Google'.
Marcas d'água de algumas das principais ferramentas de geração de imagens e vídeos por meio de IA (Méuri Elle/Aos Fatos)

No entanto, muitos usuários buscam maneiras de esconder esses sinais. Por isso, é importante prestar atenção a qualquer marca suspeita: alguns vídeos virais exibem borrões no canto inferior ou superior da tela, indicando que a marca d’água foi parcialmente apagada ou encoberta.

Foi assim que Aos Fatos desmentiu uma suposta gravação de uma greve de caminhoneiros na Esplanada dos Ministérios, em Brasília. Apesar da peça conter uma série de inconsistências, a primeira a ser notada foi o borrão que se movimentava ao longo do registro, indicando a marca d’água de uma ferramenta de conteúdo sintético (veja abaixo).

Em outros casos, as marcas d’água aparecem apenas em alguns frames e só podem ser percebidas em reproduções mais lentas. Nessas situações, ferramentas simples permitem visualizar esses detalhes quadro a quadro, como:

  • players que possibilitam avançar frame por frame;
  • plugins para navegadores dedicados à análise de vídeo;
  • editores gratuitos que exibem a sequência de quadros individualmente.

Esses recursos ajudam a identificar vestígios de manipulação e marcas d’água que não são perceptíveis à primeira vista. Foi o caso de uma das gravações artificiais desmentidas por Aos Fatos durante a COP30 (Conferência das Nações Unidas sobre as Mudanças Climáticas):

5. Ferramentas de detecção

Além da análise visual e contextual, existem ferramentas criadas especificamente para identificar conteúdos produzidos com inteligência artificial. Esses sistemas utilizam diferentes métodos — como análise de padrões de pixels, inconsistências estatísticas, metadados e assinaturas digitais — para estimar se um vídeo, áudio ou imagem é sintético.

Algumas dessas ferramentas são gratuitas e acessíveis ao público; outras são pagas e voltadas a jornalistas, pesquisadores e equipes de verificação profissional. Todas elas, porém, apresentam limitações próprias.

Assim, ainda que sejam um recurso adicional importante, elas não oferecem resultados infalíveis. Modelos de IA evoluem rapidamente, e os detectores nem sempre acompanham esse ritmo, o que pode gerar falsos positivos (dizer que algo é enganoso quando não é) ou falsos negativos (não identificar uma manipulação).

É o caso do exemplo abaixo. Após a passagem de um tornado pela cidade de Rio Bonito do Iguaçu (PR), surgiram nas redes uma série de vídeos ultrarrealistas gerados por inteligência artificial alegando se tratar de gravações genuínas do evento climático.

Um deles mostrava um ônibus sendo levado por um tornado. Por meio da análise das imagens, Aos Fatos constatou que se tratava de um registro manipulado. No entanto, ferramentas de detecção apontam que a gravação é verdadeira, apesar dos vários indícios apontando o contrário.

A imagem é uma captura de tela de uma interface em fundo claro, predominantemente branca, com títulos e elementos em tons de azul, cinza e verde. No topo, aparece o título ‘Basic AI Image Analysis’, acompanhado de uma barra horizontal verde preenchida quase por completo. À direita dessa barra há um selo com a palavra ‘Real’ e, mais à direita, o texto ‘5% AI Likelihood’. No centro da tela há uma prévia vertical de um vídeo em formato de celular, mostrando uma cena de um tornado escuro tocando o solo sob um céu nublado, com veículos ao redor. Sobre o vídeo há um texto em português em um retângulo vermelho, embora o conteúdo não esteja totalmente legível. Abaixo da prévia aparece o nome do arquivo. Mais abaixo há o título ‘Detailed AI Analysis’, seguido do subtítulo ‘In-depth analysis of video and audio components’. Na parte inferior da imagem há dois quadros lado a lado. O quadro da esquerda se chama ‘Video Analysis’ e mostra um selo verde com 8%, seguido das linhas ‘AI Probability: 8%’, ‘Classification: Real’ e ‘Confidence: High’. O quadro da direita se chama ‘Audio Analysis’ e apresenta um selo verde com 2%, seguido das linhas ‘AI Probability: 2%’, ‘Classification: Real’ e ‘Confidence: High’.
Apesar de serem uma alternativa, as ferramentas para detecção de uso de IA nem sempre são assertivas (Reprodução)

Além disso, vídeos recortados, reenviados ou comprimidos por aplicativos perdem dados importantes sobre a origem dos arquivos, que alguns detectores precisam para funcionar corretamente.

O ideal, portanto, é combinar o resultado das ferramentas com a análise manual dos sinais visuais e sonoros, do contexto da cena e da presença de marcas d’água ou inconsistências técnicas. A detecção mais confiável nasce da soma desses elementos, e não de um único teste automatizado.

O caminho da apuração

Aos Fatos mapeou os principais procedimentos usados para identificar conteúdos sintéticos a partir de análises já realizadas pela equipe. A reportagem reuniu exemplos de checagens publicadas e sistematizou os critérios adotados na avaliação de imagens e vídeos, como observação de quadros específicos, análise de movimento, sincronia de áudio, coerência física e verificação da área focal.

Em seguida, descrevemos como esses indícios técnicos são combinados com a análise do contexto da cena, a identificação de marcas d’água e o uso de ferramentas de detecção de IA. Também foram considerados os limites desses recursos a partir do cruzamento entre resultados automatizados e verificação manual, com base em casos concretos já apurados pela redação.

Referências

  1. Aos Fatos (1, 2, 3, 4, 5 e 6)
  2. TikTok (@yagirlgabby_)

Compartilhe

Leia também

falsoÉ falso que Maduro foi condenado à morte nos EUA

É falso que Maduro foi condenado à morte nos EUA

falsoRegra que adia aposentadoria de professores foi aprovada em 2019, não agora

Regra que adia aposentadoria de professores foi aprovada em 2019, não agora

falsoVídeo em que homem anuncia greve de fome por liberdade de Maduro é gerado por IA

Vídeo em que homem anuncia greve de fome por liberdade de Maduro é gerado por IA

fátima
Fátima