O lançamento de versões mais recentes de ferramentas de IA (inteligência artificial) generativa especializadas em imagens – como o Sora 2, da OpenAI, e o Nano Banana Pro, do Google – multiplicou o número de vídeos sintéticos ultrarrealistas nas redes. Com o avanço da tecnologia, rostos, vozes e cenários artificiais alcançam um grau de realismo que torna difícil distinguir o que é real e o que foi produzido por máquinas.
À medida que as ferramentas evoluem, as técnicas de identificação também precisam se tornar mais sofisticadas. Se antes erros grosseiros, principalmente em mãos e dedos, eram suficientes para cravar que um conteúdo foi gerado por IA, agora é preciso analisar o movimento e o contexto da cena, a sincronização entre áudio e vídeo, a coerência física das pessoas retratadas, entre outros detalhes mais sutis.
Para lidar com este cenário de alto potencial desinformativo, Aos Fatos preparou um manual de como treinar o olhar (e os ouvidos) para navegar o mar de imagens reais e artificiais que inundam as redes sociais, identificando os principais sinais do novíssimo conteúdo gerado por IA.
Os principais pontos de atenção são:
1. Sinais visuais e de áudio
Vídeos produzidos com inteligência artificial generativa costumam apresentar pequenos erros que, quando observados com atenção, ajudam a identificar manipulações. Esses sinais podem aparecer na imagem, no movimento, na fala ou no som e, juntos, formam um padrão típico de geração sintética.
Embora muitas dessas falhas estejam se tornando mais sutis com o avanço dos modelos, elas ainda são úteis como indícios de que o material pode não ser autêntico.
O que observar:

2. Área focal
Um dos erros mais recorrentes em vídeos artificiais é a discrepância entre a área focal — região da imagem que mais chama a atenção do observador — e o restante da cena.
Quanto mais próximo das áreas focais, maior será a qualidade da imagem e, consequentemente, menor será a ocorrência de anomalias típicas de registros gerados por IA.
Em geral, os modelos sintéticos seguem a regra de concentrar o realismo na área focal, mas ainda têm dificuldade em manter profundidade de campo coerente. Por isso, é importante observar com atenção o que aparece ao fundo da cena.
Essa inconsistência foi constatada, por exemplo, em uma imagem já analisada por Aos Fatos. Gerada pelo Nano Banana Pro, do Google, o registro viralizou no X e enganou até aqueles que acreditavam ter o olhar bem treinado para identificar imagens artificiais:

Em um olhar rápido, a imagem não apresenta grandes sinais visuais de distorção. O rosto da mulher está bem construído e a composição como um todo se assemelha bastante à de uma fotografia real.
No entanto, a partir da técnica da área focal, deve-se procurar as distorções não no centro da imagem, e sim no fundo e nos demais detalhes da cena. E é lá que estão, de fato, as anomalias:
- A pessoa ao fundo está sentada no vão entre duas cadeiras;
- O polegar do barman está distorcido, como se estivesse atravessando o copo;
- A mesa é maior do lado direito do que do lado esquerdo da mulher.

Outros erros comuns relacionados à área focal que também podem ser observados são:
- Fundo excessivamente borrado, mesmo em cenas em que a câmera deveria manter tudo em foco;
- Objetos ao redor do rosto com contornos imprecisos ou com profundidade incoerente;
- Mudanças abruptas de foco sem motivo aparente, como se a lente “pulasse” entre elementos;
- Regiões específicas do rosto (nariz, orelhas, cabelos) com nitidez incompatível com o restante da imagem;
- Transições entre luz e sombra que não acompanham corretamente a geometria do ambiente.
3. Contexto da cena
Mesmo quando o vídeo parece visualmente convincente, o contexto da cena pode revelar inconsistências. Ambientes criados por IA às vezes apresentam elementos incompatíveis com a narrativa, como locais que não existem, roupas inadequadas para a ocasião ou interações impossíveis com objetos e pessoas. Nesses casos, a falta de coerência contextual pode ser tão reveladora quanto às falhas técnicas.
Um exemplo aparentemente inofensivo, mas que enganou muita gente, foi a gravação de um canguru se preparando para embarcar em um avião (veja abaixo):
@yagirlgabby_ Emotional support kangaroo rejected entry to plane. 😭😭 #fyp #viral #fypage #fypage #fypシ #wendyortiz #fypシ゚viral ♬ original sound - Gabby
Apesar da gravação apresentar outros indícios de geração artificial — como movimentos faciais pouco naturais e falta de sincronia entre os lábios e a voz — o contexto é um fator relevante para desmentir a autenticidade do registro:
- Em primeiro lugar, pelo tamanho do animal: apesar de existirem diferentes espécies de canguru, a maioria deles possui um tamanho médio entre 1,40m e 2m;
- Em segundo, pelo absurdo da situação: cangurus não são considerados domesticáveis e, por isso, não podem atuar como animais de suporte emocional, especialmente em aeronaves — onde as regras tendem a ser ainda mais restritas.
Os princípios se aplicam também a gravações criadas com a intenção de enganar, como é o caso da suposta pastora bolsonarista que viralizou nas redes no fim deste ano (veja abaixo).
Como a cena não traz grandes inconsistências visuais, foi necessário desmentir a autenticidade da gravação por meio de elementos contextuais, como o fato de ela estar caminhando no meio de uma rua movimentada sem que haja sinais de bloqueio ou protesto de motoristas.
4. Marcas d'água
Muitas plataformas de IA generativa incluem marcas d’água digitais ou visuais para indicar que o conteúdo foi criado artificialmente. Elas costumam aparecer como pequenos logotipos estáticos ou que “caminham” pelo vídeo ao longo de sua duração.

No entanto, muitos usuários buscam maneiras de esconder esses sinais. Por isso, é importante prestar atenção a qualquer marca suspeita: alguns vídeos virais exibem borrões no canto inferior ou superior da tela, indicando que a marca d’água foi parcialmente apagada ou encoberta.
Foi assim que Aos Fatos desmentiu uma suposta gravação de uma greve de caminhoneiros na Esplanada dos Ministérios, em Brasília. Apesar da peça conter uma série de inconsistências, a primeira a ser notada foi o borrão que se movimentava ao longo do registro, indicando a marca d’água de uma ferramenta de conteúdo sintético (veja abaixo).
Em outros casos, as marcas d’água aparecem apenas em alguns frames e só podem ser percebidas em reproduções mais lentas. Nessas situações, ferramentas simples permitem visualizar esses detalhes quadro a quadro, como:
- players que possibilitam avançar frame por frame;
- plugins para navegadores dedicados à análise de vídeo;
- editores gratuitos que exibem a sequência de quadros individualmente.
Esses recursos ajudam a identificar vestígios de manipulação e marcas d’água que não são perceptíveis à primeira vista. Foi o caso de uma das gravações artificiais desmentidas por Aos Fatos durante a COP30 (Conferência das Nações Unidas sobre as Mudanças Climáticas):
5. Ferramentas de detecção
Além da análise visual e contextual, existem ferramentas criadas especificamente para identificar conteúdos produzidos com inteligência artificial. Esses sistemas utilizam diferentes métodos — como análise de padrões de pixels, inconsistências estatísticas, metadados e assinaturas digitais — para estimar se um vídeo, áudio ou imagem é sintético.
Algumas dessas ferramentas são gratuitas e acessíveis ao público; outras são pagas e voltadas a jornalistas, pesquisadores e equipes de verificação profissional. Todas elas, porém, apresentam limitações próprias.
Assim, ainda que sejam um recurso adicional importante, elas não oferecem resultados infalíveis. Modelos de IA evoluem rapidamente, e os detectores nem sempre acompanham esse ritmo, o que pode gerar falsos positivos (dizer que algo é enganoso quando não é) ou falsos negativos (não identificar uma manipulação).
É o caso do exemplo abaixo. Após a passagem de um tornado pela cidade de Rio Bonito do Iguaçu (PR), surgiram nas redes uma série de vídeos ultrarrealistas gerados por inteligência artificial alegando se tratar de gravações genuínas do evento climático.
Um deles mostrava um ônibus sendo levado por um tornado. Por meio da análise das imagens, Aos Fatos constatou que se tratava de um registro manipulado. No entanto, ferramentas de detecção apontam que a gravação é verdadeira, apesar dos vários indícios apontando o contrário.

Além disso, vídeos recortados, reenviados ou comprimidos por aplicativos perdem dados importantes sobre a origem dos arquivos, que alguns detectores precisam para funcionar corretamente.
O ideal, portanto, é combinar o resultado das ferramentas com a análise manual dos sinais visuais e sonoros, do contexto da cena e da presença de marcas d’água ou inconsistências técnicas. A detecção mais confiável nasce da soma desses elementos, e não de um único teste automatizado.
O caminho da apuração
Aos Fatos mapeou os principais procedimentos usados para identificar conteúdos sintéticos a partir de análises já realizadas pela equipe. A reportagem reuniu exemplos de checagens publicadas e sistematizou os critérios adotados na avaliação de imagens e vídeos, como observação de quadros específicos, análise de movimento, sincronia de áudio, coerência física e verificação da área focal.
Em seguida, descrevemos como esses indícios técnicos são combinados com a análise do contexto da cena, a identificação de marcas d’água e o uso de ferramentas de detecção de IA. Também foram considerados os limites desses recursos a partir do cruzamento entre resultados automatizados e verificação manual, com base em casos concretos já apurados pela redação.




