IMAGE CLASSIFICATION FOR IDENTIFICATION OF DEEPFAKES GENERATED BY ARTIFICIAL INTELLIGENCE USING SELF-ATTENTION AND MACHINE LEARNING MODEL (CLASSIFICAÇÃO DE IMAGENS PARA IDENTIFICAÇÃO DE DEEPFAKES GERADAS POR INTELIGÊNCIA ARTIFICIAL UTILIZANDO MODELO DE AUTOATENÇÃO E APRENDIZADO DE MÁQUINA)

Autores

  • Gabriel R. S. Medeiros Faculdade São Paulo Tech School - SPTech Autor
  • Jeremy G. F. Freitas Faculdade São Paulo Tech School - SPTech Autor
  • Pedro H. L. Santos Faculdade São Paulo Tech School - SPTech Autor
  • Victor F. Garcia Faculdade São Paulo Tech School - SPTech Autor
  • Marise Miranda Faculdade São Paulo Tech School - SPTech Autor https://orcid.org/0000-0002-1775-4541
  • Cesar Caetano Faculdade São Paulo Tech School - SPTech Autor
  • Domingos Sanches Faculdade São Paulo Tech School - SPTech Autor

Palavras-chave:

Inteligência Artificial, Classificação de Imagens, Redes convolucionais, Transformadores, Deepfakes, Detecção de Falsificação, Visão Computacional, Segurança Digital

Resumo

https://doi.org/10.5281/zenodo.15708576

Com o crescente uso de tecnologias de inteligência artificial (IA) para gerar conteúdos visuais, a necessidade de ferramentas eficazes para distinguir o real do sintético tornou-se indispensável. A disseminação de deepfakes e a manipulação de imagens representam ameaças significativas à integridade da informação e à segurança digital. Este trabalho desenvolveu e avaliou modelos de classificação de imagens para identificar conteúdos gerados por IA com alta precisão, empregando técnicas modernas de aprendizado de máquina e aprendizado profundo.

Utilizamos uma base de dados composta por mais de 12 mil imagens, classificadas em conjuntos de treinamento, validação e teste. Diversos modelos foram explorados, incluindo KNN, PCA + SVM, Random Forest e arquiteturas avançadas baseadas em transformadores, como ViT e DeiT. No entanto, os melhores resultados foram alcançados com o modelo ResNet50, após a implementação de técnicas de regularização como dropout, L2 regularization e data augmentation, que mitigaram problemas de overfitting e garantiram uma maior capacidade de generalização do modelo.

Os resultados mostraram que a ResNet50, com essas melhorias, alcançou uma acurácia de 97,90%, superando os modelos baseados em transformadores testados, como o DeiT e o ViT. Isso demonstra a eficácia das redes convolucionais, quando ajustadas corretamente, para capturar padrões sutis e características essenciais que distinguem imagens reais de deepfakes.

Embora o modelo tenha apresentado um desempenho robusto, o campo da detecção de deepfakes permanece em constante evolução, demandando aprimoramentos contínuos. O aumento da diversidade dos conjuntos de dados e o desenvolvimento de modelos mais resistentes a manipulações adversárias são desafios importantes que precisam ser abordados.

Este estudo reforça o potencial das redes convolucionais, combinadas com técnicas de regularização e pré-processamento, na detecção de conteúdos gerados por IA. Como trabalhos futuros, propõe-se a aplicação de métodos de explicabilidade, como LIME, em maior escala, e a investigação de novas arquiteturas híbridas que combinem transformadores e redes convolucionais para alcançar ainda melhores resultados.

Publicado

2025-06-20