miércoles, julio 30, 2025
spot_img
spot_img

Editoriales

Esta tecnología capaz de detectar deepfakes trae esperanza en un mar de IA generativa

Hoy en día, los deepfakes son mucho más sofisticados que hace un tiempo. En los últimos años se ha hecho posible crear videos enteros utilizando inteligencia artificial (IA), y la capacidad de los métodos de detección que se basan en la identificación de rostros humanos está llegando a sus límites.

Por ello, un grupo de investigadores estadounidenses desarrolló un nuevo modelo de IA, UNITE (Universal Network for Identifying Tampered and SynthEtic videos, o Red universal para la identificación de videos manipulados y sintéticos).

“La tecnología de deepfake se está desarrollando tan rápidamente que ya no se trata solo de intercambiar caras. Todo el video, desde la cara hasta el fondo, puede crearse fácilmente con IA generativa”, explica Rohit Kundu, investigador doctoral de la Universidad de California en Riverside. UNITE está diseñado para detectar cualquier falsificación.

Métodos de detección independientes del rostro

Hasta ahora, la mayoría de las técnicas de detección de falsificaciones profundas se han centrado en el análisis de los rasgos faciales, pero la mayor virtud de UNITE reside en su capacidad para analizar el movimiento y la falta de naturalidad de un fondo en todas las partes del video, independientemente de que haya o no un rostro. Esto hace que el análisis sea más general que los métodos anteriores.

Kundu y su equipo han adoptado un modelo de IA desarrollado por Google llamado SigLIP como tecnología subyacente para UNITE: SigLIP es un modelo de lenguaje visual que aprende la correspondencia entre imágenes y videos y el lenguaje natural, y puede extraer características abstractas con gran precisión sin tener que depender de caras u objetos concretos.

UNITE aplica una técnica de aprendizaje profundo denominada transformers, o transformadores. Los transformadores son mecanismos desarrollados para procesar información simultáneamente en función del contexto, y también son la base de IA generativa como ChatGPT. Mediante la incorporación de estos transformadores, se pueden detectar con gran precisión incoherencias como la suavidad del movimiento o la falta de naturalidad en la apariencia de los objetos.

Para lograr esta alta precisión de detección, los investigadores introdujeron un método de aprendizaje único denominado attention-diversity loss. Se trata de un dispositivo que evita la dependencia excesiva de solo unas pocas regiones prominentes del video y distribuye la atención del modelo por todo el mismo. Está diseñado para reducir la tendencia a que la atención se desvíe hacia el rostro humano y el sujeto central, y para garantizar que se presta suficiente cuidado a zonas que suelen pasarse por alto, como el fondo y el movimiento circundante.

En concreto, la función de pérdida evalúa si el mapa de atención del modelo (un indicador visual que muestra dónde mira y toma decisiones) está demasiado concentrado en un área específica, lo que genera un aprendizaje que fomenta un campo de visión más amplio. Esto permite que el modelo mantenga la sensibilidad necesaria para detectar cualquier alteración en la imagen, independientemente de la presencia de un rostro.

Asumiendo el reto de diversificar las falsificaciones

UNITE se entrenó usando diversos conjuntos de datos de videos falsos, como FaceForensics++, SAIL-VOS y AVID. Su filosofía de diseño, que abarca desde la manipulación facial y la alteración del fondo hasta videos generados íntegramente por IA, convierte a UNITE en un modelo de detección universal.

Según los investigadores, el rendimiento de UNITE se ha demostrado utilizando un conjunto de videos de alta complejidad que los modelos de detección existentes no podían gestionar. Por ejemplo, ha sido capaz de detectar la manipulación con gran precisión incluso en videos compuestos por paisajes sintetizados y personajes generados por computadora, así como en videos ingeniosamente alterados donde solo se ha reemplazado el fondo.

Cabe destacar que UNITE logró una precisión de clasificación superior al 87% en el último conjunto de datos "DeMamba", que incluye videos creados por Sora. Esto muestra una clara diferencia de rendimiento en un entorno donde los modelos existentes basados en detección facial prácticamente no funcionan.

El equipo de investigación ya está considerando aplicaciones en el mundo real, que podrían usarse en una amplia gama de tareas, como la detección automática de videos falsos en las redes sociales y sitios de videos, la verificación de noticias o la verificación de la fiabilidad de los videos que se usan como prueba legal.

Como hemos visto, gran parte de la tecnología utilizada en UNITE se basa en los mismos cimientos que la IA generativa, como ChatGPT y Midjourney . La IA crea falsificaciones y las detecta. En este juego del gato y el ratón, tecnologías como UNITE se están volviendo esenciales para acceder a la verdad. La era de creer ciegamente en lo que nos dice un video podría estar llegando a su fin.

(Editado por Daisuke Takimoto)

Artículo publicado originalmente en WIRED Japón. Adaptado por Mauricio Serfatty Godoy.


Website |  + posts

Somos EL TESTIGO. Una forma diferente de saber lo que está pasando. Somos noticias, realidades, y todo lo que ocurre entre ambos.

Todo lo vemos, por eso vinimos aquí para contarlo.

RELACIONADAS