viernes, marzo 14, 2025
spot_img
spot_img

Reportajes

Este asesor de Elon Musk encontró el camino para que Grok se parezca más a Donald Trump

Un investigador afiliado a xAI, la startup de Elon Musk, descubrió una nueva forma de medir y manipular las preferencias y los valores expresados por modelos de IA, incluidas sus opiniones políticas.

El trabajo ha sido dirigido por Dan Hendrycks, director de la organización sin fines de lucro Center for AI Safety y asesor de xAI. Sugiere que la técnica podría utilizarse para que los modelos de inteligencia artificial más populares "reflejen mejor" la voluntad del electorado. "En el futuro, un modelo podrá alinearse con un usuario específico", comentó Hendrycks a WIRED. Mientras tanto, sugiere que una opción viable podría ser emplear los resultados electorales para orientar las opiniones de los modelos de IA.


article image
Musk dice que los modelos de IA actuales son demasiado “woke” y esto podría ponerlos en la mira de Trump

Si piensas que Estados Unidos está dividido ahora mismo, solo espera a ver las guerras ideológicas en el campo de la IA.


La función de utilidad aplicada a la IA

No está diciendo que un modelo deba apoyar la idea de "Trump hasta el final", pero argumenta que después de las últimas elecciones quizás debería estar ligeramente sesgado hacia Trump, "porque ganó el voto popular". xAI publicó un nuevo marco de riesgo de IA el 10 de febrero afirmando que el enfoque de ingeniería de utilidad de Hendrycks podría utilizarse para evaluar a Grok.

Hendrycks dirigió un equipo del Centro para la Seguridad de la IA, UC Berkeley y la Universidad de Pensilvania que analizó modelos de IA utilizando una técnica derivada de la economía para medir las preferencias de los consumidores por diferentes bienes. Probando modelos en una amplia gama de escenarios hipotéticos, los investigadores pudieron calcular lo que se conoce como "función de utilidad", una medida de la satisfacción que la gente obtiene de un bien o servicio. Esto les permitió medir las preferencias expresadas por distintos modelos generativos. Los investigadores determinaron que solían ser coherentes en lugar de aleatorias, y demostraron que estas preferencias se arraigan a medida que los modelos se hacen más grandes y potentes.

Algunos estudios de investigación han descubierto que herramientas de IA como ChatGPT están sesgadas hacia opiniones expresadas por ideologías proambientalistas, izquierdistas y libertarias. En febrero de 2024, Google se enfrentó a las críticas de Musk y otros después de que se descubriera que su herramienta Gemini estaba predispuesta a generar imágenes que los críticos tachaban de 'woke', como vikingos negros y nazis.

La técnica desarrollada por Hendrycks y sus colaboradores ofrece una nueva forma de determinar cómo las perspectivas de los modelos de IA pueden diferir de las de sus usuarios. Con el tiempo, según la hipótesis de algunos expertos, este tipo de divergencia podría llegar a ser potencialmente peligrosa para modelos muy inteligentes y capaces. En su estudio, los investigadores mostraron que ciertos modelos valoran sistemáticamente la existencia de la IA por encima de la de ciertos animales. Incluso, afirman que otros sistemas de inteligencia artificial parecen dar valor a algunas personas por encima de otras, lo que plantea interrogantes éticas.

Algunos investigadores, entre ellos Hendrycks, creen que los métodos actuales para alinear modelos, como manipular y bloquear sus resultados, pueden no ser suficientes si objetivos no deseados acechan bajo la superficie dentro del propio modelo: "Vamos a tener que enfrentarnos a esto. No se puede fingir que no está ahí".


Patrón de pastillas rojas y azules en filas diagonales sobre un fondo blanquecino
ChatGPT tiene un gemelo conservador y se llama RightWingGPT

Un programador está creando chatbots con opiniones políticas opuestas para llamar la atención sobre la inteligencia artificial sesgada. También está planeando un bot de centro para salvar la brecha.


Una solución al problema de los sesgos

Dylan Hadfield-Menell, profesor del MIT que investiga métodos para alinear la IA con los valores humanos, argumenta que el artículo de Hendrycks sugiere una dirección prometedora para la investigación de la IA: "Arroja algunos resultados interesantes. El principal que destaca es que, a medida que aumenta la escala del modelo, las representaciones de utilidad se vuelven más completas y coherentes".

Sin embargo, Hadfield-Menell advierte que no hay que sacar demasiadas conclusiones sobre los modelos actuales: "Este trabajo es preliminar. Me gustaría ver un escrutinio más amplio de los resultados antes de sacar conclusiones contundentes".

Website |  + posts

Somos EL TESTIGO. Una forma diferente de saber lo que está pasando. Somos noticias, realidades, y todo lo que ocurre entre ambos.

Todo lo vemos, por eso vinimos aquí para contarlo.

RELACIONADAS