La insaciable glotonería de los bots de IA es un dolor de cabeza para Wikipedia y el resto de internet

Una declaración de la Wikimedia Foundation, la fundación que gestiona Wikipedia, alerta sobre uno de los costos ocultos de la inteligencia artificial generativa. Los grandes sistemas de formación de modelos lingüísticos necesitan alimentarse constantemente con una enorme cantidad de datos que, además de conjuntos de datos públicos y privados, también se extraen directamente de la web mediante rastreadores. Los crawlers, ratreadores, o spider bots, son programas informáticos normalmente utilizados por los motores de búsqueda, que los emplean para indexar contenidos. Estas acciones consumen recursos y, por tanto, tienen un costo para los sitios que visitan automaticamente, como Wikimedia Commons, el archivo de 144 millones de imágenes, vídeos y archivos que pueden copiarse, descargarse, distribuirse y modificarse bajo la licencia Creative Commons de la fundación.

Los proyectos Wikimedia –que van más allá de Wikipedia e incluyen también Wikilibros y Wikcionario, por citar sólo algunos– se basan de hecho en dos elementos principales: contenidos libres y accesibles para todos, y el trabajo voluntario de la comunidad que los elabora. Y es precisamente esto lo que la hace atractiva para nuevos rastreadores que, además de los ya existentes y del tráfico humano, consumen los recursos de proyectos como el de la enciclopedia más popular del mundo, cuyo contenido es gratuito para el usuario, pero cuesta dinero a la fundación.

El auge del tráfico

A medida que los LLM y los chatbots vinculados a sus modelos se han vuelto más comunes, el volumen de peticiones ha aumentado exponencialmente. Las cifras publicadas en el comunicado muestran un crecimiento del tráfico de descargas del 50% desde enero de 2024. Wikimedia denuncia que el auge de las peticiones no procede de los usuarios, sino del software que explota su catálogo para alimentar modelos generativos de IA, algo para lo que la fundación no estaba preparada. El 65% del tráfico más caro hoy procede de bots, por la sencilla razón de que la demanda de contenidos de un humano es muy pequeña comparada con la de un software.

Por ejemplo, la navegación de un usuario puede llevarle a buscar la palabra "crawler", de ahí a hacer clic en la palabra "scraping", y así sucesivamente. En términos de datos, estamos hablando de una velocidad y cantidad limitadas para un gran número de usuarios. En cambio, cuando se trata de bots, las cantidades son enormes y las peticiones se producen en grandes bloques. SOlo el 35% de las páginas vistas son visitadas por bots, pero generan dos tercios del tráfico más caro. Esta situación se vuelve problemática cuando la plataforma enfrenta picos de tráfico donde las búsquedas humanas son altas, es decir, cuando las noticias y los eventos actuales llevan a millones de usuarios en todo el mundo a buscar las mismas entradas en la enciclopedia. En ese momento la navegación se ralentiza o no se produce como se espera.

Los datos como mercancía

La disponibilidad de datos es uno de los activos clave del enfoque actual de las grandes empresas tecnológicas hacia los modelos lingüísticos a gran escala. Basándose en una enorme cantidad de parámetros, estas tecnologías requieren conjuntos de datos enormes y de alta calidad, es decir, creados y revisados por humanos. Basadas en un gran número de parámetros, estas tecnologías requieren infinitos conjuntos de datos de alta calidad, es decir, creados y revisados por humanos. Como es sabido, los contenidos sintéticos pueden contener imprecisiones y errores, comúnmente llamados alucinaciones. Por eso, es esencial que los datos sean lo más precisos posible, lo que es viable cuando existe un proceso de revisión y edición. Aún con todas sus limitaciones y distinciones inevitables, este procedimiento típicamente humano garantiza una cierta calidad del resultado, y se basa en la idea de la libre circulación del conocimiento. Para evitar el problema de la autofagia de la IA generativa, es decir, que los chabots devuelvan resultados de nivel progresivamente inferior debido a la cantidad de contenido sintético en los conjuntos de datos de los modelos, este tipo de datos es una condición necesaria para obtener resultados de alto nivel. El contenido humano de calidad es un bien esencial no sólo para la democracia, sino también para la industria privada de la inteligencia artificial.

Para el universo Wiki, de hecho, no se trata sólo de una cuestión de costes, sino también de capital humano, que, ante el uso masivo de los contenidos creados gratuitamente por su comunidad, ve disminuir la presencia de usuarios en su sitio. A largo plazo, estos factores pueden amenazar la existencia de la comunidad de voluntarios que se ocupa de ella.

Consultada por WIRED, Birgit Mueller, Directora de Producto, MediaWiki y Experiencias de Desarrolladores de la Fundación Wikimedia, declaró: "Creemos que el propósito de la IA es ser útil a la gente, y para ello necesita la disponibilidad continua de contenidos escritos y verificados por humanos. El hecho de que estas empresas consuman sistemáticamente contenidos de nuestro sitio web demuestra lo valiosos que son; al mismo tiempo, estas empresas no están haciendo lo suficiente para apoyar a las personas y la infraestructura de las que depende en última instancia la IA. Las empresas que utilizan y comparten la información contenida en Wikipedia y proyectos relacionados son bienvenidas, pero les pedimos que lo hagan de una manera que apoye la sostenibilidad a largo plazo de la plataforma y de nuestras comunidades de voluntarios: por un lado, atribuyendo la procedencia de los contenidos, para reconocer la contribución de los voluntarios y ayudar a que los usuarios vuelvan a nuestro sitio, y por otro lado, consumiendo nuestros contenidos de una manera que no suponga una carga para nuestros servidores y garantice la sostenibilidad financiera de nuestra misión: el conocimiento libre".

Así es la batalla de Wikipedia en español contra la desinformación

Aunque se trate del conductor mexicano Chabelo, o de la crisis sanitaria, Wikipedia se toma la información en serio. WIRED en Español habló con la presidenta de Wikimedia México para conocer sus esfuerzos.

Más allá de Wikipedia

La dinámica recuerda a la que existe entre los sitios de noticias y las plataformas sociales, y por supuesto a la que existe entre los editores y los productores de inteligencia artificial generativa. El problema en este caso, sin embargo, no está relacionado con los derechos de autor, sino con el hecho de que si el sitio que realmente ha creado ese contenido no es aquel en el que un usuario lo encuentra –porque por ejemplo puede verlo resumido por Google dentro del buscador– acabará por no ir a buscarlo a la fuente. Simplificando, si le pido a Gemini, o a Claude, quizás con un comando de voz, que me diga qué es un rastreador web, y encuentro la respuesta dentro del chat, ¿por qué debería abrir Wikipedia? Los periódicos y los proyectos con ánimo de lucro pueden correr a esconderse con iniciativas como los paywalls o las licencias de uso, pero esto no puede ocurrirle a Wikimedia, que basa su propia existencia en la apertura y la gratuidad.

En un momento en que casi la mitad del tráfico en línea es generado por bots, cabe preguntarse si los LLM están acelerando la transición hacia un Internet posthumano: una world wide web en la que las acciones son realizadas por bots de distintos tipos, en lugar de usuarios reales. Un escenario en el que los asistentes virtuales –chatbots con los que podemos comunicarnos en lenguaje natural– recuperan la información que les pedimos y nos la devuelven a través de las interfaces de la propia IA generativa, sin que visitemos un sitio, sino simplemente permaneciendo en una aplicación conectada a la web.

La idea básica de los agentes autónomos presupone esto: tanto si la petición es reservar un viaje como conocer la definición de "dialelo", poco importa, los agentes autónomos harán lo solicitado sin que tengamos que teclearlo en un buscador o, incluso, en Wikipedia. Las consecuencias de este proceso ya en marcha son cada vez más visibles.

Artículo originalmente publicado en WIRED Italia. Adaptado por Camila Enriquez.

EL TESTIGO

Website | + posts

Somos EL TESTIGO. Una forma diferente de saber lo que está pasando. Somos noticias, realidades, y todo lo que ocurre entre ambos.

Todo lo vemos, por eso vinimos aquí para contarlo.

Editoriales

Cuando el poder empieza a heder

Como ladrón en la noche

Las amantes del poder

Jaque mate con la reina

Los aludidos del poder

La insaciable glotonería de los bots de IA es un dolor de cabeza para Wikipedia y el resto de internet

El auge del tráfico

Los datos como mercancía

Más allá de Wikipedia

EL TESTIGO

RELACIONADAS

Editorial de Rolling Stone demanda a Google, acusa que los resúmenes de IA perjudican su negocio

Trump anuncia pacto con China para evitar que TikTok sea prohibido en EE UU

El método estudiado por Harvard para hacerse viral en las redes sociales

Un multimillonario, un superyate y una catástrofe marítima increíblemente improbable

OpenAI recibe el visto bueno de Microsoft para convertirse en una empresa con fines de lucro

El valor de Oracle ya roza el billón de dólares a la espera un inminente contrato con OpenAI

Categorías

Denuncias