Saltar al contenido
Contraviento

La Internet escrita por Inteligencia Artificial

10 julio, 2024

Seguramente este artículo no va a ranquear primero. O sí. Quizás. Esto está siendo escrito por un humano. Un humano que analiza, tiene sentido crítico, tiene contexto, además se adapta al contexto, y por si fuera poco, sabe escribir para que lo lea su público, que habla como él.

Pero la gran mayoría de artículos que aparecen en Internet hoy en día, no parecen escritos por humanos, sino por computadoras, por las mencionadas Inteligencias Artificiales Generativas, como el archiconocido ChatGPT y tantos otros. Puedo asegurar que mis compañeros de redacción escriben ellos mismos. Y quizás alguno pueda atisbar a hacer una corrección de sus textos ayudado por IA.

El viernes vienen los gurises a casa y voy a hacer empanadas. Quiero hacer una empanada libanesa al estilo de La Cibeles. Es una empanada de queso. Pero la de La Cibeles es única, y además de ser frita, está hecha con una mezcla de quesos secreta. Somos todos fans de dicho restaurante, así que no hay mejor forma de agasajarlos que intentar emular dicha delicia. Por lo tanto, me propuse buscar una mezcla de quesos que sirva para mis empanadas. Todos los que alguna vez hicimos empanadas sabemos que no es simplemente poner muzarella y listo. Hay que combinar diferentes quesos para que quede la textura perfecta. Así que abrí mi navegador y le pregunté al buscador sobre una mezcla de quesos para empanadas. Como resultado, un montón de artículos que «parecían» escritos por una IA y que no me decían lo que yo quería. Me listaban los quesos de a uno, me decían que buenos eran, todos tenían una introducción hablándome de que me iban a contar todo sobre los quesos para las empanadas. Y me daba las recetas. Y sobre todo, esos textos, adjetivaban demasiado: crucial, vital, ideal, clave, importante: todos adjetivos que no aportan información en el contexto y solo sirven para rellenar. Y no justamente para rellenar empanadas.

Claramente, desde hace un años hasta ahora, los productores de contenido han hecho un uso y abuso de las inteligencias artificiales generativas. Están inundando internet de contenidos que no fueron pensados por humanos, sino que fueron creados por computadoras con mínima creatividad para tratar de enganchar gente a leer durante más tiempo y a permaner más tiempo en una página web en donde se expone a más posibilidades de ser bombardeada con publicidad. Y eso nos lleva a hacer clic en esos anuncios y eso le paga a quien «desinteresadamente» publica su contenido en internet.

Pero para entender el peligro, desentrañemos cómo se generan esos textos que producen las inteligencias artificales. Todos esos algortmos se basan en ser alimentados por ingentes cantidades de contenido (le podemos llamar «entrenar»), por ejemplo: libros, artículos periodísticos, noticias, artículos generales, artículos especializados y mucho contenido que de alguna forma trata de representar todo el conocimiento del mundo. Sesgo N°1: el contenido que se selecciona puede ser incompleto o desbalanceado al respecto de uno u otro grupo destino. Por ejemplo, yo que soy uruguayo, liberal, occidental, caucásico, descendiente de europeos y que tomo café y no me gusta el mate, elijo para leer e informarme, estudio y consumo entetenimiento que siento cercano. Si la IA fuera entrenada con más contenidos chinos y japoneses, me pintarían un mundo donde todo el mundo toma té y mi cerebro se efrentaría a la disyuntiva de «¿Cómo puede ser que en los contenidos de la IA todo el mundo toma té y yo cuando salgo con mis amigos todos tomamos café?».

Ok. Voy a buscar contenidos en internet que hablen de tendencias de bebidas calientes. Porque la IA me responde que el té es la bebida más consumida o tiene una preponderancia tal que el café apenas aparece. En mi búsqueda, hasta hace un año, encontraba mucha gente que hablaba de café. Ahora, parece que el café, que es la bebida que mueve el mundo occidental no existe. Y lo peor, no es que esto sea un ejercicio de la imaginación. Está pasando de verdad. Para muestra, un botón:

Respuesta de la IA Copilot a la pregunta: Cuáles son las bebidas calientes más consumidas?

Cuando una IA va a dar una respuesta, lo que intenta identificar es con qué palabra es más probable que continúe lo que está diciendo. Se basa en la frecuencia de las palabras que leyó en su entrenamiento según los parámetros que determinó en la pregunta del usuarios. Así que en base a contenidos sesgados, los productores de contenido están generando nuevo contenido que se basa en contenido ya existen. Y esos documentos ya previamente producidos por la IA terminan generando nuevos contenidos que se basan en artículos escritos por ellas mismas. Eso potencia sus sesgos de entrenamiento.

Terminamos en que a pesar de que cada vez hay más información, en realidad cada vez esa información es menos confiable. Y poder navegar ese mar de información no confiable es el desafío que se viene. En vez de tener acceso a consumir contenidos confiables a menor precio, vamos a terminar pagando más por contenidos certificados.

Alguna vez, cuando comencé a estudiar Biotecnología con 40 años, una profesora me preguntó qué me había llevado allí, y le dije: «Vengo de una industria que invirtió millones durante 20 años en hacer que la gente haga clic en una publicidad. Quiero que mis próximos 25 años de trabajo sean en una industria con otros fines». Y ahora, la industria de la información, ¿en qué va a terminar invertiendo millones durante los próximos 20 años?