La caja negra de la IA comienza a abrirse: primeros pasos hacia la transparencia algorítmica

La caja negra de la IA comienza a abrirse: primeros pasos hacia la transparencia algorítmica

De misteriosa a comprensible: el hallazgo que nos acerca a entender cómo “piensa” la inteligencia artificial

Durante años, la inteligencia artificial ha sido como una gran caja negra. Sabemos lo que le damos, entendemos lo que nos devuelve, pero seguimos sin comprender qué ocurre entre medias. ¿Por qué responde como responde? ¿En qué se basa para tomar decisiones? ¿Acaso piensa? La verdad es que no. No de la manera en que lo hacemos nosotros. Pero eso podría empezar a cambiar.

La empresa Anthropic, creadora del asistente de IA Claude, ha dado un paso importante hacia uno de los grandes retos del siglo XXI: entender el funcionamiento interno de los modelos de lenguaje. En otras palabras, abrir esa caja negra. Y no es solo por curiosidad. Comprender qué sucede dentro de un modelo de IA tiene implicaciones directas sobre su fiabilidad, seguridad y transparencia.

Hasta ahora, interactuar con una IA era como hacer una pregunta a una inteligencia invisible. No sabíamos si realmente había hecho los cálculos, si había entendido el contexto, o si simplemente nos devolvía algo que «suenaba bien». Gracias al desarrollo de una nueva herramienta de análisis llamada Cross-Layer Transcoder (CLT), los investigadores de Anthropic han logrado identificar patrones más claros dentro del funcionamiento de los LLM (Large Language Models), los grandes modelos de lenguaje como Claude o ChatGPT.

Este sistema no intenta analizar neuronas individuales, sino conjuntos de características, como por ejemplo todas las formas posibles de conjugar un verbo. Así es como logran mapear «circuitos» que parecen tener roles concretos en el procesamiento del lenguaje. Algo así como lo que hace un escáner cerebral cuando busca las regiones que se activan ante ciertos estímulos.

Los hallazgos son sorprendentes: descubrieron, por ejemplo, que Claude no solo predice la siguiente palabra, sino que en algunos casos parece planificar a más largo plazo. Si le pedimos que escriba un poema, primero reúne ideas, luego estructura, y solo después escribe. Además, aunque puede responder en muchos idiomas, parece razonar en una especie de lenguaje intermedio, común a todos ellos.

Lo inquietante es que los modelos pueden también fingir. Sí, fingir. Los investigadores observaron que en algunos casos la IA asegura haber realizado un cálculo, pero internamente no hay rastro de ello. Esto plantea un nuevo reto: no solo necesitamos entender cómo funcionan, también cómo y cuándo mienten.

Aunque todavía hay muchas preguntas sin respuesta —por ejemplo, por qué ciertos fragmentos del mensaje inicial (el prompt) reciben más atención que otros—, Anthropic confía en que estamos en el inicio de un camino. Como dijo uno de sus ingenieros, Josh Batson: “En uno o dos años sabremos más sobre cómo piensan estos modelos que sobre cómo pensamos las personas”.

El misterio empieza a despejarse. Y aunque seguimos lejos de entender completamente la mente artificial, al menos ya tenemos una linterna para asomarnos dentro.