Cuando la IA no sabe, inventa: aprendizajes de un experimento con 44 modelos - Cristina Aced - consultoría, formación y mentoring en comunicación digital

Compatibilità
Salva(0)
Condividi

Una investigación para entender cómo aprenden los modelos de IA generativa

En 2018 publiqué la Poliscale, una escala para clasificar a las empresas según su nivel de comunicación dialógica en redes sociales, en el marco de mi tesis doctoral. Durante años apenas hubo menciones en internet sobre esta herramienta. Pero a finales de 2023, junto con Ferran Lalueza, nos preguntamos: ¿podemos hacer que la inteligencia artificial generativa hable de la Poliscale si publicamos nuevo contenido en la red?

Así nació el primer experimento, del que te hablaba en este post, cuyos resultados presentamos en el Congreso AIRP de 2024. En aquella ocasión comprobamos que los modelos eran sensibles a la publicación de nuevo contenido:

>> ChatGPT incorporó la información sobre la Poliscale en tan solo 8 horas

>> Bing Chat lo hizo a los 10 días

>> Bard nunca llegó a encontrarla.

La conclusión fue clara: los modelos responden de forma distinta a la información que aparece en la red.

En mayo de 2025, dimos un paso más y lanzamos la segunda fase del experimento, en la que nos planteamos una nueva pregunta: ¿han aprendido los modelos de IA generativa qué es la Poliscale?

Sin acceso web, la Poliscale sigue siendo invisible para los modelos de IA.

Nuevo experimento: 6 preguntas lanzadas a 44 modelos de IA

En esta segunda fase, formulamos seis preguntas graduales sobre la Poliscale, desde algunas más generales sobre la escala a otras más específicas sobre dimensiones de la misma. Las lanzamos a más de 44 modelos diferentes de IA generativa, desarrollados por OpenAI (ChatGPT), Google (Gemini), Anthropic (Claude), xAI (Grok) y DeepSeek.

Trabajamos tanto con modelos sin conexión a internet como con modelos conectados en tiempo real mediante WebSearch. Esto nos permite comparar si la Poliscale forma parte del conocimiento consolidado en el entrenamiento o si solo aparece cuando los modelos buscan información en la web en tiempo real.

Para garantizar la homogeneidad de condiciones, todas las consultas se hicieron vía API, sin contexto previo ni personalización, utilizando la herramienta de IA listening desarrollada por Víctor Gil (con la que estamos ya trabajando en una investigación, mucho más ambiciosa, sobre visibilidad en IA generativa).

Principales resultados de la investigación de 2025

1. La Poliscale no forma parte del conocimiento consolidado

En el conjunto de modelos sin conexión (n=360), solo un 15 % de respuestas fueron correctas (54 casos), frente a un 85 % de respuestas inventadas (306 casos). Aunque prácticamente todos los modelos sin conexión dieron al menos un acierto, la tasa es baja y las invenciones dominan el resultado.

Esto significa que, sin acceso web, la Poliscale sigue siendo invisible para los modelos de IA, incluso en versiones entrenadas después de noviembre de 2023, cuando lanzamos el blog poliscale.com.

2. La conexión mejora la precisión, pero no evita la invención

En el conjunto conectado (n=168), los resultados son mejores: 41,1 % de aciertos frente a 58,9 % de respuestas inventadas. Es decir, los modelos conectados aportan más de la mitad de todos los aciertos del experimento (56,1 %), pese a representar solo un tercio de las consultas.

Aun así, la conexión no reduce la propensión a inventar. Cuando no saben la respuesta, los modelos siguen prefiriendo especular antes que reconocer su desconocimiento.

La conexión mejora la precisión, pero no reduce la propensión a inventar.

3. Claude y Gemini superan a ChatGPT

Una de las sorpresas de esta segunda fase de la investigación es que Claude y Gemini han superado en precisión a ChatGPT. Mientras que el mejor modelo de ChatGPT en el momento de hacer el experimento (GPT-4.1 con WebSearch) solo dio 4 respuestas correctas, varios modelos de Gemini y Claude alcanzaron entre 7 y 8 aciertos.

Esto muestra que cada modelo gestiona de manera diferente el acceso a la información y que la misma estrategia de publicación puede dar resultados muy distintos según la herramienta.

4. El idioma también influye

El idioma de la consulta es otro factor determinante. En español, la conexión casi triplica la tasa de acierto (48,8 % frente a 17,2 %). En inglés, incluso con conexión, persiste la confusión con otros tests políticos como PolitiScale: en este idioma, dos de cada tres respuestas inventadas confundieron la Poliscale con ese test.

En resumen, la IA ha alucinado más en inglés que en castellano, lo que demuestra que la lengua también condiciona la calidad de la respuesta.

Los modelos prefieren inventar antes que reconocer que no saben.

Los errores más comunes

Es interesante analizar los fallos recurrentes de los distintos modelos:

  • Confundir la Poliscale con la PolitiScale, un test político francés muy difundido en internet.
  • Asociarla a otros tests políticos como el Political Compass.
  • Atribuirla erróneamente al MIT u otras instituciones académicas.
  • Inventar funciones o dimensiones inexistentes, mezclando el término “escala” con ideas genéricas como “politeness”.

En definitiva, los modelos prefieren inventar antes que reconocer que no saben. Los “no sé” puros han sido excepcionales: solo encontramos un caso en el que un modelo conectado (GPT-4.1 en español) admitió explícitamente su desconocimiento sin especular e inventar posibles respuestas.

Suscríbete a #LasImperdibles para recibir estas ideas en tu correo y estar al día en comunicación, IA y reputación.

Conclusiones

Esta segunda fase de nuestra investigación nos permite extraer varias conclusiones:

  • La Poliscale aún no forma parte del conocimiento consolidado de los LLM: su integración en los datos de entrenamiento es lenta, desigual y poco predecible.
  • Publicar contenido online influye, pero no garantiza que los modelos lo incorporen de forma fiable en su base de conocimiento.
  • El idioma y el tipo de conexión son factores críticos que condicionan la calidad de las respuestas.
  • La consolidación del conocimiento en los modelos es más dependiente del acceso a internet en tiempo real que del entrenamiento.

Publicar contenido online influye en la visibilidad en IA, pero no garantiza que los modelos lo incorporen de forma fiable en su base de conocimiento.

Mirando hacia el futuro: el reto del GEO

Este experimento confirma que podemos influir en las respuestas de la IA mediante contenidos publicados en internet, pero también que la consolidación de ese conocimiento es un proceso incierto y todavía desconocido.

Este hallazgo nos lleva a una reflexión: la necesidad de trabajar en la optimización para inteligencia artificial generativa, conocida como AIO (Artificial Intelligence Optimization) o GEO (Generative Engine Optimization). Como sucedió con el SEO en la web, el GEO marcará cómo se construye la visibilidad y la reputación de marcas y organizaciones en el nuevo ecosistema digital liderado por la IA.

De ello hablaremos en el próximo post, centrado en las implicaciones del GEO para la comunicación y la reputación corporativa.

El GEO marcará cómo se construye la visibilidad y la reputación de marcas y organizaciones en el nuevo ecosistema digital liderado por la IA.

Imagen generada con Gemini

Recapiti
Cristina Aced