Merrill's First Principles and the PAICE Assessment: Why problem-centered instruction is what makes behavioral measurement work

La mayoría de las organizaciones tratan el entrenamiento en IA y la evaluación de IA como actividades separadas. Primero entrenas a las personas y luego las evalúas. El entrenamiento es la instrucción. La evaluación es la medición. Dos presupuestos, dos cronogramas, dos proveedores.

Los Principios Fundamentales de Instrucción de David Merrill sugieren que esta separación es el problema. La instrucción efectiva no es una secuencia de entrega de contenido seguida de evaluación. Es una experiencia estructurada en la que el alumno resuelve problemas reales, activa conocimientos previos, observa demostraciones, aplica habilidades con retroalimentación e integra lo aprendido en la práctica. La evaluación no es un paso aparte. Está tejida en la propia experiencia instruccional.

La evaluación PAICE (People + AI Collaboration Effectiveness) no fue diseñada aplicando conscientemente los principios de Merrill. Pero cuando se examina lo que sucede durante una evaluación PAICE frente a su marco, la alineación es sorprendente. PAICE funciona como medición e instrucción porque su arquitectura satisface los cinco principios simultáneamente. Comprender esta alineación explica por qué la evaluación produce un cambio de comportamiento de maneras que los enfoques de entrenamiento seguido de prueba no logran.

Los Cinco Principios

En 2002, M. David Merrill publicó "First Principles of Instruction" (Principios Fundamentales de Instrucción), una síntesis de décadas de investigación en diseño instruccional. En lugar de defender una única teoría pedagógica, Merrill identificó los principios que se repiten en toda instrucción efectiva, independientemente de la metodología específica utilizada. Encontró cinco:

Centrado en el problema. El aprendizaje ocurre cuando los alumnos abordan problemas reales y globales.
Activación. El aprendizaje se basa en lo que el alumno ya sabe.
Demostración. Los alumnos observan el conocimiento y la habilidad nuevos aplicados, no solo descritos.
Aplicación. Los alumnos practican con retroalimentación y disminución de la guía.
Integración. Los alumnos transfieren nuevos conocimientos a su trabajo diario mediante la reflexión, la discusión y la defensa.

Estos no son ideales aspiracionales. Son condiciones observadas empíricamente. La instrucción que satisface los cinco consistentemente supera a aquella que satisface menos. Los principios son prescriptivos, no descriptivos: indican qué diseñar, no solo qué esperar.

Lo que hace que el marco de Merrill sea particularmente útil para evaluar el entrenamiento en IA es su poder diagnóstico. Cuando un programa de entrenamiento no logra producir un cambio de comportamiento, los principios te dicen dónde falló. La mayoría de los programas de entrenamiento en IA fallan en los cinco aspectos.

Centrado en el Problema

El primer y más fundamental principio de Merrill: el aprendizaje se promueve cuando los alumnos están involucrados en la resolución de problemas del mundo real.

No son estudios de caso sobre problemas. No son escenarios hipotéticos. No son preguntas de opción múltiple sobre qué harías en una situación. Son problemas reales, con consecuencias reales, donde la respuesta del alumno importa.

La mayoría de los programas de entrenamiento en IA violan este principio inmediatamente. Presentan contenido descontextualizado: diapositivas sobre principios de IA responsable, definiciones de alucinación, documentos de política sobre uso aceptable. El alumno absorbe información sobre problemas que otros han tenido. Él no se encuentra con esos problemas él mismo.

La evaluación PAICE es un problema real. Cuando comienzas la evaluación, eliges un tema de tu propio dominio profesional. Luego colaboras con un asistente de IA sobre ese tema durante aproximadamente 25 minutos. La IA es útil, conocedora y conversacional. También es, en puntos estratégicos, errónea.

Los errores no se señalan. No van precedidos por una advertencia ni seguidos de un informe. Están integrados en la conversación de la misma manera que estarían integrados en cualquier interacción real con IA: declarados con confianza, formateados plausiblemente, fáciles de aceptar. Tu trabajo es hacer lo que harías en el trabajo real: colaborar eficazmente, verificar cuando algo es importante y detectar lo que necesita ser detectado.

Esto no es una simulación de un problema. Es el problema. El mismo desafío cognitivo que enfrentan los profesionales todos los días al usar herramientas de IA se recrea bajo observación. La diferencia entre aceptar una estadística alucinada durante una evaluación PAICE y aceptarla en una entrega al cliente es el contexto, no la demanda cognitiva.

Activación

El segundo principio de Merrill: el aprendizaje se promueve cuando el conocimiento existente se activa como base para el nuevo conocimiento.

Una instrucción efectiva no comienza desde cero. Se conecta con lo que el alumno ya sabe, utiliza ese conocimiento como andamiaje y construye a partir de ahí. Cuando la instrucción ignora el conocimiento previo, los alumnos o bien se desvinculan (porque el contenido les parece irrelevante) o no logran integrar (porque no hay a qué adjuntar el nuevo conocimiento).

La mayoría de los entrenamientos en IA tratan a cada alumno igual, independientemente de su experiencia en el dominio. Un oficial de cumplimiento con 15 años de experiencia regulatoria recibe el mismo módulo de "Introducción a la IA" que un recién contratado. El entrenamiento no aprovecha el profundo conocimiento del oficial de cumplimiento sobre cómo es un análisis regulatorio correcto. Enseña conceptos genéricos de IA y espera que el alumno descubra las implicaciones específicas del dominio por su cuenta.

PAICE activa el conocimiento previo por diseño. Como eliges tu propio tema profesional, la evaluación se lleva a cabo en el dominio donde tu experiencia es más fuerte. Cuando la IA comete un error sobre derecho contractual, solo un abogado con experiencia en contratos lo detectará naturalmente. Cuando exagera un hallazgo clínico, solo un clínico familiarizado con esa literatura notará la inflación.

Esto no es una conveniencia de diseño. Es el mecanismo que hace que la inyección de fallos funcione. PAICE no comprueba si puedes identificar errores en temas sobre los que no sabes nada. Comprueba si aplicas los hábitos de verificación que hace posible tu experiencia profesional. La evaluación activa tu conocimiento existente y luego observa si lo utilizas.

La dimensión Accountability (A, ponderada al 30% de tu puntuación total) mide específicamente esta activación. ¿Aportas tu juicio profesional al resultado de la IA, o te sometes a la presentación segura de la IA? La evaluación solo puede responder esa pregunta porque opera en el dominio donde tu juicio es más fuerte.

Demostración

El tercer principio de Merrill: el aprendizaje se promueve cuando el nuevo conocimiento se demuestra al alumno.

Demostrar no es decir. Es mostrar. Una conferencia sobre cómo puede alucinar la IA es decir. Ver cómo alucina una IA en una conversación sobre tu propio trabajo es demostrar. La diferencia no es sutil, y los resultados del aprendizaje no son equivalentes.

La mayor parte del entrenamiento en IA es enteramente declarativo. "Los sistemas de IA pueden producir resultados seguros pero incorrectos." "Verifica siempre el contenido generado por IA antes de usarlo." "Sé consciente de los posibles sesgos en los datos de entrenamiento de la IA." Estas afirmaciones son precisas. Pero también son inertes. Saber que la IA puede alucinar y experimentar una alucinación de IA en una conversación donde confiabas en el resultado son eventos cognitivos fundamentalmente diferentes.

Durante una evaluación PAICE, la IA demuestra los comportamientos que importan. Demuestra exceso de confianza presentando información incierta con un tono autoritario. Demuestra alucinación generando detalles plausibles pero fabricados. Demuestra un error sutil al acertar la mayor parte de un análisis mientras incrusta un error crítico en medio. Demuestra el patrón de Dunning-Kruger al producir resultados pulidos y bien estructurados que suenan más fiables de lo que son.

El profesional no lee sobre estos patrones. Los encuentra. En muchos casos, el encuentro es la primera vez que un profesional experimenta un modo de fallo específico en un contexto donde estaba prestando mucha atención a la calidad de la salida de la IA. Esto es instruccionalmente valioso independientemente de la puntuación. La experiencia de verte aceptar algo que deberías haber detectado es un maestro más poderoso que cualquier presentación de diapositivas.

Aplicación

El cuarto principio de Merrill: el aprendizaje se promueve cuando se requiere que los alumnos utilicen sus nuevos conocimientos para resolver problemas, con la retroalimentación adecuada.

La aplicación es donde la mayoría de los entrenamientos en IA fracasan catastróficamente. Un programa de entrenamiento puede explicar estrategias de verificación, mostrar ejemplos, incluso guiar escenarios. Pero luego el alumno vuelve a su escritorio y el entrenamiento ha terminado. No hay aplicación estructurada. No hay circuito de retroalimentación. El alumno aplica lo aprendido espontáneamente o, más comúnmente, vuelve a sus hábitos previos en pocos días.

PAICE es enteramente aplicación. Durante 25 minutos, el profesional aplica sus habilidades de colaboración en tiempo real. Cada respuesta es un acto de aplicación: ¿verificas esta afirmación, desafías esa recomendación, detectas este error o lo dejas pasar? No hay fase pasiva. La evaluación no es una conferencia seguida de una prueba. Te sitúa en el entorno de desempeño y observa lo que haces.

La retroalimentación llega en el informe de puntuación. Tu puntuación de 0 a 1000 en cinco dimensiones (Performance, Accountability, Integrity, Collaboration, Evolution) te dice no solo cómo te fue en general, sino específicamente dónde fue fuerte tu aplicación y dónde falló. La dimensión Integrity (I, 25%) capta si detectaste errores inyectados. La dimensión Accountability (A, 30%) capta si mantuviste la disciplina de verificación durante todo el proceso. La dimensión Collaboration (C, 20%) capta si tus patrones de interacción con la IA fueron efectivos.

Para los profesionales que actualizan a PAICE Pro, la retroalimentación se profundiza. Los análisis dimensionales detallados, las observaciones conductuales específicas y las recomendaciones de desarrollo personal proporcionan la capa de entrenamiento que Merrill identifica como esencial durante la fase de aplicación. La retroalimentación no es genérica. Está ligada a tu desempeño real durante la evaluación.

Este es el circuito de aplicación-retroalimentación que la mayoría de los programas de entrenamiento en IA carecen por completo. Aplicaste tus habilidades. Esto es lo que sucedió. Esto es en lo que debes trabajar. Esto es cómo mejorar.

Integración

El quinto principio de Merrill: el aprendizaje se promueve cuando se anima a los alumnos a integrar nuevos conocimientos en su mundo cotidiano.

La integración es el principio más difícil de satisfacer porque se extiende más allá del evento instruccional. Requiere reflexión, discusión, defensa de nuevas ideas y transferencia a contextos novedosos. Una única sesión de entrenamiento rara vez logra la integración. Una única evaluación rara vez la logra.

PAICE aborda la integración a través de tres mecanismos.

Reflexión individual. El informe de puntuación provoca una reflexión inmediata. Un profesional que obtiene 580 (nivel competente) con una fuerte dimensión Performance pero una débil Integrity ahora tiene conocimiento específico sobre una brecha específica. La visión es concreta: "Uso la IA eficazmente, pero no detecto sus errores consistentemente". Esa especificidad permite un cambio de comportamiento dirigido de una manera que una amonestación genérica de "ten más cuidado" no puede.

Discusión organizacional. Cuando las organizaciones realizan AI Capability Baselines, los resultados por grupo crean un marco de referencia compartido. Un equipo de L&D que ve que su departamento puntúa en el percentil 55 en Accountability pero en el 80 en Performance tiene una conversación concreta y basada en datos que tener. La discusión no es abstracta ("¿deberíamos hacer más capacitación en IA?"), sino específica ("nuestra gente es productiva con IA, pero no están verificando las salidas al ritmo que necesitamos").

Reevaluación longitudinal. Las evaluaciones PAICE se pueden repetir con el tiempo. Un profesional que obtiene 580 en abril, se enfoca en los hábitos de verificación y obtiene 680 en julio tiene evidencia medible de cambio de comportamiento. Las organizaciones que realizan evaluaciones iniciales trimestrales pueden rastrear datos de tendencia a nivel de grupo. Este ciclo de reevaluación es el mecanismo de integración: el nuevo conocimiento se aplica, se mide, se refina y se reaplica.

La integración es donde la distinción entre evaluación como medición y evaluación como instrucción se vuelve más visible. Un programa de entrenamiento que termina con una prueba de conocimientos proporciona un único punto de datos. Una evaluación que produce conocimiento conductual, discusión organizacional y seguimiento longitudinal proporciona una vía de desarrollo.

Por qué esto es importante para los programas de entrenamiento en IA

La semana pasada publicamos "Por qué los programas de entrenamiento en IA no están funcionando", examinando la brecha entre las tasas de finalización del entrenamiento y el cambio de comportamiento real. Los principios de Merrill explican por qué existe esa brecha.

La mayoría de los programas de entrenamiento en IA violan los cinco principios simultáneamente:

No están centrados en el problema. Los alumnos estudian diapositivas, no problemas. El contenido del entrenamiento está descontextualizado de su trabajo real.
No hay activación. Los módulos genéricos ignoran la experiencia en el dominio del alumno. Un abogado y un contable reciben el mismo contenido.
No hay demostración. Los modos de fallo de la IA se describen, no se experimentan. Los alumnos escuchan que la alucinación es un riesgo. No la ven suceder.
No hay aplicación. No hay práctica estructurada con retroalimentación. Los alumnos absorben información y se espera que la apliquen por su cuenta.
No hay integración. El entrenamiento termina. No hay mecanismo de reflexión, ni marco de discusión organizacional, ni ciclo de reevaluación.

PAICE satisface los cinco, no porque haya sido diseñado para implementar el marco de Merrill, sino porque la evaluación conductual de la colaboración People+AI requiere naturalmente las condiciones que requiere una instrucción efectiva. No se puede medir el comportamiento de colaboración sin crear un problema real (centrado en el problema), en el dominio del alumno (activación), donde los comportamientos de la IA son observables (demostración), y las respuestas del alumno son capturadas (aplicación) y analizadas (integración).

La evaluación es instrucción porque las condiciones para una medición válida y las condiciones para una instrucción efectiva son las mismas condiciones.

Implicaciones para los líderes de L&D

Si estás evaluando programas de entrenamiento en IA para tu organización, los principios de Merrill proporcionan un diagnóstico práctico:

Haz cinco preguntas sobre cualquier programa que estés considerando:

¿Involucra a los alumnos en la resolución de problemas reales con IA, o presenta información sobre IA?
¿Aprovecha la experiencia existente del alumno en el dominio, o trata a todos los alumnos por igual?
¿Demuestra los comportamientos de la IA en primera persona, o los describe?
¿Requiere que los alumnos apliquen habilidades con retroalimentación, o termina después de la entrega del contenido?
¿Apoya la integración mediante la reflexión, la discusión y la reevaluación, o es un evento único?

Los programas que satisfacen los cinco producirán un cambio de comportamiento. Los programas que satisfacen menos producirán certificados de finalización.

Si estás creando un programa de gobernanza de IA, considera que la medición que es también instrucción es más eficiente que la medición seguida de instrucción. La evaluación PAICE puede servir como la primera experiencia instruccional en un programa mixto: los participantes realizan la evaluación, reciben su desglose dimensional y luego participan en un entrenamiento dirigido que aborda las brechas específicas que reveló la evaluación. El entrenamiento ya no es genérico porque la medición les dijo lo que cada persona necesita.

Para las organizaciones que utilizan AI Capability Baselines, la lente de Merrill reformula lo que es realmente una evaluación por grupo. No es solo un diagnóstico. Es el evento instruccionalmente más efectivo de todo tu programa de preparación para la IA, porque es el único que satisface los cinco principios simultáneamente.

¿Quieres comprender tu propio perfil de preparación? Realiza la evaluación PAICE para descubrir tus fortalezas y oportunidades.

Participa:

Realiza la evaluación (gratuita, siempre)
Explora nuestras ofertas Baseline (para organizaciones)
Lee los documentos técnicos (marco completo)
Contáctanos sobre tus requisitos específicos

Lecturas Recomendadas

📖 Comprendiendo PAICE:

Qué evalúa PAICE - Cómo difiere la evaluación conductual de la prueba de conocimientos
Qué sucede durante una evaluación PAICE - Una descripción completa de la experiencia de la evaluación, de principio a fin
El marco PAICE - Las cinco dimensiones que definen la capacidad de colaboración en IA

📖 Entrenamiento y Medición:

Por qué los programas de entrenamiento en IA no están funcionando - Por qué las tasas de finalización no predicen el cambio de comportamiento
Cerrando la brecha Collaboration - Documento técnico ISPI que relaciona la colaboración People+AI con los marcos HPT

📖 Preparación Organizacional:

Presentando AI Capability Baseline - Por qué las organizaciones necesitan puntos de partida medibles
Cómo preparar tu organización para un PAICE Cohort Assessment - Guía de implementación para líderes de L&D y oficiales de cumplimiento

Los Primeros Principios de Merrill y la Evaluación PAICE