Merrill's First Principles and the PAICE Assessment: Why problem-centered instruction is what makes behavioral measurement work

A maioria das organizações trata o treinamento em IA e a avaliação em IA como atividades separadas. Primeiro se treina as pessoas, depois se as avalia. O treinamento é a instrução. A avaliação é a medição. Dois orçamentos, dois cronogramas, dois fornecedores.

Os Primeiros Princípios de Instrução de David Merrill sugerem que essa separação é o problema. Instrução eficaz não é uma sequência de entrega de conteúdo seguida de avaliação. É uma experiência estruturada na qual o aprendiz resolve problemas reais, ativa conhecimentos prévios, observa demonstrações, aplica habilidades com feedback e integra o que aprendeu à prática. A avaliação não é uma etapa separada. Ela está entrelaçada na própria experiência instrucional.

A avaliação PAICE (People + AI Collaboration Effectiveness) não foi concebida com a aplicação consciente dos princípios de Merrill. Mas ao examinar o que acontece durante uma avaliação PAICE à luz de seu framework, o alinhamento é surpreendente. O PAICE funciona tanto como medição quanto como instrução porque sua arquitetura satisfaz os cinco princípios simultaneamente. Compreender esse alinhamento explica por que a avaliação produz mudanças comportamentais de maneiras que as abordagens de treinamento seguido de teste não conseguem.

Os Cinco Princípios

Em 2002, M. David Merrill publicou "First Principles of Instruction", uma síntese de décadas de pesquisa em design instrucional. Em vez de defender uma única teoria pedagógica, Merrill identificou os princípios que se repetem em toda instrução eficaz, independentemente da metodologia específica utilizada. Ele encontrou cinco:

Centrado em Problemas. O aprendizado acontece quando os aprendizes se envolvem com problemas reais e completos.
Ativação. O aprendizado se constrói sobre o que o aprendiz já sabe.
Demonstração. Os aprendizes observam novos conhecimentos e habilidades sendo aplicados, não apenas descritos.
Aplicação. Os aprendizes praticam com feedback e coaching progressivamente reduzido.
Integração. Os aprendizes transferem novos conhecimentos para o trabalho cotidiano por meio de reflexão, discussão e defesa.

Esses não são ideais aspiracionais. São condições empiricamente observadas. Instruções que satisfazem todos os cinco princípios superam consistentemente aquelas que satisfazem menos. Os princípios são prescritivos, não descritivos: dizem o que você deve projetar, não apenas o que você deve esperar.

O que torna o framework de Merrill particularmente útil para avaliar treinamentos em IA é seu poder diagnóstico. Quando um programa de treinamento não consegue produzir mudança comportamental, os princípios indicam onde ele falhou. A maioria dos programas de treinamento em IA falha nos cinco princípios.

Centrado em Problemas

O primeiro e mais fundamental princípio de Merrill: o aprendizado é promovido quando os aprendizes estão engajados na resolução de problemas do mundo real.

Não estudos de caso sobre problemas. Não cenários hipotéticos. Não questões de múltipla escolha sobre o que você faria em determinada situação. Problemas reais, com consequências reais, nos quais a resposta do aprendiz importa.

A maioria dos programas de treinamento em IA viola esse princípio imediatamente. Eles apresentam conteúdo descontextualizado: slides sobre princípios de IA responsável, definições de alucinação, documentos de política sobre uso aceitável. O aprendiz absorve informações sobre problemas que outras pessoas enfrentaram. Ele não encontra esses problemas por conta própria.

A avaliação PAICE é um problema real. Ao iniciar a avaliação, você escolhe um tema do seu próprio domínio profissional. Em seguida, colabora com um assistente de IA nesse tema por aproximadamente 25 minutos. O assistente é prestativo, bem informado e conversacional. Também está, em pontos estratégicos, errado.

Os erros não são sinalizados. Não são precedidos de aviso nem seguidos de debriefing. Estão incorporados à conversa da mesma forma que estariam em qualquer interação real com IA: afirmados com confiança, formatados de maneira plausível, fáceis de aceitar. Sua tarefa é fazer o que você faria no trabalho real: colaborar de forma eficaz, verificar quando algo é relevante e identificar o que precisa ser corrigido.

Isso não é uma simulação de um problema. É o problema em si. O mesmo desafio cognitivo que profissionais enfrentam todos os dias ao usar ferramentas de IA é recriado sob observação. A diferença entre aceitar uma estatística alucinada durante uma avaliação PAICE e aceitá-la durante a entrega de um trabalho para um cliente é o contexto, não a demanda cognitiva.

Ativação

O segundo princípio de Merrill: o aprendizado é promovido quando o conhecimento existente é ativado como base para novos conhecimentos.

Uma instrução eficaz não começa do zero. Ela se conecta ao que o aprendiz já sabe, usa esse conhecimento como andaime e constrói a partir daí. Quando a instrução ignora o conhecimento prévio, os aprendizes se desengajam (porque o conteúdo parece irrelevante) ou não conseguem integrar (porque não há nada ao qual anexar o novo conhecimento).

A maioria dos treinamentos em IA trata todos os aprendizes da mesma forma, independentemente de sua expertise no domínio. Um profissional de compliance com 15 anos de experiência regulatória recebe o mesmo módulo "Introdução à IA" que um funcionário recém-contratado. O treinamento não aproveita o profundo conhecimento do profissional sobre como é uma análise regulatória correta. Ele ensina conceitos genéricos de IA e espera que o aprendiz descubra por conta própria as implicações específicas do domínio.

O PAICE ativa o conhecimento prévio por design. Como você escolhe seu próprio tema profissional, a avaliação é conduzida no domínio em que sua expertise é mais sólida. Quando a IA comete um erro sobre direito contratual, somente um advogado com experiência nessa área o identificará naturalmente. Quando ela superestima um achado clínico, somente um clínico familiarizado com aquela literatura perceberá a distorção.

Isso não é uma conveniência de design. É o mecanismo que faz a injeção de falhas funcionar. O PAICE não testa se você consegue identificar erros em temas sobre os quais não sabe nada. Ele testa se você aplica os hábitos de verificação que sua expertise profissional torna possíveis. A avaliação ativa seu conhecimento existente e então observa se você o utiliza.

A dimensão Accountability (A, com peso de 30% da sua pontuação total) mede especificamente essa ativação. Você aplica seu julgamento profissional ao output da IA, ou se submete à apresentação confiante do assistente? A avaliação só consegue responder a essa pergunta porque opera no domínio em que seu julgamento é mais sólido.

Demonstração

O terceiro princípio de Merrill: o aprendizado é promovido quando novos conhecimentos são demonstrados ao aprendiz.

Demonstração não é contar. É mostrar. Uma palestra sobre como a IA pode alucinar é contar. Assistir a uma IA alucinar em uma conversa sobre o seu próprio trabalho é demonstrar. A diferença não é sutil, e os resultados de aprendizagem não são equivalentes.

A maioria dos treinamentos em IA é inteiramente declarativa. "Sistemas de IA podem produzir outputs confiantes, mas incorretos." "Sempre verifique o conteúdo gerado por IA antes de utilizá-lo." "Esteja ciente de possíveis vieses nos dados de treinamento da IA." Essas afirmações são precisas. Também são inertes. Saber que a IA pode alucinar e vivenciar uma alucinação de IA em uma conversa na qual você confiou no output são eventos cognitivos fundamentalmente diferentes.

Durante uma avaliação PAICE, a IA demonstra os comportamentos que importam. Ela demonstra excesso de confiança ao apresentar informações incertas com tom autoritativo. Ela demonstra alucinação ao gerar detalhes plausíveis, mas fabricados. Ela demonstra erros sutis ao acertar grande parte de uma análise enquanto incorpora um erro crítico no meio dela. Ela demonstra o padrão Dunning-Kruger ao produzir um output bem estruturado e polido que parece mais confiável do que realmente é.

O profissional não lê sobre esses padrões. Ele os encontra. Em muitos casos, é a primeira vez que o profissional vivencia um modo de falha específico em um contexto em que estava prestando muita atenção à qualidade do output da IA. Isso tem valor instrucional independentemente da pontuação. A experiência de se ver aceitando algo que deveria ter identificado é um professor mais poderoso do que qualquer apresentação de slides.

Aplicação

O quarto princípio de Merrill: o aprendizado é promovido quando os aprendizes são solicitados a usar seus novos conhecimentos para resolver problemas, com feedback adequado.

A aplicação é onde a maioria dos treinamentos em IA falha catastroficamente. Um programa de treinamento pode explicar estratégias de verificação, mostrar exemplos e até percorrer cenários. Mas então o aprendiz retorna à sua mesa e o treinamento acabou. Não há aplicação estruturada. Não há ciclo de feedback. O aprendiz ou aplica o que aprendeu espontaneamente ou, mais comumente, reverte aos hábitos anteriores em poucos dias.

A avaliação PAICE é inteiramente aplicação. Por 25 minutos, o profissional aplica suas habilidades de colaboração em tempo real. Cada resposta é um ato de aplicação: você verifica essa afirmação, questiona aquela recomendação, identifica este erro ou o deixa passar? Não há fase passiva. A avaliação não ministra uma palestra para depois testar. Ela coloca você no ambiente de desempenho e observa o que você faz.

O feedback vem no relatório de pontuação. Sua pontuação de 0 a 1000 em cinco dimensões (Performance, Accountability, Integrity, Collaboration, Evolution) informa não apenas seu desempenho geral, mas especificamente onde sua aplicação foi sólida e onde ela se deteriorou. A dimensão Integrity (I, 25%) captura se você identificou os erros injetados. A dimensão Accountability (A, 30%) captura se você manteve a disciplina de verificação ao longo da avaliação. A dimensão Collaboration (C, 20%) captura se seus padrões de interação com a IA foram eficazes.

Para profissionais que adquirem o upgrade para PAICE Pro, o feedback se aprofunda. Análises dimensionais detalhadas, observações comportamentais específicas e recomendações de desenvolvimento personalizadas fornecem a camada de coaching que Merrill identifica como essencial durante a fase de aplicação. O feedback não é genérico. Está vinculado ao seu desempenho real durante a avaliação.

Este é o ciclo de aplicação-feedback que a maioria dos programas de treinamento em IA simplesmente não possui. Você aplicou suas habilidades. Eis o que aconteceu. Eis no que trabalhar. Eis como melhorar.

Integração

O quinto princípio de Merrill: o aprendizado é promovido quando os aprendizes são incentivados a integrar novos conhecimentos ao seu mundo cotidiano.

A integração é o princípio mais difícil de satisfazer porque se estende além do evento instrucional. Requer reflexão, discussão, defesa de novas ideias e transferência para novos contextos. Uma única sessão de treinamento raramente alcança a integração. Uma única avaliação também raramente a alcança.

O PAICE aborda a integração por meio de três mecanismos.

Reflexão individual. O relatório de pontuação estimula a reflexão imediata. Um profissional que obtém 580 (nível Proficiente) com uma dimensão Performance forte, mas uma dimensão Integrity fraca, passa a ter conhecimento específico sobre uma lacuna específica. O insight é concreto: "Uso a IA de forma eficaz, mas não identifico seus erros de maneira consistente." Essa especificidade permite mudanças comportamentais direcionadas de uma forma que uma admoestação genérica de "seja mais cuidadoso" não consegue.

Discussão organizacional. Quando as organizações realizam o AI Capability Baselines, os resultados em nível de coorte criam um quadro de referência compartilhado. Uma equipe de L&D que vê seu departamento pontuando no percentil 55 em Accountability, mas no percentil 80 em Performance, tem uma conversa concreta e baseada em dados a realizar. A discussão não é abstrata ("devemos fazer mais treinamento em IA?"), mas específica ("nossos profissionais são produtivos com IA, mas não estão verificando os outputs na taxa que precisamos").

Reavaliação longitudinal. As avaliações PAICE podem ser repetidas ao longo do tempo. Um profissional que pontua 580 em abril, concentra-se nos hábitos de verificação e pontua 680 em julho tem evidência mensurável de mudança comportamental. Organizações que realizam Baselines trimestralmente podem acompanhar dados de tendências no nível da coorte. Esse ciclo de reavaliação é o mecanismo de integração: novos conhecimentos são aplicados, medidos, refinados e reaplicados.

A integração é onde a distinção entre avaliação como medição e avaliação como instrução se torna mais visível. Um programa de treinamento que termina com um teste de conhecimento fornece um único ponto de dado. Uma avaliação que produz insights comportamentais, discussão organizacional e acompanhamento longitudinal fornece uma trajetória de desenvolvimento.

Por Que Isso Importa para Programas de Treinamento em IA

Na semana passada, publicamos "Why AI Training Programs Aren't Working", examinando a lacuna entre taxas de conclusão de treinamento e mudança comportamental real. Os princípios de Merrill explicam por que essa lacuna existe.

A maioria dos programas de treinamento em IA viola os cinco princípios simultaneamente:

Não centrado em problemas. Os aprendizes estudam slides, não problemas. O conteúdo do treinamento é descontextualizado do seu trabalho real.
Sem ativação. Módulos genéricos ignoram a expertise do aprendiz no domínio. Um advogado e um contador recebem o mesmo conteúdo.
Sem demonstração. Os modos de falha da IA são descritos, não vivenciados. Os aprendizes ouvem que a alucinação é um risco. Eles não a observam acontecendo.
Sem aplicação. Não há prática estruturada com feedback. Os aprendizes absorvem informações e espera-se que as apliquem por conta própria.
Sem integração. O treinamento termina. Não há mecanismo de reflexão, nem framework de discussão organizacional, nem ciclo de reavaliação.

O PAICE satisfaz todos os cinco, não porque foi projetado para implementar o framework de Merrill, mas porque a avaliação comportamental da colaboração People+AI naturalmente requer as condições que uma instrução eficaz exige. Você não pode medir o comportamento de colaboração sem criar um problema real (centrado em problemas), no domínio do aprendiz (ativação), onde os comportamentos da IA são observáveis (demonstração), e as respostas do aprendiz são capturadas (aplicação) e analisadas (integração).

A avaliação é instrução porque as condições para uma medição válida e as condições para uma instrução eficaz são as mesmas condições.

Implicações para Líderes de L&D

Se você está avaliando programas de treinamento em IA para sua organização, os princípios de Merrill fornecem um diagnóstico prático:

Faça cinco perguntas sobre qualquer programa que esteja considerando:

Ele engaja os aprendizes na resolução de problemas reais com IA, ou apresenta informações sobre IA?
Ele aproveita a expertise existente do aprendiz no domínio, ou trata todos os aprendizes da mesma forma?
Ele demonstra comportamentos da IA em primeira mão, ou os descreve?
Ele exige que os aprendizes apliquem habilidades com feedback, ou termina após a entrega do conteúdo?
Ele apoia a integração por meio de reflexão, discussão e reavaliação, ou é um evento único?

Programas que satisfazem todos os cinco produzirão mudança comportamental. Programas que satisfazem menos produzirão certificados de conclusão.

Se você está construindo um programa de governança de IA, considere que uma medição que também é instrução é mais eficiente do que medição seguida de instrução. A avaliação PAICE pode servir como a primeira experiência instrucional em um programa híbrido: os participantes realizam a avaliação, recebem sua análise dimensional e então se engajam em treinamentos direcionados que abordam as lacunas específicas reveladas pela avaliação. O treinamento não é mais genérico porque a medição indicou o que cada pessoa precisa.

Para organizações que realizam o AI Capability Baselines, a lente de Merrill reformula o que uma avaliação de coorte realmente é. Ela não é apenas um diagnóstico. É o evento instrucional mais eficaz de todo o seu programa de prontidão em IA, porque é o único que satisfaz os cinco princípios simultaneamente.

Quer entender seu próprio perfil de prontidão? Faça a avaliação PAICE para descobrir seus pontos fortes e oportunidades de melhoria.

Participe:

Faça a avaliação (gratuita, sempre)
Conheça nossas ofertas de Baseline (para organizações)
Leia os whitepapers (framework abrangente)
Entre em contato sobre seus requisitos específicos

Leitura Recomendada

📖 Entendendo o PAICE:

O que o PAICE Avalia - Como a avaliação comportamental difere dos testes de conhecimento
O que Acontece Durante uma Avaliação PAICE - Um guia completo da experiência de avaliação do início ao fim
O Framework PAICE - As cinco dimensões que definem a capacidade de colaboração com IA

📖 Treinamento e Medição:

Por que os Programas de Treinamento em IA Não Estão Funcionando - Por que as taxas de conclusão não preveem mudança comportamental
Fechando a Lacuna Collaboration - Whitepaper da ISPI mapeando a colaboração People+AI para frameworks de HPT

📖 Prontidão Organizacional:

Apresentando o AI Capability Baseline - Por que as organizações precisam de pontos de partida mensuráveis
Como Preparar Sua Organização para um PAICE Cohort Assessment - Guia de implementação para líderes de L&D e profissionais de compliance

Primeiros Princípios de Merrill e a Avaliação PAICE