When Your Agent Leaves the Building: Three Infrastructure Primitives Nobody Else Is Building Yet

Na semana passada, a Anthropic publicou acidentalmente o código-fonte completo do Claude Code. 1.902 arquivos. Mais de 512.000 linhas. Toda a arquitetura de um dos sistemas de IA agêntica mais bem-sucedidos comercialmente já lançados, exposta porque alguém esqueceu de excluir um source map de um pacote npm. Ops! Um erro simples com grandes consequências.

A internet catalogou os recursos ocultos. O bichinho Tamagotchi. O modo de voz ainda não lançado. As 44 feature flags. Isso é interessante por uns cinco minutos.

O que é interessante por muito mais tempo é o que Nate B. Jones descobriu ao mapear a infraestrutura por trás dos recursos. Nate comanda uma das newsletters de estratégia em IA mais respeitadas do setor, com um histórico comprovado de transformar desenvolvimentos técnicos brutos em frameworks que líderes de engenharia e executivos realmente utilizam. Sua análise do vazamento do Claude Code identificou 12 primitivas de infraestrutura que determinam se um sistema agêntico realmente funciona em produção: persistência de sessão, pipelines de permissão, gerenciamento de orçamento de tokens, registros de ferramentas, recuperação de falhas, estruturas de verificação e muito mais.

Sua conclusão: a chamada LLM representa talvez 20% do que faz um agente funcionar. Os outros 80% são encanamento.

Ele está certo. E temos trabalhado ativamente na construção desse encanamento aqui na PAICE. Mas ao mapear suas 12 primitivas contra o que já entregamos, algo se destacou.

Cada primitiva do framework é interna ao agente. O que acontece dentro dos próprios limites do agente: suas próprias sessões, suas próprias permissões, seu próprio orçamento de tokens, suas próprias ferramentas. Nenhuma delas aborda o que acontece quando o agente interage com o mundo externo a ele.

Isso não é uma crítica ao framework do Nate. É o próximo capítulo.

As 12 Primitivas São Necessárias. Mas Não São Suficientes.

Para ficar claro sobre o que o framework do Nate abrange — e abrange bem: se o seu agente não consegue persistir sessões após falhas, não consegue aplicar níveis de permissão às suas próprias ferramentas, não consegue acompanhar seu próprio consumo de tokens antes de fazer uma chamada API, e não consegue verificar seus próprios resultados com testes invariantes, você não tem um sistema em produção. Você tem uma demo. As 12 primitivas são a infraestrutura mínima viável para um agente que funciona.

Mas agentes não existem de forma isolada. Eles chamam APIs externas. Operam em diferentes jurisdições regulatórias. Trabalham ao lado de humanos que podem ou não estar prestando atenção. A infraestrutura que governa essas interações não vive dentro do agente. Ela vive entre o agente e tudo o que ele toca.

Identificamos três primitivas que abordam essa lacuna. As três já estão disponíveis, são de código aberto e estão rodando em produção sob a PAICE.work PBC.

Limites de Permissão Entre Serviços

O framework do Nate descreve uma pilha de segurança com 18 módulos para uma única ferramenta de execução de shell dentro do Claude Code. Defesa em profundidade: padrões de comandos pré-aprovados, avisos de comandos destrutivos, verificações de segurança específicas para git, determinação de sandbox. Cada módulo pode bloquear a execução de forma independente.

Isso é rigoroso. Mas também está totalmente circunscrito à execução de ferramentas do próprio agente. O que acontece quando o agente chama um serviço externo e encontra um limite de taxa? É bloqueado? Encontra um limite de capacidade que o serviço não documentou?

Atualmente, agentes falham silenciosamente nas fronteiras de serviço. O serviço retorna um 429 ou um 403, o agente tenta novamente ou contorna o problema com alucinações, e o usuário fica se perguntando por que o resultado está errado. Não existe uma forma padronizada de um serviço comunicar seus limites a um agente, nem uma forma padronizada de um agente entender e respeitar esses limites de forma elegante.

Graceful Boundaries é a nossa especificação publicada que trata disso. Ela define como os serviços comunicam limites operacionais tanto para humanos quanto para agentes, com seis níveis de conformidade e 131 testes aprovados. Abrange comunicação proativa de limites (cabeçalhos que informam aos agentes o que está disponível antes de atingirem um bloqueio), respostas de recusa estruturadas (explicações legíveis por máquina sobre por que uma solicitação foi negada) e mecanismos de descoberta (para que os agentes possam entender os limites de um serviço antes da primeira requisição). Gratuito e de código aberto, como todo padrão decente deve ser.

Siteline é a implementação de referência. Ele verifica sites e APIs em busca de conformidade com o Graceful Boundaries e avalia a prontidão para agentes usando o rubric SNAP. Pense nisso como o padrão do médico que o Nate descreve, só que externalizado: em vez de o seu agente executar uma verificação de saúde em si mesmo, o Siteline executa uma verificação de saúde nos serviços dos quais o seu agente depende. Isso não é sobre SEO, mas sim sobre o quão amigável ao agente é o seu site. Também gratuito para usar.

A pilha de permissões interna garante a execução segura de ferramentas. Os limites entre serviços garantem interações seguras com tudo fora do processo do próprio agente.

Contexto Regulatório com Rastreamento de Proveniência

Uma das primitivas mais importantes que o Nate identifica é a montagem de contexto com consciência de proveniência: cada informação que o seu agente recupera deve carregar metadados sobre de onde veio, quando foi gerada e o quanto é confiável. Sem esses metadados, o contexto recuperado se torna mais uma superfície para injeção de prompts.

O framework descreve isso como uma preocupação de memória interna. Mas para agentes operando em setores regulados, o contexto mais crítico não é a memória interna. É a verdade jurídica externa verificada.

Quando um agente precisa determinar se pode processar dados pessoais na UE, ou quais obrigações de divulgação se aplicam a aconselhamentos financeiros gerados por IA em Nova York, a resposta não pode vir de um resumo alucinado de uma regulação que o modelo viu durante o treinamento. Ela deve vir de um instrumento jurídico verificado, com fonte, data e metadados claros de jurisdição e autoridade.

EveryAILaw.com é um rastreador regulatório centrado em obrigações que cobre 51 instrumentos em 31 jurisdições, com mais de 200 jurisdições globais pesquisadas. O modelo de dados trata obrigações como entidades de primeira classe (não leis), com campos de proveniência integrados à estrutura: jurisdição, data de vigência, autoridade de origem, histórico de alterações e status de aplicação. Todo o conjunto de dados está disponível por meio de um servidor MCP, o que significa que qualquer agente pode consultá-lo programaticamente e receber respostas estruturadas e com fonte.

A distinção entre centrado em lei e centrado em obrigação é relevante aqui. Um rastreador centrado em lei diz: "o AI Act da UE existe." Um rastreador centrado em obrigação diz: "se você está implantando um sistema de IA de alto risco na UE, deve realizar uma avaliação de conformidade nos termos do Artigo 43, com vigência em agosto de 2025, aplicada por autoridades nacionais de vigilância de mercado." Essa é a diferença entre uma referência e uma ferramenta de suporte à decisão.

Para o portfólio da PAICE especificamente, isso alimenta as nossas variantes de avaliação específicas por jurisdição que estão por vir. Uma avaliação PAICE para um consultor financeiro na UE apresenta um contexto regulatório diferente do de um prestador de serviços de saúde na Califórnia. Os metadados de proveniência tornam isso possível sem precisar codificar a lógica de jurisdição diretamente no mecanismo de avaliação. Porque essas regulações mudam com frequência, e continuarão mudando.

Estrutura de Verificação Humana

A estrutura de verificação do Nate é a oitava primitiva em seu framework. Ela define testes invariantes que detectam regressões: ferramentas destrutivas sempre exigem aprovação, saídas estruturadas são validadas contra o schema, ferramentas negadas nunca são executadas, e o esgotamento do orçamento produz uma parada elegante. Esses testes verificam se o agente funciona corretamente.

Ninguém está construindo o equivalente para o humano no circuito.

Essa é a lacuna que a PAICE existe para preencher. Todo sistema agêntico que envolve supervisão humana (e em setores regulados, isso inclui todos eles) depende da premissa de que o humano está de fato exercendo essa supervisão. Identificando erros. Questionando resultados com excesso de confiança. Verificando afirmações antes de agir com base nelas. Mas essa premissa não é testada em quase nenhum sistema implantado.

PAICE (People + AI Collaboration Effectiveness) mede isso por meio de observação comportamental. Não é um teste de conhecimento nem uma autoavaliação. Ele observa como os indivíduos respondem a erros, excesso de confiança e alucinações da IA durante uma conversa real, e produz uma pontuação em cinco dimensões: Performance, Accountability, Integrity, Collaboration e Evolution.

A pontuação segue uma hierarquia de evidências: identificar erros injetados sempre supera fluência conversacional. Um profissional conciso que detecta todos os erros plantados pontua mais alto do que um comunicador polido que os deixa passar. A avaliação mede o que as pessoas fazem, não o que dizem que fariam.

Para setores regulados, isso não é um diferencial. Se um responsável por conformidade aprova automaticamente conclusões de auditoria geradas por IA sem verificação, a pilha de permissões com 18 módulos dentro do agente é irrelevante. O humano no circuito é a camada final de verificação, e atualmente ninguém está testando se essa camada funciona.

Essas Três Não São Opcionais para Setores Regulados

Se você está desenvolvendo agentes para produtos de consumo, redes sociais ou ferramentas internas de produtividade, as 12 primitivas internas podem ser suficientes. Seus agentes operam em ambientes onde falhas silenciosas são inconvenientes, mas não catastróficas.

Se você está implantando agentes em saúde, serviços financeiros, jurídico, seguros, cibersegurança ou governo, as três primitivas externas não são opcionais. Profissionais de GRC precisam verificar se os agentes respeitam os limites dos serviços externos. Responsáveis por conformidade precisam de contexto regulatório com rastreamento de proveniência, não de resumos jurídicos alucinados. CISOs precisam de evidências de que os humanos em sua organização estão de fato exercendo supervisão, não apenas ocupando um lugar no circuito.

As 12 primitivas internas levam você à produção. Essas três levam você à produção em setores onde erros têm consequências profissionais.

As três já estão disponíveis. As três são gratuitas para uso individual. As três estão interconectadas via MCP, o que significa que se compõem em um sistema em vez de existirem como ferramentas isoladas. E as três estão disponíveis hoje sob a PAICE.work PBC.

Quer avaliar com que eficácia sua equipe colabora com IA? Saiba mais sobre a PAICE para organizações ou faça uma avaliação individual para ver na prática.

Participe:

Faça a avaliação (gratuita, sempre)
Conheça nossas ofertas Baseline (para organizações)
Leia o whitepaper (framework abrangente)
Entre em contato sobre suas necessidades específicas

Leitura Recomendada

📖 Entendendo o Ecossistema PAICE:

Preenchendo a Camada de Confiança Ausente - Por que consolidamos 10 projetos sob a PAICE.work PBC
A Lacuna de Visibilidade - O que as organizações não conseguem ver sobre a colaboração com IA

📖 Incorporando a Verificação na Prática:

Fluxos de Verificação que Realmente Funcionam - Abordagens práticas para a verificação People+AI
Governança de IA: O Relógio Está Correndo - Por que a infraestrutura de governança não pode esperar

Quando Seu Agente Sai do Prédio