Você já usa sua ferramenta de código com IA há meses. Ela autocompleta nomes de variáveis do jeito que você gosta. Lembra dos padrões de teste do seu time. Sabe que você renomeou aquele serviço na terça passada e não pergunta de novo. Você não configurou nada disso — ela simplesmente aprendeu.

Sensação boa, né? Como ter um dev júnior que realmente anota as coisas. Só tem um probleminha: evidências crescentes sugerem que toda essa memória acumulada pode estar tornando seu agente pior em escrever código. E você ainda não consegue levar nada disso quando resolve mudar.

Entre 8 e 16 de abril, Anthropic e OpenAI lançaram sistemas de memória novos para seus agentes de código. O Memory Bank do Google já estava rodando desde dezembro de 2025. As três arquiteturas são completamente incompatíveis — e pelo menos um estudo mostrou que a abordagem toda dá mais errado do que certo.

Três Arquiteturas de Memória, Três Apostas Diferentes

A Anthropic saiu na frente. Em 8 de abril, lançaram Managed Agents com Memory Stores — coleções de texto com escopo de workspace que o agente lê antes de cada tarefa e atualiza quando termina. Cada memória tem limite de 100KB, você pode anexar até 8 stores por sessão, e cada edição cria uma versão imutável. Preço: tarifas padrão da API mais $0,08 por hora de sessão.

E isso é só uma camada. O Claude Code na verdade roda três mecanismos de memória: arquivos CLAUDE.md escritos pelo usuário (suas instruções), arquivos MEMORY.md gerados automaticamente (as anotações do agente para si mesmo), e aqueles Memory Stores do servidor. Três camadas de contexto. Três formatos. Zero portabilidade.

A OpenAI veio logo atrás. Em 15-16 de abril, o Codex lançou arquivos AGENTS.md para instruções de projeto, mais um recurso "Memories" carregando "preferências estáveis, convenções de projeto e padrões de trabalho recorrentes" entre sessões. A abordagem deles percorre da raiz do projeto até o diretório atual, mesclando arquivos hierarquicamente — até 32KB carregados em cada execução.

O Google foi por um caminho totalmente diferente. O Memory Bank no Vertex AI Agent Engine, disponível de forma geral desde dezembro de 2025 e cobrando desde fevereiro de 2026, ignora arquivos markdown por completo. Os modelos Gemini analisam seu histórico de conversas em background e extraem memórias estruturadas — fatos-chave, preferências, relacionamentos — com expiração automática e busca por similaridade.

Camadas de markdown vs. cadeias hierárquicas de instruções vs. dados estruturados extraídos por IA. Três fornecedores, cada um convicto de que sua arquitetura é a correta. A indústria alcançou incompatibilidade perfeita em tempo recorde.

O Imposto da Memória

É aqui que o discurso de vendas encontra a realidade. Em um preprint de março de 2026, pesquisadores da ETH Zurich testaram como arquivos de contexto afetam a performance de agentes de código. Em 5 de 8 configurações de teste, os agentes performaram pior com contexto acumulado do que sem — enquanto os custos de inferência subiram 20% ou mais.

Deixa isso penetrar enquanto você curte o brilho presunçoso do seu "assistente de IA personalizado". O recurso de memória que os fornecedores vendem como vantagem matadora degradou ativamente a qualidade do output na maioria dos cenários de teste. O agente lê suas próprias anotações, se enrola em contexto desatualizado ou contraditório, e produz código pior enquanto te cobra mais tokens pelo privilégio.

Isso não deveria surpreender nenhum engenheiro sênior que já viu um system prompt inchar até 50KB. Mais contexto significa mais para equilibrar. Parte está desatualizado. Parte contradiz outras partes. Parte era relevante três refatorações atrás. Seu agente lê diligentemente suas anotações de dois meses sobre um monolito que você já dividiu em três microsserviços, e então gera código com confiança para uma arquitetura que não existe mais. Muito útil.

E mesmo assim — cada sessão adiciona mais. Cada bug que você explica, cada decisão de arquitetura que você debate, cada atalho que você descreve é absorvido. A análise da MindStudio de 9 de abril cunhou o termo "behavioral lock-in": "Quando você exporta seu histórico de conversas, você recebe texto. O que você não recebe são as representações internas do modelo, embeddings e pesos que codificam o que o agente realmente aprendeu."

Você está pagando para acumular um arquivo de memória que provavelmente piora o output do seu agente — mas não pode sair porque recomeçar do zero significa perder o que quer que funcione. Lindo.

A Gaiola Confortável

Como Kai Waehner observou em 6 de abril, "se seus workflows de agentes são construídos na camada de orquestração proprietária de um fornecedor, os custos de troca se acumulam rapidamente." Quando os modelos viram commodity — quando GPT-5, Claude 4 e Gemini 2.5 performam dentro de 5% de diferença nos benchmarks — o agente que te conhece melhor é aquele que você continua pagando. Não porque é melhor. Porque sair dói demais.

E aqui está o vácuo regulatório que a MindStudio aponta: GDPR e CCPA cobrem dados pessoais estruturados — seu nome, email, histórico de compras. Ninguém regula os padrões implícitos que seu agente de IA constrói sobre seu estilo de código, preferências de arquitetura ou particularidades de deploy. Você pode solicitar seus dados. Não pode solicitar o entendimento que seu agente tem de você. Esse comportamento aprendido — a coisa que de fato cria custos de troca — está em uma terra de ninguém jurídica onde nenhum botão de exportação existe e nenhuma lei exige um.

Nenhum fornecedor tem incentivo para criar um formato portável de intercâmbio de memória. Seu contexto acumulado — mesmo o contexto que está piorando as coisas — é o fosso competitivo deles.

O Que Fazer Agora

Audite o que seu agente realmente aprendeu. Se você usa Claude Code, abra seus arquivos CLAUDE.md e MEMORY.md — são markdown puro no diretório do projeto. Leia criticamente. Quanto ainda reflete seu codebase real? Quanto descreve um serviço que você decompôs dois sprints atrás? Se usa Codex, percorra sua cadeia de AGENTS.md da raiz até a folha. Se usa Vertex, revise suas entradas no Memory Bank pelo console.

Depois faça algo contraintuitivo: desabilite a memória por uma sessão e compare o output. Se seu agente performa igual ou melhor sem suas anotações acumuladas, você estava pagando um imposto de memória pelo privilégio de ficar preso.

As guerras de modelos foram a entrada. A camada de memória é o prato principal — e a verdade inconveniente é que você está pagando para acumular contexto que degrada o trabalho do seu agente, armazenado em um formato que só seu fornecedor atual consegue ler, protegido por nenhuma regulamentação, e portável para lugar nenhum. O agente que te lembra não é o que melhor te serve. É só o que você não consegue largar.