Você abre sua IDE, aponta a IA pra um módulo, manda um "refatora isso" e vai tomar um café. Vinte minutos depois, volta e descobre que ela reescreveu o arquivo 16 de um jeito que contradiz tudo o que ela mesma decidiu no arquivo 3. A IA esqueceu. De novo.
Dois meses e meio atrás, a OpenAI disse que tinha resolvido isso. O GPT-5.2-Codex foi lançado em 14 de janeiro com uma promessa de manchete: compactação de contexto — um agente que lembra o que está fazendo durante sessões longas. A comunidade de devs prendeu a respiração coletivamente. Agora estamos no final de março, o ciclo de hype já completou sua órbita, e temos quilometragem suficiente no mundo real pra fazer a única pergunta que importa: funcionou de verdade?
A proposta era convincente. Toda IA tem uma janela de contexto — sua memória de trabalho, quanto texto ela consegue "ver" de uma vez. Durante uma sessão longa de código, essa janela enche. Quando transborda, o modelo esquece decisões anteriores e começa a se contradizer. A compactação de contexto permite que o GPT-5.2-Codex comprima de forma inteligente o que está nessa janela — mantendo as partes importantes, descartando ruído. Na teoria, essa é a diferença entre um agente que dá conta de uma tarefa de 30 minutos e um que sobrevive a uma maratona de refatoração de 3 horas sem amnésia.
A OpenAI também embutiu detecção de cibersegurança — o modelo identifica vulnerabilidades durante a geração de código, não como uma etapa separada de scanning. Nos benchmarks, o GPT-5.2-Codex atingiu as melhores pontuações no SWE-Bench Pro e no Terminal-Bench 2.0. O suporte a Windows também ganhou um boost dedicado, o que levou apenas... alguns anos.
E aqui está o que dois meses de uso em produção mostraram. A compactação de contexto funciona — parcialmente. Para sessões de menos de uma hora, a melhoria é real e perceptível. Seu agente mantém o fio da meada, lembra das decisões de arquitetura do arquivo 3 quando chega no arquivo 16. Mas ultrapasse a marca de duas horas num codebase grande e as rachaduras aparecem. Compactação é lossy por definição — ela precisa descartar alguma coisa — e o julgamento do modelo sobre o que é "ruído" nem sempre bate com o seu. Invariantes sutis são comprimidas e somem. Constraints de tipo estabelecidas no início da sessão evaporam. É melhor que o estouro bruto de contexto, significativamente melhor, mas dizer que está "resolvido" é forçar a barra.
As alegações de segurança? Eu vou acreditar nelas de verdade quando alguém publicar um relatório abrangente de red-team, não um press release. A maioria das vulnerabilidades do mundo real não são padrões óbvios que um modelo consegue detectar — são erros arquiteturais sutis, bugs de timing, erros de lógica enterrados em regras de negócio. "Detecta vulnerabilidades durante a geração" soa ótimo numa keynote. Em produção, os bugs que realmente te ferram são aqueles que nenhum modelo vê chegando. Os relatos da comunidade até agora sugerem que ele pega as frutas mais baixas — padrões de SQL injection, buffer overflows óbvios — mas erra nas falhas de nível arquitetural que causam breaches de verdade.
Estrategicamente, isso sempre foi uma jogada de recuperação, e o mercado tratou como tal. O Claude Sonnet 4.5 ocupou o trono de modelo de código por meses antes desse lançamento. O Cursor construiu seus próprios modelos. O Windsurf lançou o SWE-1.5. A OpenAI assistiu o mercado de coding agents partir sem ela e respondeu. Uma resposta sólida — mas uma resposta, não a liderança. Dois meses depois, a posição do Claude não sofreu erosão significativa. As guerras de agentes de código se mostraram uma questão de ferramentas e integração de workflow, não apenas de capacidade bruta do modelo.
O preço continua sendo a decisão mais afiada do pacote inteiro: US$ 1,75 por milhão de tokens de entrada (um token equivale a mais ou menos ¾ de uma palavra em inglês — é como a IA mede e cobra o texto) e US$ 14 por milhão de tokens de saída. Idêntico ao GPT-5.2 base. Sem tier premium, sem upsell. Isso é um tiro direto em todo concorrente que cobra extra por modelos específicos para código, e tem se sustentado. O Windsurf precisou dar o SWE-1.5 de graça durante março só pra continuar na conversa — e nem isso funcionou completamente.
A era do modelo-serve-pra-tudo oficialmente morreu. A OpenAI lançar um derivado construído especificamente para código confirmou o que o mercado já tinha sacado: escrever código de forma autônoma é um trabalho fundamentalmente diferente de bater papo. Mas a lição mais profunda desses dois meses é que gerenciamento de contexto — não inteligência, não benchmarks — é o verdadeiro gargalo do coding agêntico. O GPT-5.2-Codex empurrou essa fronteira pra frente. Não a eliminou. Seu agente de refatoração agora lembra o que estava fazendo no arquivo 3. Se ele ainda vai lembrar no arquivo 47 depende de quanta sorte você está sentindo.



