A Microsoft mandou parar. O Google explicou por quê.

Do vibe coding à engenharia agêntica — como governança, ROI e educação decidem quem extrai valor da IA na engenharia

jun 18, 2026

Algo que a indústria vinha evitando dizer em voz alta ficou explícito em dois sinais que aconteceram quase ao mesmo tempo em maio de 2026.

A Microsoft, que investiu cerca de US$ 13 bilhões na OpenAI e escreve perto de 30% do próprio código com IA generativa, pediu, discretamente, que engenheiros de uma divisão importante parassem de usar o Claude Code. Não porque a ferramenta não funcionava. Porque a conta ficou grande demais.

O segundo sinal veio da da Uber alguns dias depois: a empresa havia colocado um agente de codificação nas mãos de cerca de 5.000 engenheiros em dezembro de 2025. Em abril de 2026, o CTO revelou a repórteres que o orçamento anual de IA tinha sido consumido em quatro meses. Engenheiros gastavam entre US$ 500 e US$ 2.000 por mês só em chamadas de API. Adoção em 95%. Setenta por cento dos commits dirigidos por IA. E, ainda assim, o COO da empresa, Andrew Macdonald, admitiu não conseguir traçar uma linha entre esses números impressionantes e valor real para o usuário.

Quem trabalha há tempos com engenharia reconheceu o problema na hora: o número de linhas de código nunca foi um bom indicador do valor do trabalho de engenharia. Gerar mais linhas, mais rápido, não torna o indicador mais confiável; só torna o desperdício mais veloz.

A pergunta que importa, então, deixa de ser “quanto código a IA produz?” e passa a ser “como você governa, mede e prova o retorno desse código?”. E é exatamente aí que entra o framework que o Google publicou recentemente.

Do vibe coding à engenharia agêntica

O paper do Google (”The New SDLC With Vibe Coding“) trata vibe coding e engenharia agêntica não como um sim/não, mas como extremos de um espectro. No “vibe coding”, você descreve o que quer em linguagem natural, aceita o que a IA devolve e, quando algo quebra, cola a mensagem de erro de volta e pede para consertar. Verificação é opcional: roda, parece certo, segue.

Na outra ponta, a engenharia agêntica trata a IA como um motor de implementação dentro de um sistema cuidadosamente desenhado de restrições, testes e feedback loops, com humanos mantendo a decisão sobre arquitetura, correção e qualidade.

O diferenciador entre os dois não é usar IA. É quanta estrutura, verificação e julgamento cercam o output.

Isso parece abstrato até você trocar o exemplo. Um protótipo de fim de semana pode ser puro vibe coding, com risco aceitável e código descartável. Um sistema que sustenta um produto em produção exige engenharia agêntica. No meio, fica quase todo o trabalho real, e a habilidade está em saber onde traçar a linha para cada tarefa. Essa decisão vale para qualquer empresa que já gera código com IA (e, segundo a Stack Overflow, isso já são 84% dos desenvolvedores).

O harness é governança de IA

Há uma tentação, quando se começa a trabalhar com agentes, de tratar o modelo como o sistema inteiro. Modelo novo, agente fica melhor; modelo velho, agente piora. O modelo vira a explicação para tudo.

O Google argumenta que essa intuição é errada e cara. O modelo é só um insumo. Tudo o mais (os prompts, as ferramentas, as políticas de contexto, os hooks, os sandboxes, a observabilidade) é o que eles chamam de harness: o arcabouço em volta do modelo que faz ele realmente terminar alguma coisa.

A equação é simples:

Agente = Modelo + Harness

Se o modelo é o motor, o harness é o carro, a estrada e as leis de trânsito. Um motor sozinho não fabrica um carro. E os números são contundentes: num benchmark público (Terminal Bench 2.0), um time tirou um agente de fora do Top 30 e o colocou no Top 5 sem trocar o modelo, mexendo só no harness. A conclusão do paper é direta: a maioria das falhas de agente, examinadas com honestidade, são falhas de configuração, não do modelo.

Aqui vale traduzir “harness” para a linguagem de quem precisa responder por essa adoção: harness é governança de IA, na prática. Ele inclui as regras e instruções que o agente carrega (arquivos como AGENTS.md, CLAUDE.md), as ferramentas que ele pode chamar, os ambientes isolados onde o código roda, a lógica de orquestração e os guardrails, hooks e observabilidade: código determinístico que dispara em momentos do ciclo (por exemplo, bloquear um commit que tente subir uma senha), o rastreamento de qual código foi gerado por IA, e a capacidade de auditar por que um agente tomou determinada decisão.

Governar significa exatamente isso: saber o que o agente pode fazer, o que ele fez e por que. Segurança é uma das dimensões dessa governança — importante, mas não a única. Sem o harness, você não tem um problema de modelo; tem um problema de controle.

O novo SDLC: você não escreve código, você projeta a fábrica

A consequência disso para o ciclo de desenvolvimento (SDLC) é estrutural. Quando a implementação que levava semanas passa a levar horas, o gargalo migra. Requisitos, arquitetura e verificação seguem teimosamente humanos; a escrita de código, não.

O Google resume isso no que chama de modelo de fábrica: o entregável principal do desenvolvedor deixa de ser o código e passa a ser o sistema que produz código. Esse sistema reúne especificações e contexto, agentes que traduzem specs em implementação, testes e quality gates que verificam correção, feedback loops que devolvem as falhas para o agente corrigir e guardrails que mantêm o agente dentro de um comportamento seguro.

Um gerente de fábrica não monta cada peça à mão. Ele projeta a linha de montagem e garante o controle de qualidade.

Aqui mora o risco que o discurso de produtividade costuma pular. Uma fábrica sem controle de qualidade não produz menos defeito — produz defeito em escala. E os dados não são gentis: 45% do código gerado por IA contém vulnerabilidades (Veracode, 2025), e 20% dos pacotes que a IA sugere simplesmente não existem — o fenômeno do slopsquatting. Sem governança embutida na linha, a fábrica industrializa o defeito na mesma velocidade com que industrializa a entrega.

A economia: o problema é provar o ROI

Para um líder de engenharia, a métrica que importa não é velocidade — é retorno. E é aí que os fatos convergem.

O vibe coding parece imbatível em custo: uma assinatura mensal e alguns prompts. O CapEx (investimento inicial) é quase zero, porque você se apoia inteiramente na capacidade bruta do modelo. Mas o paper do Google mostra o que isso esconde: um OpEx (despesas operacionais) alto e crescente, em três parcelas.

A primeira é o token burn — o loop caro de despejar arquivos enormes no contexto e pedir, repetidamente, que o modelo conserte os próprios erros.

A segunda é o imposto de manutenção: código gerado por prompt ad-hoc costuma não ter consistência estrutural, e meses depois alguém gasta dias fazendo engenharia reversa de um “espaguete”.

A terceira é a remediação: corrigir uma falha em produção custa exponencialmente mais do que pegá-la no design.

O caso Microsoft/Uber é precisamente esse OpEx se materializando. E o ponto mais incômodo não foi a conta — foi o COO da Uber não conseguir provar o que aquele gasto comprou. Esse é o coração do problema de ROI da IA: commits são contáveis; valor, não. A menos que você instrumentalize a medição.

A engenharia agêntica inverte a equação: CapEx alto, OpEx baixo. Investe-se tempo, antes da primeira linha de produção, em desenhar schemas, construir suítes de teste e, sobretudo, estruturar o contexto do agente. O custo marginal de cada feature despenca, porque a IA opera dentro de uma fábrica governada. Context engineering, nesse mundo, deixa de ser um truque técnico e vira uma alavanca financeira. Provar o ROI deixa de ser narrativa e passa a ser leitura de métrica DORA, qualidade, custo por feature entregue e verificada.

O elo que ninguém terceiriza: o time que sabe dirigir agentes

Há uma última peça nessa história, uma que a fintech sueca Klarna aprendeu do jeito caro.

Em 2024, a empresa cortou cerca de 700 posições para substituir gente por IA. A satisfação despencou justamente nos casos complexos; os que exigiam julgamento e não estavam nos padrões aprendidos pela IA se acumularam sem ninguém preparado para resolver, enquanto a média geral mascarava a piora. Em meados de 2025, a empresa recontratava humanos.

A versão de manchete diz “a IA falhou”. A versão precisa é outra: a IA resolveu o trabalho que foi feita para resolver, e aí se descobriu que esse trabalho não era a maior parte do trabalho. Sistemas reais acumulam história. Uma IA lê o código, mas não leu a reunião em que se decidiu não usar uma abordagem por causa de uma falha de três anos atrás que nunca foi documentada.

Por isso o Google é categórico ao falar de pessoas: o gargalo migra da escrita para a especificação, a avaliação e o julgamento, e os engenheiros mais valiosos dos próximos anos serão os que dirigem agentes bem, não os que escrevem mais código. Isso não acontece por osmose. Acontece quando a empresa decide educar o time deliberadamente para especificar com precisão, decompor tarefas, avaliar output com ceticismo e desenhar os guardrails e feedback loops que mantêm o agente produtivo.

Geração resolvida. O novo ofício é outro.

A transição de sintaxe para intenção não é previsão de futuro, é presente. A transformação já está acontecendo e agora é questão com quanta disciplina cada time vai navegá-la. Três princípios resistem: estrutura escala, “vibe” não; a IA amplifica a cultura de engenharia que encontra — multiplica forças e fraquezas; e o papel humano evolui, não diminui.

É essa a leitura que orienta o trabalho da Duranium, IA-first dos dois lados — protegendo o código e a transação.

Como Parceiro Anthropic, ajudamos a estruturar esse harness de ponta a ponta; em setores regulados, como o financeiro, onde acumulamos cases, ele ainda vira evidência de conformidade; mas o problema é horizontal: vale para qualquer empresa que já gera código com IA.

A geração de código está resolvida. Governança, prova de ROI, julgamento e educação são o novo ofício.

Sua empresa já gera código com IA. A pergunta é se isso está governado, medido e nas mãos de um time preparado.

Fale com a Duranium sobre WeLuvCode, Consultoria Anthropic e a Duranium Academy.

#IAnaEngenharia #EngenhariaAgentica #GovernancaDeIA #ROIdeIA #ClaudeCode

Discussão sobre este post

Pronto para mais?