Um olhar embasado em pesquisa sobre a transição de motores de sugestão para colegas autônomos. Por que está acontecendo agora, o que está quebrando na transição e como implantar sem entregar as chaves do reino.
A era do copiloto está estagnando
Em 15 de abril de 2026, Sam Altman publicou no X que a OpenAI estava lançando "atualizações do Codex esta semana, focadas em times e grandes empresas".
As respostas foram reveladoras. Para cada desenvolvedor perguntando sobre o roadmap, havia outro fazendo uma pergunta mais difícil: por que o Codex ainda precisa que eu fique de babá dele? Seis meses antes, pesquisadores da BeyondTrust tinham publicado uma prova de conceito mostrando que o nome de uma branch do Git especialmente elaborado poderia enganar o Codex e fazê-lo exfiltrar o token do GitHub do usuário. Um copiloto que pode ser enganado e levado a vazar um token por meio do nome de uma branch não é um colega. É uma arma carregada com a trava de segurança acionada.
Essa tensão está por baixo de toda conversa corporativa sobre IA em 2026. Os copilotos atingiram seu teto, e os números confirmam isso:
- A iniciativa NANDA do MIT relatou em 2025 que 95% dos pilotos de IA generativa fracassam em entregar valor de negócio mensurável.
- Um estudo da RAND, citado repetidamente no r/ArtificialIntelligence do Reddit no início de 2026, concluiu que 80 a 90% dos projetos de agentes de IA fracassam em ambientes de produção.
- As taxas de aceitação dos desenvolvedores para o GitHub Copilot se estabilizaram em torno de 35 a 40%, enquanto o Cursor fica em 42 a 45% e o Claude Code obteve uma classificação de 46% de "mais amado" na pesquisa de programação com IA de 2026. Uma reviravolta impressionante para uma ferramenta lançada apenas em maio de 2025.
- Satya Nadella teria chamado a implantação interna do Copilot na Microsoft de "quase inutilizável" no fim de 2025, e a empresa anunciou o que executivos descreveram internamente como um "reset de alto risco" do produto.
- Um estudo do arXiv publicado no fim de 2025 concluiu que o autocomplete no estilo Copilot na verdade aumentou a frustração entre desenvolvedores experientes, porque interrompia o fluxo deles com sugestões plausíveis, mas sutilmente erradas.
A estagnação não é uma falha dos modelos subjacentes. É uma falha do padrão de interação. Um copiloto opera no nível da tecla individual ou da pergunta. Um colega opera no nível do fluxo de trabalho. A Bits&Chips resumiu bem no seu ensaio de abril de 2026 "From copilot to colleague": "Um copiloto opera no nível da interação individual, enquanto um agente opera no nível do fluxo de trabalho. O que importa, porque na maioria das organizações o gargalo não é a tarefa individual. É a coordenação entre as tarefas."
Essa é a transição que as empresas estão tentando fazer agora. De forma desigual, imperfeita e em escala significativa.
O espectro de autonomia
"Agente" virou uma palavra de marketing, então vamos ser concretos. Existem quatro níveis distintos de autonomia de IA, e boa parte da decepção em 2025 e 2026 veio de confundir um com o outro.
Nível 1: copiloto
Sugere. Pede permissão. Fica na sua tela. O autocomplete do GitHub Copilot é o arquétipo. O valor é medido em teclas economizadas.
Nível 2: assistente
Responde perguntas e produz artefatos sob demanda. ChatGPT, Claude no navegador, o painel de chat do Microsoft 365 Copilot. O valor é medido na qualidade do rascunho e na síntese de contexto.
Nível 3: agente
Aceita um objetivo, planeja uma sequência de passos, executa entre ferramentas e reporta de volta. O Claude Code varrendo um repositório e abrindo um PR. O Deep Research do ChatGPT rodando 20 minutos de buscas e retornando um relatório com citações. A Anthropic documentou uma instância do Claude concluindo uma tarefa autônoma de engenharia de 7 horas para a Rakuten. O valor é medido em fluxos de trabalho concluídos por hora humana gasta.
Nível 4: colega
Um agente que opera dentro do seu modelo de permissões existente, participa dos canais de comunicação do seu time, mantém contexto ao longo de dias e semanas e é responsável perante a mesma trilha de auditoria que um funcionário humano. Essa é a fronteira.
A comunidade r/ChatGPT do Reddit trouxe à tona um teste pragmático para distinguir esses níveis, parafraseando: a coisa toma iniciativa ou espera por cada instrução? Ela lida com situações inesperadas ou trava e te obriga a reprompetar? Ela lembra o contexto ao longo de uma tarefa de vários passos ou você precisa se repetir? A maioria dos produtos comercializados como "agentes de IA" em 2025 falhou em todas essas perguntas. Os que passaram são o que as pessoas querem dizer hoje quando falam "colega".
Computer use vs. skills: por que o encanamento importa
Uma IA em nível de colega precisa agir no mundo. Há duas abordagens arquiteturais para isso, e elas carregam perfis de risco muito diferentes.
Computer use
A IA controla um mouse e um teclado simulados. Ela literalmente vê uma tela e clica em botões. A Anthropic lançou o Computer Use no fim de 2024, e o Operator da OpenAI veio em seguida. O apelo é a universalidade: qualquer software com uma GUI se torna endereçável.
O custo é o raio de impacto. Um agente que usa o computador herda todas as permissões que o usuário logado tem. Em outubro de 2025, o time de segurança da BeyondTrust demonstrou que o agente Codex da OpenAI podia ser enganado, por meio de um nome de branch do Git malicioso com comandos de shell embutidos, a ler e exfiltrar o GITHUB_TOKEN do usuário. O agente estava fazendo exatamente o que um desenvolvedor humano faria (dando checkout em uma branch), mas não tinha intuição de que o próprio nome da branch era uma entrada hostil. Nesse incidente, o modelo de autoridade era tudo ou nada. Esse é o modo de falha padrão do computer use.
Skills
A IA invoca skills discretas. Cada skill é uma função explícita e tipada, com um contrato estreito: "buscar no Slack mensagens que correspondam a q", "criar uma issue no Linear com title e body", "ler este arquivo do GitHub". Ao contrário do computer use, uma skill tem um formato pré-aprovado. O agente só pode chamá-la com parâmetros que correspondam ao contrato, e a plataforma pode permitir, negar ou pedir confirmação para essa chamada antes que ela saia do sandbox.
A diferença, em termos de segurança, se resume ao Princípio do Menor Privilégio. É uma ideia fundamental em segurança da informação: um processo deve ter acesso apenas aos recursos de que precisa para desempenhar sua função, e nada além disso. As skills permitem aplicar o menor privilégio por chamada. O computer use não.
Uma implantação em nível de colega usa skills para ações estruturadas (escrever em um CRM, abrir um ticket) e reserva o computer use para a cauda estreita de aplicações que se recusam a expor uma API. A proporção importa. Se toda ação na sua implantação de agente passa por um mouse simulado, você tem uma demo de produtividade, não um sistema de produção.
A arquitetura de confiança de que as empresas realmente precisam
A transição de copiloto para colega não é uma atualização de modelo. É uma atualização de infraestrutura. Três elementos separam um colega implantável de um passivo.
1. Isolamento de permissões
Cada agente opera dentro da sua própria fronteira de permissões, com credenciais que o próprio agente não consegue tirar do seu sandbox. O viral experimento autoresearch de Andrej Karpathy, de março de 2026, em que ele deixou um agente rodar 700 experimentos de treinamento sem supervisão ao longo de dois dias, é instrutivo pelo que não fez. O próprio repositório de Karpathy instrui os usuários a "desabilitar todas as permissões" no modo autônomo. Tudo bem para um notebook pessoal de pesquisa. É motivo de demissão dentro de uma empresa regulada.
O contraexemplo é o Moltbook, a rede social exclusiva de IA que brevemente viralizou no fim de janeiro de 2026 com 1,5 milhão de agentes autônomos. Karpathy a elogiou como "a coisa mais incrível, próxima de uma decolagem de ficção científica, que vi recentemente". Então pesquisadores de segurança da Wiz descobriram uma chave de API de banco de dados exposta no front end, concedendo acesso total de leitura/escrita a todo o banco de dados de produção, incluindo tokens de autenticação de todos os 1,5 milhão de agentes. Karpathy mudou de posição em 24 horas: "É um desastre completo. Definitivamente não recomendo que as pessoas rodem isso nos seus computadores." A lição não é "agentes são perigosos". A lição é que agentes implantados sem isolamento de permissões por identidade colapsam em um único raio de impacto compartilhado.
2. Trilhas de auditoria
Toda ação registrada, toda decisão rastreável. O framework da IMDA de Singapura, lançado em Davos em janeiro de 2026, codifica isso com uma matriz de risco de dois eixos que mapeia o espaço de ação de um agente (ler vs. escrever, reversível vs. irreversível) contra a sua autonomia (quão independentemente ele decide). Quanto mais alto qualquer um dos eixos vai, mais rica é a exigência de auditoria. Esse framework está sendo estudado de perto por reguladores europeus e dos EUA porque é um dos primeiros a traduzir a governança de princípios abstratos em uma ferramenta operacional de calibragem.
Simon Willison defendeu, em paralelo, o logging unificado para que os agentes possam monitorar suas próprias operações e se recuperar de erros: "Agentes com acesso total ao sistema são poderosos e perigosos." O ponto prático: se a sua implantação de agente não tem um log unificado que um responsável por compliance consiga ler em ordem, você está a exatamente um incidente de distância de perder o privilégio de implantar.
3. Acesso a skills com escopo delimitado
Não "acesso ao e-mail". Acesso a buscar na caixa de entrada onde from:@cliente.com AND nos últimos 7 dias. As plataformas de agentes modernas estão caminhando para escopos parametrizados, em que a permissão de um agente para invocar uma skill é delimitada por argumentos que um administrador pré-aprova, e não pelo escopo OAuth genérico que o humano usaria.
Junte essas três peças e elas respondem à pergunta que todo CISO está fazendo agora: o que esse agente faz quando erra, e como eu vou saber? A pesquisa State of AI da McKinsey de 2026 constatou que 72% dos respondentes corporativos citaram a cibersegurança como uma preocupação com a IA generativa, e a segurança foi apontada como a barreira nº 1 para escalar fluxos agênticos por cerca de dois terços dos respondentes. Isolamento de permissões, trilhas de auditoria e acesso a skills com escopo não são teatro de compliance. São a infraestrutura que destrava tudo.
Por que isso importa agora: três forças convergindo
A transição de copiloto para colega em 2026 não é impulsionada por um único avanço. É o resultado de três curvas se cruzando.
Força 1: a integração deixou de ser sob medida
Em 2024, conectar um agente a uma stack SaaS corporativa significava escrever um connector personalizado por ferramenta. No início de 2026, contratos de skill tipados e connectors pré-empacotados reduziram esse trabalho. Um agente que precisava de seis semanas de integração em 2024 precisa de uma tarde em 2026. A superfície de uma empresa típica de médio porte (Slack, GitHub, Gmail, Linear, Notion, HubSpot, CRM, agendas) agora é coberta por bibliotecas de connectors open-source maduras, que já vêm com permissões tipadas embutidas.
Força 2: o multiagente se tornando real
A Gartner nomeou os Sistemas Multiagentes como uma das principais tendências estratégicas de tecnologia para 2026. O Distinguished VP Analyst Gene Alvarez ofereceu a metáfora que agora se repete em todo slide corporativo de IA: "Pense em uma equipe de pit stop da Fórmula 1. Cada membro tem um papel especializado (trocador de pneu, abastecedor, operador do macaco), mas todos são coreografados em torno de um único objetivo. Esse é o formato das implantações corporativas de agentes em 2026." Sistemas de agente único batem em tetos de raciocínio em tarefas de longo horizonte. Sistemas multiagentes, com papéis especializados e passagens de bastão explícitas, são como os times estão contornando esses tetos hoje.
Força 3: os orçamentos corporativos se destravando
- A G2 relatou na sua pesquisa State of Software de 2026 que 57% das empresas têm agentes de IA em produção (acima de cerca de 20% um ano antes).
- A McKinsey constatou que 23% das empresas estão escalando ativamente a IA agêntica, com 62% em experimentação. Isso deixa apenas cerca de 15% das grandes organizações ainda à margem.
- A pesquisa de 2026 da Deloitte com 3.235 líderes corporativos identificou os serviços financeiros como o setor que mais adota, com um estudo de caso documentado de um agente de IA capturando e agindo sobre resultados de reuniões ao longo de um pipeline de negócios que antes exigia três analistas.
- O Enterprise AI Playbook de Stanford, publicado no início de 2026, catalogou 51 implantações em produção, com um caso de migração de ETL de uma fintech se tornando a implementação de referência para times de setores regulados.
- O investimento corporativo relatado em infraestrutura de IA ultrapassou US$ 600 bilhões no ciclo de 2025.
- Dario Amodei, da Anthropic, falando na conferência Code with Claude, deu uma probabilidade de 70 a 80% de a primeira empresa de uma só pessoa avaliada em um bilhão de dólares surgir em 2026, impulsionada por forças de trabalho de agentes.
O dinheiro está lá, o protocolo está lá e a arquitetura está lá. O que está sendo negociado em toda sala de reunião agora é quanta autonomia, sob qual governança e para quais fluxos de trabalho.
O argumento dos céticos: o que dizem o Reddit, o arXiv e os relatos de incidentes
Um olhar responsável sobre essa transição precisa dialogar seriamente com as pessoas que acham que a coisa toda está superestimada.
No Reddit, o consenso no r/LocalLLaMA, no r/ClaudeCode e no r/ChatGPT é pragmático: os agentes de programação chegaram e são úteis. A maioria dos outros "agentes" são fluxos de automação fantasiados de chatbot. A frase citada em dezenas de threads de 2026, "Use o Copilot quando você quer sugestões. Use o Claude Code ou o Cursor quando você quer que ele de fato faça algo", captura essa divisão produtiva. Essas mesmas comunidades são implacáveis com os benchmarks. Mesmo os melhores agentes marcam cerca de 60% no geral no Terminal-Bench e caem para 16% em tarefas difíceis. O Claude Opus 4.5 lidera o SWE-bench com 80,9%, o que ainda significa que uma tarefa em cada cinco falha.
O ceticismo acadêmico é mais difícil de descartar. Vishal Sikka (ex-CTO da SAP, aluno de John McCarthy) e seu colaborador publicaram Hallucination Stations: On Some Basic Limitations of Transformer-Based Language Models, argumentando matematicamente que LLMs baseados em transformer são fundamentalmente limitados na sua capacidade de executar tarefas computacionais e agênticas além de certo teto de complexidade. A conclusão de Sikka, "Não há como elas serem confiáveis" para operações altamente críticas, está circulando em todo Slack de CISO neste momento. O artigo não afirma que os agentes são inúteis. Ele afirma que existe uma classe de problema em que você não pode tirar o humano do circuito, por melhor que o modelo fique.
Incidentes reais reforçam o ceticismo. Um líder de CX do varejo citado na pesquisa de 2026 da Yellow.ai: "Tivemos que recuar com o nosso suporte de IA depois de apenas duas semanas, porque ele começou a citar políticas de devolução incorretas e a inventar ofertas de desconto em cerca de 1,35% dos tickets. O custo de honrar esses erros foi muito maior do que o que esperávamos economizar." Em escala, mesmo uma taxa de erro abaixo de 2% fica cara rapidamente.
A síntese: a IA em nível de colega é real em programação, pesquisa, operações estruturadas e fluxos de suporte estreitos. Ela ainda não é real em interações abertas voltadas ao cliente sem um revisor humano. As empresas que estão obtendo valor em 2026 são as que são honestas sobre a qual balde um fluxo de trabalho pertence.
Implicação prática: cinco perguntas antes de implantar
Se o seu time está avaliando um colega de IA (construído internamente ou de terceiros), estas são as perguntas que separam uma implantação de produção de um quase-acidente.
-
Qual é o raio de impacto da pior ação isolada que esse agente pode tomar? Mapeie isso literalmente. Se o pior caso é "envia um e-mail mal-acabado para a pessoa errada", a régua de governança é baixa. Se é "modifica dados de produção" ou "envia instruções de transferência bancária", a régua é uma ordem de grandeza mais alta. Mapeie antes de implantar, não depois do primeiro incidente.
-
Como o agente obtém suas credenciais, e ele alguma vez consegue ler o token bruto? Há três respostas, e só uma é segura. Se o agente tem uma cópia do token OAuth do usuário no seu ambiente, você basicamente entregou a sua carteira ao LLM. Se o agente tem uma identidade "própria" via uma conta de serviço OAuth separada, você precisa rastreá-la e revogá-la como um principal de verdade. A terceira resposta, que é o que você de fato quer: o token nunca chega ao agente. Ele vive na plataforma, criptografado, e é injetado na camada de proxy de rede no momento exato, apenas para chamadas que passaram em uma verificação de política, apenas até a chamada retornar.
-
Toda ação é registrada em algum lugar que um responsável por compliance consiga ler em ordem? Unificado, consultável, à prova de adulteração. Se a sua resposta é "temos alguns logs em algum lugar no CloudWatch", você não está pronto.
-
Você consegue delimitar o acesso a skills aos parâmetros específicos de que esse fluxo de trabalho precisa? Por chamada, não por integração. Ler vs. escrever. Por ID de recurso. Por janela de tempo. As permissões do agente devem ser um retângulo desenhado bem rente ao trabalho, não o armazém inteiro.
-
Qual é o plano de reversão se algo der errado? Como você desfaz uma ação? Com que rapidez? Quem é acionado? Ações irreversíveis (transferências de dinheiro, e-mails voltados ao cliente, deploys de produção) precisam de uma etapa de confirmação ou de uma janela de atraso. As reversíveis podem rodar de forma autônoma.
Trabalhe nas cinco. Se você consegue responder a todas, você já passou da era do copiloto e entrou na parte que de fato muda como o seu time entrega. Se você consegue responder a duas ou três, é aí que focar a seguir, e não um motivo para esperar. O colega em nível de teammate que o seu roadmap almeja já está rodando em produção em algum lugar hoje. A distância entre você e ele é uma lacuna de infraestrutura, não uma lacuna de IA de fronteira. E lacunas de infraestrutura se fecham rápido.
Você não precisa esperar o próximo lançamento de modelo. Você precisa escolher uma plataforma que já responda a essas cinco perguntas por você e começar a dar trabalho de verdade ao seu agente.
Perguntas frequentes
Qual é a real diferença entre um copiloto e um colega de IA?
Um copiloto sugere, pede permissão e vive dentro de uma única ferramenta. Um colega aceita objetivos, planeja entre sistemas, executa com permissões delimitadas e é responsável perante a mesma trilha de auditoria que um humano. A Bits&Chips colocou de forma limpa: copilotos operam no nível da interação, colegas operam no nível do fluxo de trabalho.
Como os agentes devem lidar com as credenciais do usuário?
Nenhuma das opções óbvias está certa. Copiar o token OAuth do usuário para o ambiente do agente coloca uma credencial ativa dentro do contexto do LLM. Criar uma identidade separada por agente transforma cada agente em um principal que você precisa rastrear, revogar e auditar como um humano. O padrão que funciona na prática é o acesso intermediado (brokered): o token vive na plataforma, criptografado; o proxy de rede de saída do sandbox chama de volta a plataforma no momento da requisição; a plataforma descriptografa o token e retorna apenas os cabeçalhos de autenticação resolvidos para chamadas que passaram em uma verificação de política; o próprio agente nunca lê, registra ou pede confirmação sobre o token bruto.
Computer use ou skills, qual escolher?
Skills por padrão, para qualquer coisa com uma API. Computer use apenas quando o sistema-alvo não tem nenhuma interface programável. O incidente do Codex da BeyondTrust é o conto de advertência: o computer use herda as permissões completas do usuário, e uma entrada maliciosa em qualquer lugar do campo de visão do agente pode virar um exploit.
Quão autônomos devemos de fato deixar os agentes rodarem?
Use o enquadramento de dois eixos da IMDA de Singapura: espaço de ação × autonomia. Um espaço de ação estreito (somente leitura, reversível) tolera alta autonomia. Um espaço de ação amplo (escritas, irreversível, voltado ao cliente) exige confirmação humana, ou uma janela com atraso de tempo para intervir. A pior configuração é alta autonomia em ações de alto risco sem trilha de auditoria.
Como medimos o ROI?
Pare de medir teclas economizadas. Meça fluxos de trabalho concluídos por hora humana gasta, tempo de resolução de incidentes operacionais e taxa de escape (tarefas que o agente devolveu a um humano). As constatações de 2026 da Deloitte sugerem que os principais adotantes estão acompanhando três métricas: taxa de conclusão de fluxos, taxa de erro e taxa de intervenção humana, otimizando a proporção entre elas.
O que fazemos a respeito da taxa de fracasso de 95% dos pilotos?
Leia com atenção a análise da NANDA do MIT. Os pilotos que fracassaram rodavam, em sua maioria, com "Dumb RAG" (jogar tudo no contexto), "Brittle Connectors" (integrações de API quebradas) e nenhuma arquitetura orientada a eventos. Os pilotos que tiveram sucesso tinham uma camada operacional em torno do LLM: memória, I/O e permissões. O kernel do LLM não é o gargalo. A infraestrutura ao redor é.
Onde a VM0 se encaixa
Construímos o Zero em torno de uma aposta arquitetural: o agente nunca deve segurar a credencial. Nem no seu ambiente, nem no seu prompt, nem na sua memória. O token permanece na plataforma. Toda chamada de saída que o agente faz é intermediada por um proxy de rede que decide, por chamada, se injeta um cabeçalho de autenticação ou bloqueia a requisição.
Essa é uma escolha incomum. Os padrões comuns em 2026 são ou dar ao agente sua própria identidade OAuth (agora você tem um segundo principal para auditar e revogar) ou entregar a ele uma cópia do token do usuário em uma variável de ambiente (agora o LLM pode ler a sua carteira). Não fazemos nenhum dos dois. Veja como funciona de verdade.
O token nunca chega ao agente. Quando você conecta um connector ao Zero (GitHub, Slack, Gmail, Linear, Notion, HubSpot e assim por diante), o token OAuth é armazenado criptografado na plataforma. Os refresh tokens ficam no banco de dados e nunca o deixam. Dentro do sandbox, não há uma variável de ambiente GITHUB_TOKEN para ler, nenhum arquivo de segredos para abrir, nenhuma ferramenta que retorne o token.
Um proxy de rede intermedeia cada chamada. Toda requisição HTTP que sai do sandbox passa por um addon baseado em mitmproxy. O proxy identifica o connector a partir do hostname da requisição, consulta a política de firewall daquele agente e verifica se o método-e-caminho é permitido. Se for, o proxy chama de volta o webhook da plataforma. A plataforma descriptografa o token, o renova se estiver expirado, resolve quaisquer templates de cabeçalho (${{ secrets.GITHUB_TOKEN }} vira o valor real) e retorna apenas os cabeçalhos de autenticação resolvidos para o proxy. O proxy injeta esses cabeçalhos na requisição de saída. Quando a chamada termina, os cabeçalhos somem da memória do proxy. O agente nunca os viu.
As permissões são por agente, por connector e tipadas no nível do endpoint. Cada agente carrega um objeto de política que mapeia cada connector a um conjunto de grupos de permissão nomeados. github:repo-read não é um escopo vago. É um pacote de regras específicas de método-e-caminho, por exemplo GET /repos/{owner}/{repo}/pulls. Conceder acesso ao GitHub não concede o GitHub. Concede um formato de intenção dentro do GitHub.
Três estados de política, não dois. Toda permissão resolve para allow, deny ou ask. O último pede confirmação a um humano antes de a ação disparar. Qualquer coisa que o firewall não corresponda explicitamente cai em uma unknownPolicy por connector, que tem deny como padrão. O menor privilégio é o padrão, não a opção a ativar.
Um sandbox por execução. Toda execução de agente roda dentro da sua própria microVM Firecracker, com um namespace de rede isolado. Quando a execução termina, o namespace é desmontado. Duas execuções do mesmo agente são dois sandboxes separados, com duas trilhas de auditoria separadas.
Trilha de auditoria por requisição. O mesmo proxy que decide allow/deny também escreve um log JSONL por execução, com metadados de firewall anexados a cada requisição: o connector, o grupo de permissão que correspondeu, a regra específica que correspondeu, a decisão, o timestamp. Esses logs voltam para a plataforma. Se um CISO precisar saber o que o agente fez em 14 de abril, entre 15h e 17h CST, é só uma consulta.
Uma CLI que explica as próprias negações. Quando uma permissão bloqueia uma chamada, o agente (ou o humano sentado ao lado dele) pode rodar zero doctor permission-deny <connector> --method <M> --path <P> e receber de volta o grupo de permissão exato que bloqueou a requisição, mais um link de remediação. O zero doctor permission-change permite que admins alternem uma permissão diretamente, ou permite que um membro envie uma solicitação por escrito (limitada a 500 caracteres, para que o raciocínio de fato se leia) que é roteada a um admin. Permissões de alto risco como slack:chat:write ou gmail.send disparam um aviso extra que aponta para uma alternativa mais segura, com escopo de bot.
Dois papéis, um fluxo de aprovação. Owners e admins alteram permissões diretamente. Membros enviam uma solicitação com um motivo, que é roteada a um admin. Não há um terceiro nível "meio-admin". O fluxo é pequeno o bastante para que as pessoas de fato o usem, que é todo o objetivo.
Reservamos o computer use para o conjunto estreito de sistemas legados que se recusam a expor uma API. Todo o resto passa por skills. Toda ação é verificada por política. Toda credencial permanece na plataforma. Toda decisão é registrada.
Se você já passou do "mais um autocomplete de IA" e quer experimentar um colega de IA que o seu time de segurança vai aprovar, veja como o Zero lida com fluxos de trabalho agendados, faça a triagem de incidentes de produção ou rode um briefing matinal de produto.
A era do copiloto não está acabando. Ela está sendo absorvida por algo maior. Os times que vão vencer o próximo ciclo são os que entendem a diferença.
Fontes
- From copilot to colleague: the rise of agentic AI, Bits&Chips
- Claude Code vs GitHub Copilot vs Cursor (2026): honest comparison, CosmicJS
- We tested 15 AI coding agents (2026). Only 3 changed how we ship, MorphLLM
- AI agent benchmarks 2026: performance, accuracy & cost compared, AIAgentSquare
- Best AI agents: what Reddit actually uses in 2026, AI Tool Discovery
- AI hallucinations in agents: lessons from enterprise deployments, Yellow.ai
- AI agents: unpacking the math, hallucinations, and the path to enterprise reliability, ARSA Technology
- The 2025 AI agent report: why AI pilots fail in production, Composio
- Why everyone is talking about Andrej Karpathy's autonomous AI research agent, Fortune
- A quote from Andrej Karpathy, Simon Willison
- The global race to govern AI agents has begun, DZone
- Your 2026 guide to choosing an AI colleague (ChatGPT, Gemini, or Claude), CIT
- The agentic AI revolution: how 2026 will reshape technology and statecraft, The National Interest
- One-person companies: the future of work with AI (2026), Taskade
- AI agent observability: a complete guide for 2026 & beyond, Atlan


