Logo
Blog Sem Codar
Calculando Custo de Tokens em Agentes de IA no n8n
N8N Agentes IA Monetização & Negócios

Calculando Custo de Tokens em Agentes de IA no n8n

Renato Asse

Ao criar automações inteligentes e agentes autônomos no n8n, uma das maiores preocupações é a previsibilidade de custos. Diferente de softwares com preço fixo, o uso de LLMs (como GPT-4, Claude 3.5 Sonnet ou DeepSeek) é cobrado por uso — especificamente, por tokens.

Entender a anatomia de uma requisição no n8n é fundamental para evitar surpresas na fatura da API no final do mês.

O Que Compõe o Custo Total?

O custo de uma interação com um Agente de IA não se resume apenas à pergunta do usuário e a resposta da IA. No ecossistema do n8n, a estrutura de custos é composta por quatro pilares principais:

  1. System Prompt (Instruções do Sistema): As regras que definem a personalidade e os limites do agente.
  2. Input do Usuário: A mensagem atual enviada.
  3. Histórico de Conversa (Memória): O contexto de mensagens anteriores que é reenviado a cada nova interação.
  4. Definição de Ferramentas (Tools): A descrição técnica das ferramentas conectadas ao agente.
  5. Output (Resposta): O texto gerado pela IA.

Nota: Geralmente, tokens de Output (geração) são significativamente mais caros que tokens de Input (leitura).

A Armadilha da Memória no n8n

O maior vilão dos custos em agentes conversacionais é o contexto. Quando você usa um nó de memória no n8n (como o Window Buffer Memory), a cada nova mensagem, o n8n reenvia todo o histórico permitido para a API.

Exemplo Prático de Acumulação

Imagine um cenário onde cada mensagem (usuário + resposta) consome 200 tokens. Se você configurar o Window Buffer para lembrar as últimas 10 interações:

  1. Interação 1: Envia 0 tokens de histórico.
  2. Interação 5: Envia 800 tokens de histórico (4 conversas anteriores) + a pergunta atual.
  3. Interação 10: Envia 1.800 tokens de histórico antes mesmo de processar a nova pergunta.

Se o seu agente possui um fluxo longo, o custo de Input cresce linearmente até atingir o limite da janela definida.

O Custo das Ferramentas (Function Calling)

No n8n, quando conectamos ferramentas ao AI Agent Node (como consultar um banco de dados, enviar e-mail ou buscar no Google), o n8n precisa “explicar” para a IA como essas ferramentas funcionam.

Essa explicação é feita enviando um esquema JSON para a LLM dentro do contexto. Se você conectar 10 ferramentas complexas, mesmo que o agente não as utilize, você estará pagando pelos tokens da descrição dessas ferramentas em todas as execuções.

Fórmula de Estimativa

Para calcular o custo estimado de uma execução, utilize a seguinte lógica:

Custo Total = (Tokens de Input * Preço/1M) + (Tokens de Output * Preço/1M)

Onde "Tokens de Input" =
  + System Prompt
  + Definição das Ferramentas (Schema)
  + Histórico de Conversa (Memória acumulada)
  + Mensagem Atual

Estratégias para Redução de Custos

Se a sua automação no n8n está ficando cara, considere estas otimizações:

1. Limite a Janela de Memória

No nó de memória, não deixe o histórico infinito. Defina um limite (Window Size) de 3 a 5 interações, o que geralmente é suficiente para manter o contexto sem estourar o orçamento.

2. Agentes Especialistas vs. Generalistas

Em vez de um único agente com 20 ferramentas, crie múltiplos agentes especialistas interconectados. Um agente de triagem (com um modelo mais barato e rápido, como o GPT-4o-mini) pode decidir para qual agente especialista encaminhar a tarefa.

3. Otimize as Descrições das Ferramentas

No n8n, a descrição que você coloca nos campos da ferramenta é enviada para a IA. Seja conciso e direto. Descrições verbosas consomem tokens desnecessários.

4. Use Modelos Híbridos

Para tarefas de raciocínio simples ou formatação de dados, utilize modelos mais baratos (Llama 3, GPT-4o-mini). Deixe os modelos de ponta (GPT-4o, Claude 3.5 Sonnet) apenas para tarefas que exigem raciocínio complexo ou criatividade elevada.

Monitorando no n8n

Para acompanhar o consumo real:

  1. Abra a execução do workflow no n8n.
  2. Clique no nó do AI Agent.
  3. Verifique a saída JSON. A maioria dos modelos retorna um objeto usage contendo prompt_tokens, completion_tokens e total_tokens.

Utilizar esses dados reais é a melhor forma de validar sua calculadora de custos antes de escalar sua operação.

Renato Asse

Renato Asse

Fundador da Comunidade Sem Codar

Renato Asse é fundador da Comunidade Sem Codar, a maior escola No Code e Inteligência Artificial da América Latina, com mais de 25 mil alunos formados.

Eleito o melhor professor de Bubble do mundo (#1), atua como embaixador oficial da Lovable, Bubble, FlutterFlow e WeWeb no Brasil. Pioneiro no setor, criou o primeiro canal de No Code no Youtube no país, alcançando mensalmente mais de 1 milhão de pessoas.