Serviços › Observabilidade

Visibilidade total sobre o que, quanto e como o seu modelo consome.

Acompanhe custos, chamadas e conversas em tempo real. A AIVAX registra cada inferência com modelo, SKU, tokens e recurso utilizado — para que você tenha controle financeiro e operacional completo sobre a sua plataforma de IA.

Abrir dashboard Ver documentação

14.9M tokens de entrada

$11.52 custo do período

1.356 chamadas de inferência

4 modelos ativos

23 Mar 25 Mar 27 Mar 29 Mar

Custos discriminados

Cada real gasto, justificado por modelo e recurso.

Veja exatamente quanto cada modelo custa por período. A dashboard discrimina uso por modelo, SKU e recurso — gateways, RAG e chat clients separados, com detalhes de tokens de entrada, saída e cache.

Filtragem por mês e janela de tempo customizada
Discriminação por modelo, SKU e recurso utilizado
Visão de créditos, saldo e plano contratado
Gráfico de série temporal com múltiplos modelos

Uso por modelo · últimos 7 dias

@google/gemini-3.1-pro

$8.42

@openai/gpt-5.4

$2.07

@google/gemini-3-flash

$0.89

@inception/mercury-2

$0.14

Total do período $11.52

Histórico de uso

Cada chamada de API, com contexto completo.

Filtre por data, modelo ou recurso e veja o detalhamento exato de tokens consumidos, SKU cobrado e custo por requisição. Ideal para auditoria, chargebacks internos e controle de budget.

ID Request Hora Descrição SKU Qtd Custo

#1874 a12b 13:36 Inference (Model=@google/gemini-3.1-pro Iterations=29) inference.chat_completions.in.cached 192.373 $0.0385

#e634 a12b 13:36 Inference (Model=@google/gemini-3.1-pro Iterations=29) inference.chat_completions.out 9.461 $0.1135

Request total = $0.3654

#1551 bc84 12:15 Inference (Model=@google/gemini-3-flash Iterations=1) inference.chat_completions.out 114 $0.0003

#9a2d bc84 12:15 Inference (Model=@google/gemini-3-flash Iterations=1) inference.chat_completions.in 4.882 $0.0024

Request total = $0.0028

#e104 f9b5 11:37 Inference (Model=@openai/gpt-5.4 Iterations=1) inference.chat_completions.in.cached 7.424 $0.0019

#4069 f9b5 11:37 Inference (Model=@openai/gpt-5.4 Iterations=1) inference.chat_completions.out 8.766 $0.1315

Request total = $0.1380

Monitoramento de conversas

Histórico completo de cada troca com o modelo.

Visualize conversas, mensagens, tokens consumidos e respostas do modelo por chamada. O monitoramento é opt-in — você escolhe ativar por gateway, respeitando a privacidade dos dados de cada cliente.

Recurso opt-in — ativado por gateway. Nenhuma conversa é armazenada sem consentimento explícito.

Origem Atualizado Modelo Tokens Primeira mensagem

Chat completions API 29/03 13:36 há 1 hora @google / gemini-3.1-pro 308.5K authorization_verified = true authorization_source = security_console_signed…

Sessions API 29/03 12:15 há 3 horas @google / gemini-3-flash 5.0K [ACTIVATION REQUEST] This is a scheduled message that should be sent to the user now…

Chat completions API 29/03 11:37 há 3 horas @openai / gpt-5.4 18.0K Um prompt para um pentester. Basicamente o modelo irá fazer uma série de tentativas…

Sessions API 28/03 22:27 há 17 horas @inception / mercury-2 2.8K // Add NuGet package: AWSSDK.S3 // You can do this via the PM> Install-Package…

Qualidade e performance

Além do custo: latência, erros e eficiência.

A observabilidade vai além de quanto você gasta. Acompanhe a qualidade de cada modelo, identifique gargalos e optimize o uso antes que problemas cheguem aos seus usuários.

Latência p95

Acompanhe o percentil 95 de tempo de resposta por modelo e identifique quais gateways apresentam degradação de performance.

Taxa de erro

Monitore falhas de inferência, timeouts e respostas inválidas agrupadas por recurso, modelo e janela de tempo.

Custo por conversa

Calcule o custo médio por sessão de chat e por chamada de gateway, com drill-down até o nível de requisição individual.

Tokens por chamada

Identifique chamadas com contexto excessivo, optimize prompts de sistema e reduza custos sem perder qualidade de resposta.

Cache hit rate

Acompanhe quantas inferências aproveitam cache de tokens e quanto isso representa de economia acumulada por período.

Faturas consolidadas

Exporte relatórios de uso por período para faturamento interno, reports para stakeholders ou auditoria financeira.

Comece agora

Cada token tem uma história. Está na hora de lê-la.

A dashboard de observabilidade está disponível para todos os planos AIVAX, sem configuração adicional.

Acessar dashboard Ver documentação