Serviços › Gateways de IA

O maestro de cada conversa inteligente.

Um AI Gateway é o ponto central onde instruções, modelos, ferramentas e contexto se encontram. Você define as regras uma vez e cada interação segue esse roteiro — com precisão, consistência e governança.

O que é

Mais do que um proxy de modelos.

A maioria das soluções de inferência te dá acesso a um modelo e deixa todo o resto com você. Um AI Gateway da AIVAX encapsula o comportamento do agente: as instruções fixas, o modelo escolhido, as coleções de conhecimento vinculadas, as ferramentas disponíveis, as regras de moderação e a validação de saída — tudo como configuração, não como código.

Quando alguém chama o endpoint do gateway, ele já sabe como se comportar. Você não precisa repassar o contexto toda vez.

Sem gateway
  • Instruções hardcoded no cliente
  • Contexto remontado a cada chamada
  • Ferramentas gerenciadas manualmente
  • Sem camada de moderação
Com AI Gateway
  • Comportamento centralizado como config
  • Contexto e ferramentas injetados pelo pipeline
  • Moderação e validação automáticas
  • Um endpoint, múltiplos clientes

Casos de uso

O que você pode construir com gateways.

Do assistente de suporte ao agente de vendas — cada caso tem características diferentes, e o gateway cuida de cada um sem você precisar escrever um novo sistema.

Moderação de conteúdo

Adicione workers que analisam entrada e saída em tempo real. Bloqueie, edite ou sinalize mensagens inapropriadas antes de chegarem ao usuário final — sem alterar o modelo.

Modelo com RAG incorporado

Conecte coleções semânticas diretamente ao gateway. Cada inferência busca automaticamente os trechos mais relevantes e os injeta no contexto antes de chamar o modelo.

Sub-agentes MCP

Use servidores MCP externos como ferramentas do seu gateway. Crie arquiteturas de agentes aninhados onde cada gateway delega tarefas especializadas a outros.

Skills e instruções dinâmicas

Carregue instruções especializadas sob demanda. O gateway decide quando acionar cada skill baseado no contexto da conversa — economiza tokens e aumenta precisão.

Economia de custo

Truncamento automático de contexto, complexity routing entre modelos e caching de respostas repetidas. Pague menos sem sacrificar qualidade.

Saída estruturada garantida

JSON Healing automático valida e corrige a saída até conformidade com seu schema — mesmo em modelos sem suporte nativo a structured output.

Pipeline de inferência

Cada mensagem passa por um pipeline controlado.

O pipeline do gateway é configurável: você escolhe quais etapas ativar, em qual ordem e sob quais condições. Não há "caixa-preta" — cada decisão é rastreável.

Entrada Mensagem do usuário chega via API ou chat
Workers de entrada Moderação, detecção de intenção, filtros
Contexto RAG Busca semântica nas coleções vinculadas
Modelo de linguagem Inferência com contexto completo montado
Validação de saída JSON Healing, conformidade com schema
Entrega Resposta processada ao cliente

Integração

Um endpoint. Qualquer SDK OpenAI.

Crie o gateway no console, copie o slug e use qualquer biblioteca compatível com OpenAI. Nada muda no seu código exceto a URL base e o modelo — que agora é o identificador do seu gateway.

  • Compatível com Python, Node.js, Go, Ruby e mais
  • Streaming via Server-Sent Events
  • Tool calls nativas pelo protocolo OpenAI
  • BYOK: use sua própria chave de API do provedor
gateway.sh curl
curl -X POST https://inference.aivax.net/v1/chat/completions \
  -H "Authorization: ak_sua_chave" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "suporte-tecnico:a1b2",
    "messages": [
      {"role": "user", "content": "Qual o status do meu pedido?"}
    ]
  }'

Workers

Hooks remotos em cada etapa do pipeline.

Workers são funções remotas chamadas pelo gateway em momentos específicos do pipeline. Você pode inspecionar, modificar ou bloquear qualquer mensagem sem alterar o endpoint principal.

Pré-inferência

Workers de entrada

Executam antes do modelo receber a mensagem. Use para: moderação de conteúdo, enriquecimento de contexto, roteamento condicional para diferentes gateways, autenticação e controle de rate limit por usuário.

Pós-inferência

Workers de saída

Executam após o modelo gerar a resposta. Use para: redação de dados sensíveis, validação de conformidade, transformação de formato, logging estruturado para auditoria e disparo de ações externas via webhook.

Assíncrono

Workers de background

Executam em paralelo sem bloquear a resposta. Use para: analytics em tempo real, indexação automática de conversas no RAG, notificações e integrações com CRM ou sistemas de suporte.

Próximo passo

Crie seu primeiro AI Gateway em minutos.

A documentação cobre em detalhes cada parâmetro de configuração, workers e casos de uso avançados.