UltronChatUltronChat Docs
Agente de IA

Escolher modelo e parametros

Como escolher provider (OpenAI ou Anthropic), modelo, temperature, max tokens e delay de resposta do agente.

Os parametros do agente afetam custo, qualidade e "humanidade" das respostas. Esta pagina explica cada um.

Provider

O UltronChat suporta:

  • OpenAI — chave comeca com sk-.... Modelos comuns: gpt-4o, gpt-4o-mini, gpt-4-turbo.
  • Anthropic — chave comeca com sk-ant-.... Modelos comuns: claude-haiku-4-5, claude-sonnet-4-6, claude-opus-4-7.

Escolha baseado em:

  • Custo por tokengpt-4o-mini e claude-haiku-4-5 sao os mais baratos e geralmente suficientes para atendimento.
  • Qualidadeclaude-sonnet-4-6 e gpt-4o sao mais sofisticados, ideais se voce precisa de raciocinio complexo ou seguir regras intrincadas.
  • Chave que voce ja tem — se voce ja tem conta em um dos dois, comece por ele.

Modelo

O campo Modelo e texto livre — voce digita o identificador exato do modelo (gpt-4o-mini, claude-haiku-4-5, etc.). Se o modelo nao existir ou voce nao tiver acesso na sua chave, o agente sera pausado na primeira tentativa com erro 401/404.

Recomendacoes para atendimento de DM:

CenarioModelo sugerido
Baixo custo, respostas simplesgpt-4o-mini ou claude-haiku-4-5
Qualidade media, balanceadoclaude-sonnet-4-6
Maxima qualidade, raciociniogpt-4o ou claude-opus-4-7
Entende imagens (vision)gpt-4o, gpt-4o-mini, claude-sonnet-4-6

Atencao: modelos mudam rapido. Sempre cheque o nome atual no dashboard do OpenAI ou do Anthropic antes de salvar.

Temperature

Valor entre 0.0 e 1.0. Controla a criatividade / aleatoriedade.

  • 0.0 — determinista. Mesma pergunta sempre recebe a mesma resposta. Ideal para suporte tecnico, FAQ.
  • 0.3-0.5 — leve variacao. Bom para atendimento comercial casual.
  • 0.7-1.0 — mais criativo. Bom para conversa informal, marketing, personalidade forte.

Valores acima de 1.0 podem causar respostas incoerentes. Comece em 0.5 e ajuste conforme o feedback.

Max tokens

Limite de tokens da resposta. Nao inclui o prompt ou o historico — apenas o que o modelo gera.

  • 100-200 tokens — respostas curtas, tipo "ola, como posso ajudar?". Economico.
  • 300-500 tokens — respostas medias, permite 1-2 paragrafos com detalhes.
  • 1000+ — respostas longas. Geralmente desnecessario em DM; deixe em 500 e peca ao modelo para ser breve no system instruction.

Token ≈ 0.75 palavras em portugues. 500 tokens = ~375 palavras = ~5-7 frases medias.

Response delay (ms)

Pausa artificial antes de enviar a resposta, para dar impressao de "digitando". Valores sensatos:

  • 0 ms — responde instantaneamente. Parece bot.
  • 1500 ms (1.5s) — parece atendente rapido. Bom para mensagens curtas.
  • 3000-5000 ms (3-5s) — parece atendente humano em hora de pico. Bom para mensagens medias/longas.

Delay muito alto (acima de 10s) pode fazer o cliente sair da conversa. Recomendado: 1500-3500 ms.

Resumo — configuracao inicial recomendada

Se voce esta configurando um agente pela primeira vez:

Provider: OpenAI
Modelo: gpt-4o-mini
Temperature: 0.5
Max tokens: 500
Response delay: 2000

Teste com alguem de confianca, ajuste. Se as respostas estiverem muito curtas, aumente max tokens. Se estiverem genericas, aumente temperature ou melhore o system instruction.

Proximo passo

Ativar e pausar o agente — como ligar o agente para comecar a responder e como pausar quando necessario.

On this page