Escolher modelo e parametros
Como escolher provider (OpenAI ou Anthropic), modelo, temperature, max tokens e delay de resposta do agente.
Os parametros do agente afetam custo, qualidade e "humanidade" das respostas. Esta pagina explica cada um.
Provider
O UltronChat suporta:
- OpenAI — chave comeca com
sk-.... Modelos comuns:gpt-4o,gpt-4o-mini,gpt-4-turbo. - Anthropic — chave comeca com
sk-ant-.... Modelos comuns:claude-haiku-4-5,claude-sonnet-4-6,claude-opus-4-7.
Escolha baseado em:
- Custo por token —
gpt-4o-minieclaude-haiku-4-5sao os mais baratos e geralmente suficientes para atendimento. - Qualidade —
claude-sonnet-4-6egpt-4osao mais sofisticados, ideais se voce precisa de raciocinio complexo ou seguir regras intrincadas. - Chave que voce ja tem — se voce ja tem conta em um dos dois, comece por ele.
Modelo
O campo Modelo e texto livre — voce digita o identificador exato do modelo (gpt-4o-mini, claude-haiku-4-5, etc.). Se o modelo nao existir ou voce nao tiver acesso na sua chave, o agente sera pausado na primeira tentativa com erro 401/404.
Recomendacoes para atendimento de DM:
| Cenario | Modelo sugerido |
|---|---|
| Baixo custo, respostas simples | gpt-4o-mini ou claude-haiku-4-5 |
| Qualidade media, balanceado | claude-sonnet-4-6 |
| Maxima qualidade, raciocinio | gpt-4o ou claude-opus-4-7 |
| Entende imagens (vision) | gpt-4o, gpt-4o-mini, claude-sonnet-4-6 |
Atencao: modelos mudam rapido. Sempre cheque o nome atual no dashboard do OpenAI ou do Anthropic antes de salvar.
Temperature
Valor entre 0.0 e 1.0. Controla a criatividade / aleatoriedade.
- 0.0 — determinista. Mesma pergunta sempre recebe a mesma resposta. Ideal para suporte tecnico, FAQ.
- 0.3-0.5 — leve variacao. Bom para atendimento comercial casual.
- 0.7-1.0 — mais criativo. Bom para conversa informal, marketing, personalidade forte.
Valores acima de 1.0 podem causar respostas incoerentes. Comece em 0.5 e ajuste conforme o feedback.
Max tokens
Limite de tokens da resposta. Nao inclui o prompt ou o historico — apenas o que o modelo gera.
- 100-200 tokens — respostas curtas, tipo "ola, como posso ajudar?". Economico.
- 300-500 tokens — respostas medias, permite 1-2 paragrafos com detalhes.
- 1000+ — respostas longas. Geralmente desnecessario em DM; deixe em 500 e peca ao modelo para ser breve no system instruction.
Token ≈ 0.75 palavras em portugues. 500 tokens = ~375 palavras = ~5-7 frases medias.
Response delay (ms)
Pausa artificial antes de enviar a resposta, para dar impressao de "digitando". Valores sensatos:
- 0 ms — responde instantaneamente. Parece bot.
- 1500 ms (1.5s) — parece atendente rapido. Bom para mensagens curtas.
- 3000-5000 ms (3-5s) — parece atendente humano em hora de pico. Bom para mensagens medias/longas.
Delay muito alto (acima de 10s) pode fazer o cliente sair da conversa. Recomendado: 1500-3500 ms.
Resumo — configuracao inicial recomendada
Se voce esta configurando um agente pela primeira vez:
Provider: OpenAI
Modelo: gpt-4o-mini
Temperature: 0.5
Max tokens: 500
Response delay: 2000
Teste com alguem de confianca, ajuste. Se as respostas estiverem muito curtas, aumente max tokens. Se estiverem genericas, aumente temperature ou melhore o system instruction.
Proximo passo
Ativar e pausar o agente — como ligar o agente para comecar a responder e como pausar quando necessario.