Escolher modelo e parametros

Como escolher provider (OpenAI ou Anthropic), modelo, temperature, max tokens e delay de resposta do agente.

Os parametros do agente afetam custo, qualidade e "humanidade" das respostas. Esta pagina explica cada um.

Provider

O UltronChat suporta:

OpenAI — chave comeca com sk-.... Modelos comuns: gpt-4o, gpt-4o-mini, gpt-4-turbo.
Anthropic — chave comeca com sk-ant-.... Modelos comuns: claude-haiku-4-5, claude-sonnet-4-6, claude-opus-4-7.

Escolha baseado em:

Custo por token — gpt-4o-mini e claude-haiku-4-5 sao os mais baratos e geralmente suficientes para atendimento.
Qualidade — claude-sonnet-4-6 e gpt-4o sao mais sofisticados, ideais se voce precisa de raciocinio complexo ou seguir regras intrincadas.
Chave que voce ja tem — se voce ja tem conta em um dos dois, comece por ele.

Modelo

O campo Modelo e texto livre — voce digita o identificador exato do modelo (gpt-4o-mini, claude-haiku-4-5, etc.). Se o modelo nao existir ou voce nao tiver acesso na sua chave, o agente sera pausado na primeira tentativa com erro 401/404.

Recomendacoes para atendimento de DM:

Cenario	Modelo sugerido
Baixo custo, respostas simples	`gpt-4o-mini` ou `claude-haiku-4-5`
Qualidade media, balanceado	`claude-sonnet-4-6`
Maxima qualidade, raciocinio	`gpt-4o` ou `claude-opus-4-7`
Entende imagens (vision)	`gpt-4o`, `gpt-4o-mini`, `claude-sonnet-4-6`

Atencao: modelos mudam rapido. Sempre cheque o nome atual no dashboard do OpenAI ou do Anthropic antes de salvar.

Temperature

Valor entre 0.0 e 1.0. Controla a criatividade / aleatoriedade.

0.0 — determinista. Mesma pergunta sempre recebe a mesma resposta. Ideal para suporte tecnico, FAQ.
0.3-0.5 — leve variacao. Bom para atendimento comercial casual.
0.7-1.0 — mais criativo. Bom para conversa informal, marketing, personalidade forte.

Valores acima de 1.0 podem causar respostas incoerentes. Comece em 0.5 e ajuste conforme o feedback.

Max tokens

Limite de tokens da resposta. Nao inclui o prompt ou o historico — apenas o que o modelo gera.

100-200 tokens — respostas curtas, tipo "ola, como posso ajudar?". Economico.
300-500 tokens — respostas medias, permite 1-2 paragrafos com detalhes.
1000+ — respostas longas. Geralmente desnecessario em DM; deixe em 500 e peca ao modelo para ser breve no system instruction.

Token ≈ 0.75 palavras em portugues. 500 tokens = ~375 palavras = ~5-7 frases medias.

Response delay (ms)

Pausa artificial antes de enviar a resposta, para dar impressao de "digitando". Valores sensatos:

0 ms — responde instantaneamente. Parece bot.
1500 ms (1.5s) — parece atendente rapido. Bom para mensagens curtas.
3000-5000 ms (3-5s) — parece atendente humano em hora de pico. Bom para mensagens medias/longas.

Delay muito alto (acima de 10s) pode fazer o cliente sair da conversa. Recomendado: 1500-3500 ms.

Resumo — configuracao inicial recomendada

Se voce esta configurando um agente pela primeira vez:

Provider: OpenAI
Modelo: gpt-4o-mini
Temperature: 0.5
Max tokens: 500
Response delay: 2000

Teste com alguem de confianca, ajuste. Se as respostas estiverem muito curtas, aumente max tokens. Se estiverem genericas, aumente temperature ou melhore o system instruction.

Proximo passo

Ativar e pausar o agente — como ligar o agente para comecar a responder e como pausar quando necessario.