You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
orquestrador/app
Vitor Hugo Belorio Simão 3bc23e63d1 perf(llm): reduzir latência com warmup, cache e execução não bloqueante
- inicializa Vertex AI uma única vez por processo
- adiciona cache de modelos GenerativeModel por nome
- adiciona cache da conversão de tools para formato Vertex
- executa send_message em asyncio.to_thread para não bloquear o loop async
- adiciona método warmup no LLMService (best effort)
- executa warmup no startup da API FastAPI
- executa warmup no startup do Telegram Satellite

🎯 Resultado esperado:
- menor latência no primeiro request (cold start)
- menor overhead por requisição subsequente
- melhor throughput em cenários concorrentes
1 month ago
..
api feat(review-api): adicionar fluxos de listar, cancelar e remarcar revisao 1 month ago
core ♻️ chore: remove artefatos legados de deploy no Google Cloud e limpa documentacao de infraestrutura antiga 1 month ago
db feat(review-api): adicionar fluxos de listar, cancelar e remarcar revisao 1 month ago
integrations perf(llm): reduzir latência com warmup, cache e execução não bloqueante 1 month ago
models feat: Definindo o o modelo para as Tools. 2 months ago
repositories ♻️ refactor(orquestrador): consolidar contexto multiassunto com continuidade automática 1 month ago
services perf(llm): reduzir latência com warmup, cache e execução não bloqueante 1 month ago
main.py perf(llm): reduzir latência com warmup, cache e execução não bloqueante 1 month ago