diff --git a/decisions/2026-06-18-german-hermes-agent-deploy.md b/decisions/2026-06-18-german-hermes-agent-deploy.md index 3f1c077..7565043 100644 --- a/decisions/2026-06-18-german-hermes-agent-deploy.md +++ b/decisions/2026-06-18-german-hermes-agent-deploy.md @@ -15,7 +15,8 @@ tags: [decision, ai, hermes, telegram, lxc, assistant] ## Модель - Провайдер **OmniRoute** (OpenAI-совместимый шлюз на LXC 132): `base_url http://10.0.0.179:20128/v1`. -- **Активная модель: `kr/claude-sonnet-4.5`** (free, Kiro/AWS — основная free-модель из CLAUDE.md). +- **Активная модель: `cc/claude-opus-4-8`** (Opus 4.8 via Max) + fallback `kr/claude-sonnet-4.5` (free). +- **КОРЕНЬ 400 «out of extra usage» (исправленное понимание):** это НЕ персистентное исчерпание квоты. Олег верно заметил: «если бы лимиты — ты (Claude на Opus 4.8) тоже бы не работал». Проверка по факту 2026-06-18 ~22:30: `curl cc/claude-opus-4-8` к OmniRoute с system-prompt 14B / 2КБ / 8КБ → **все 200**. То есть 400 в 19:11/19:18 был **транзиентным** — краткий кап 5-часового окна Max в момент пиковой нагрузки (Max делят this-session/German/openclaw/swarmclaw/code-server). Окно отпускает само. Если 400 участятся — включить overflow (pay-as-you-go) на claude.ai/settings/usage. - ⚠️ **`cc/claude-opus-4-8` (Max) ФЛАПАЕТ** `400: You're out of extra usage`: прямой curl к OmniRoute то проходит (19:16), то нет — реальные запросы Олега падали (19:11 «Привет», 19:18 «Бенелюкс», разные request_id). Причина: включённая Max-квота Opus в текущем окне исчерпана (overflow/pay-as-you-go выключен), а окно делят **openclaw (cc/opus-4-7) + swarmclaw (cc/opus-4-8) + code-server** через тот же OmniRoute `cc/*`. - **400 — non-retryable BadRequestError → fallback НЕ срабатывает** (Hermes уводит в fallback только на rate-limit/5xx/connection). Поэтому fallback на Sonnet от Opus-400 не спасает. - **Решение: primary = `kr/claude-sonnet-4.5`** (free, Kiro/AWS, не флапает, не ест Max-квоту, не конкурирует с другими ботами Олега). Проверено: запрос «Бенелюкс» через тулы вернул корректную сводку по KB. diff --git a/projects/dttb/proxmox-inventory.md b/projects/dttb/proxmox-inventory.md index 16578ab..c26d7fd 100644 --- a/projects/dttb/proxmox-inventory.md +++ b/projects/dttb/proxmox-inventory.md @@ -224,7 +224,7 @@ tags: [dttb, proxmox] | ОС/рантайм | Debian 12, unprivileged + nesting, Hermes Agent v0.16.0 (Python, `/usr/local/lib/hermes-agent`, данные `/root/.hermes`) | | Ресурсы | 2 vCPU / 3 GB / 12 GB (rootfs на local-lvm) | | Telegram | бот **«Герман Непомнящий»** @german_dttb_bot — заперт на Олега (`TELEGRAM_ALLOWED_USERS=1292155421`) | -| Модель | `kr/claude-sonnet-4.5` (free, Kiro/AWS) через OmniRoute (`http://10.0.0.179:20128/v1`), auxiliary→main. ⚠️ `cc/claude-opus-4-8` (Max) **флапает** 400 «out of extra usage» (окно Max-Opus делят openclaw/swarmclaw/code-server); 400 non-retryable → fallback НЕ ловит → primary держим на Sonnet. Вернуть Opus: `sed -i 's\|kr/claude-sonnet-4.5\|cc/claude-opus-4-8\|' /root/.hermes/config.yaml && systemctl restart hermes-german` | +| Модель | **`cc/claude-opus-4-8`** (Opus 4.8 via Max) через OmniRoute (`http://10.0.0.179:20128/v1`), fallback `kr/claude-sonnet-4.5` (free), auxiliary→main. ⚠️ 400 «out of extra usage» бывает **транзиентным** (краткий 5-час кап Max при общей нагрузке me/German/openclaw/swarmclaw/code-server) — само отпускает; проверка `curl cc/claude-opus-4-8` (small+8KB) = 200. Если 400 участятся — включить overflow на claude.ai/settings/usage | | Workspace | `/root/german` (KB-зеркало `knowledge-base/` RO, cron `*/15` pull; `notes/` writable) | | Сервис | systemd `hermes-german.service` (`hermes gateway run --replace`) | | Tags | ai, assistant, hermes |