niikn: самовосстановление обхода (netns-probe+heal+boot-self-heal на OpenWrt, watchdog LXC137) + внешний бэкап-сторож на HOSTKEY (dead-man's switch); скрипты в snippets/niikn-podkop

This commit is contained in:
dttb
2026-06-29 23:56:17 +03:00
parent cabcd11e0c
commit 5b2ffaf033
8 changed files with 254 additions and 2 deletions

View File

@@ -0,0 +1,69 @@
#!/bin/bash
# niikn-podkop-watchdog.sh — внешний сторож обхода НИИКН (OpenWrt 192.168.1.50). На LXC137, cron */5.
# Роутер лечится сам (podkop-selfcheck cron + boot-self-heal). Этот сторож делает ПРОБУ с позиции клиента
# (netns-probe на роутере) и АЛЕРТИТ Олегу + эскалирует (heal→reboot) с гистерезисом, если не лечится.
# Алертит отсюда, т.к. на коробке за обходом TG недостижим при сломанном обходе. Образец: benelux-podkop-watchdog.sh
export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin
ROUTER=192.168.1.50
SSH="sshpass -p 1qaz!QAZ ssh -o StrictHostKeyChecking=no -o ConnectTimeout=8 root@$ROUTER"
CFG=/root/.openclaw/openclaw.json
CHAT=1292155421
STATE=/root/.niikn-pk-wd.state
ALERT=/root/.niikn-pk-wd.alert
REBOOTS=/root/.niikn-pk-wd.reboots
COOLDOWN=/run/niikn-pk-wd.cooldown
COOLDOWN_SEC=300
REBOOT_CAP=2
TOKEN=$(grep -oE '[0-9]{8,}:[A-Za-z0-9_-]{30,}' "$CFG" 2>/dev/null | head -1)
send(){
[ -n "$TOKEN" ] && curl -s --max-time 20 "https://api.telegram.org/bot${TOKEN}/sendMessage" \
--data-urlencode "chat_id=$CHAT" --data-urlencode "text=$1" >/dev/null 2>&1
[ -f /root/.wd-mail.env ] && . /root/.wd-mail.env
if [ -n "${MAILTO:-}" ]; then
printf 'From: dttb watchdog <%s>\nTo: %s\nSubject: %s\nMIME-Version: 1.0\nContent-Type: text/plain; charset=UTF-8\nContent-Transfer-Encoding: 8bit\nDate: %s\n\n%s\n' \
"$SMTPUSER" "$MAILTO" "[NIIKN podkop] watchdog" "$(date -R)" "$1" > /tmp/.niiknwd.eml
curl -s --max-time 25 --url "smtp://${MAILHOST}:587" --ssl-reqd --resolve "${MAILHOST}:587:${MAILIP}" \
--mail-from "$SMTPUSER" --mail-rcpt "$MAILTO" --user "${SMTPUSER}:${SMTPPASS}" --upload-file /tmp/.niiknwd.eml >/dev/null 2>&1
fi
}
NOW=$(date +%s); TODAY=$(date +%F)
# роутер/проба достижимы?
if ! $SSH 'test -x /usr/local/bin/podkop-probe.sh' 2>/dev/null; then
if ping -c2 -W2 "$ROUTER" >/dev/null 2>&1; then iss="• OpenWrt НИИКН пингуется, но SSH/probe недоступен (NetBird/dropbear?).\n"
else iss="• OpenWrt НИИКН ($ROUTER) недоступен (ни ping, ни SSH) — туннель/роутер/VM лёг.\n"; fi
h=$(printf '%s' "$iss" | md5sum | cut -d' ' -f1)
[ "$(cat "$ALERT" 2>/dev/null)" = "$h" ] && exit 0
echo "$h" > "$ALERT"; send "$(printf '⚠️ Обход НИИКН:\n%b' "$iss")"; echo "UNREACHABLE"; exit 0
fi
$SSH '/usr/local/bin/podkop-probe.sh' 2>/dev/null; rc=$?
if [ "$rc" = "0" ]; then
rm -f "$STATE"
if [ -f "$ALERT" ]; then send "✅ Обход НИИКН снова работает (проба с клиента OK)."; rm -f "$ALERT"; fi
echo "OK: обход НИИКН здоров (проба с клиента)."; exit 0
fi
[ "$rc" = "2" ] && { echo "infra (DNS/netns) — не лечим podkop"; exit 0; }
# rc=1 — сломан. Гистерезис: даём роутеру шанс полечиться самому (selfcheck) до 2 провалов.
FAILS=0; STEP=0; [ -f "$STATE" ] && read -r FAILS STEP < "$STATE"; FAILS=$((${FAILS:-0}+1))
if [ "$FAILS" -lt 2 ]; then echo "$FAILS $STEP" > "$STATE"; echo "DEGRADED $FAILS/2 (жду самолечения роутера)"; exit 0; fi
if [ -f "$COOLDOWN" ] && [ $((NOW-$(cat "$COOLDOWN" 2>/dev/null||echo 0))) -lt "$COOLDOWN_SEC" ]; then echo "$FAILS $STEP" > "$STATE"; echo cooldown; exit 0; fi
iss="• Обход НИИКН сломан с позиции клиента ($FAILS проб подряд, роутер сам не вылечил).\n"; heal=""
case "$STEP" in
0) $SSH '/usr/local/bin/podkop-heal.sh' >/dev/null 2>&1
heal="🔧 Шаг1: принудительный heal (restart podkop + cache + dnsmasq).\n"; STEP=1; echo "$NOW" > "$COOLDOWN" ;;
1) RDAY=""; RCNT=0; [ -f "$REBOOTS" ] && read -r RDAY RCNT < "$REBOOTS"; [ "$RDAY" != "$TODAY" ] && { RDAY=$TODAY; RCNT=0; }
if [ "${RCNT:-0}" -lt "$REBOOT_CAP" ]; then
$SSH 'reboot' >/dev/null 2>&1; echo "$TODAY $((RCNT+1))" > "$REBOOTS"
heal="🔧 Шаг2: heal не помог → перезагружаю роутер (ребут $((RCNT+1))/$REBOOT_CAP сегодня).\n"; STEP=2; echo "$NOW" > "$COOLDOWN"
else iss="${iss}• Лимит ребутов на сегодня исчерпан.\n"; STEP=2; fi ;;
*) iss="${iss}• Автолечение не помогло (все шаги пройдены) — нужно руками.\n" ;;
esac
echo "$FAILS $STEP" > "$STATE"
h=$(printf '%s%s' "$iss" "$heal" | md5sum | cut -d' ' -f1)
[ "$(cat "$ALERT" 2>/dev/null)" = "$h" ] && exit 0
echo "$h" > "$ALERT"
send "$(printf '⚠️ Обход НИИКН — сбой:\n%b\n%b' "$iss" "$heal")"