AI/ML – Як система прогнозує аварії в мереж

Як система прогнозує аварії в мережі ще до появи скарг абонентів

У сучасній мережі провайдера недостатньо просто збирати показники з обладнання. Значно важливіше – вчасно зрозуміти, коли вузол починає працювати нестабільно, навіть якщо він ще не перейшов у аварійний стан.

Саме для цього система використовує три незалежні модулі аналізу:

MetricPredictor – контролює сервери, комутатори, маршрутизатори, ДБЖ, кліматичне обладнання та інші інженерні системи.
OnuPredictor – аналізує стан абонентських ONU в мережах GPON/EPON.
SfpPredictor – відстежує роботу SFP/SFP+ модулів та магістральних оптичних ліній.

На відміну від класичних систем моніторингу, ~~вони~~алгоритми ML реагують не лише на перевищення порогів, а й аналізують тренди, швидкість зміни параметрів та взаємозв'язок між різними показниками. Завдяки цьому система здатна попереджати про проблеми ще до появи аварії або звернення абонентів.

Контроль інженерної інфраструктури

MetricPredictor - Перший модуль відповідає за моніторинг практично всіх системних параметрів обладнання.

Електроживлення та ДБЖ

Система контролює весь ланцюг живлення вузла.

Вона визначає:

повне зникнення зовнішнього живлення;
перехід обладнання на акумулятори;
критичний розряд UPS;
небезпечні просадки або перенапругу;
різкі стрибки напруги;
нестабільність частоти електромережі;
перевантаження по струму;
аномальне збільшення споживаної потужності.

Завдяки цьому оператор може заздалегідь побачити проблеми з електроживленням ще до відключення вузла.

Навантаження на обладнання

Система постійно аналізує використання процесора, оперативної пам'яті та накопичувачів.

Виявляються:

тривале перевантаження CPU;
різкі стрибки навантаження;
швидке зростання завантаження процесора;
нестача оперативної пам'яті;
заповнення дискової підсистеми.

Важливо, що використовуються гістерезис та аналіз тенденцій, тому система не створює зайвих сповіщень через короткочасні пікові навантаження.

Температура та клімат

Перегрів – одна з найчастіших причин нестабільної роботи обладнання.

Система контролює:

температуру компонентів;
швидкість її зростання;
роботу вентиляторів;
небезпечну вологість у шафах або серверних.

Окремо визначається ризик термічного розгону, коли навантаження процесора поступово призводить до критичного нагрівання.

Мережеві показники

Для мережевого обладнання аналізуються:

затримки;
втрати пакетів;
CRC-помилки;
зростання кількості помилок;
нестабільність бездротового сигналу.

Це дозволяє виявляти деградацію каналів ще до того, як вона стане помітною користувачам.

Контроль стану обладнання

Крім звичайних метрик система також реагує на:

спрацювання апаратних датчиків;
відкриття корпусів;
аварійні сигнали обладнання;
ситуації, коли обладнання перестало передавати телеметрію.

Навіть відсутність даних розглядається як окрема потенційна проблема.

Аналіз xPON мереж

OnuPredictor - Другий модуль спеціалізується виключно на роботі ONU. Його головна задача – знайти деградацію оптичної лінії ще до того, як абонент почне втрачати зв'язок.

Аналіз оптичного сигналу

Система відстежує:

поступове погіршення рівня RX;
нестабільний сигнал;
сильні коливання потужності;
різкі просідання RX або TX;
критично низький рівень прийому.

Замість реакції лише на критичний поріг аналізується історія вимірювань, що дозволяє виявити повільне старіння лінії.

Втрати на оптичній трасі

Окремо розраховуються втрати:

у напрямку OLT → ONU;
у напрямку ONU → OLT.

Якщо загасання перевищує допустимі значення або між напрямками виникає значна різниця, система повідомляє про можливі проблеми з волокном, зварками або роз'ємами.

Також контролюється оптичний дисбаланс між показниками ONU та OLT.

Стан лазера ONU

Одним із найкорисніших механізмів є оцінка ресурсу лазера.

Система визначає:

нестабільне живлення лазера;
початок деградації;
природне старіння;
майже повне вичерпання ресурсу.

Це дозволяє планувати заміну обладнання до його фактичної відмови.

Температура та відстань

Додатково аналізуються:

перегрів ONU;
робота при критично низьких температурах;
надто велика довжина оптичної лінії;
раптові зміни виміряної дистанції, які можуть свідчити про перемикання або аварійні роботи на трасі.

Моніторинг SFP-модулів

SfpPredictor - Третій модуль призначений для контролю магістральної оптики.

Він підтримує як класичні Ethernet-з'єднання, так і PON-порти.

Система контролює:

поступове погіршення RX;
нестабільність сигналу;
різкі просідання або стрибки потужності;
критично низький рівень прийому;
перевищення допустимої потужності передавача;
температуру SFP;
напругу живлення;
деградацію або старіння лазера.

Окремо враховуються особливості PON-модулів, для яких використовуються інші допустимі рівні оптичної потужності.

Інтелектуальні кореляції

Окрім аналізу окремих показників, система вміє зіставляти між собою різні події.

Наприклад:

якщо одночасно росте температура та навантаження процесора – визначається ризик термічного розгону;
якщо зникло зовнішнє живлення, а акумулятор UPS майже розрядився – система прогнозує неминуче вимкнення вузла;
якщо одночасно спостерігається деградація напруги та перегрів – це може свідчити про несправність блоку живлення, а не про зовнішні проблеми з електромережею.

Подібні сценарії значно скорочують кількість хибних спрацювань і допомагають оператору швидше знайти реальну причину несправності.

У сукупності MetricPredictor, OnuPredictor та SfpPredictor формують систему раннього виявлення несправностей, орієнтовану на практичні потреби інтернет-провайдерів. Вона не обмежується контролем порогових значень, а аналізує динаміку показників, історію вимірювань і взаємозв'язок між різними метриками. Це дозволяє виявляти деградацію обладнання, проблеми з електроживленням, оптичними лініями, кліматичними умовами та мережевою інфраструктурою ще до того, як вони вплинуть на якість послуг або призведуть до аварійного відключення.

Спосіб запуску навчання та аналізу через CLI

sudo -u www-data php artisan ml:analyze-metrics
sudo -u www-data php artisan ml:analyze-onu
sudo -u www-data php artisan ml:analyze-sfp
sudo -u www-data php artisan ml:train-metrics
sudo -u www-data php artisan ml:train-onu
sudo -u www-data php artisan ml:train-sfp

Приклад CRON

тренування раз в тиждень для ONU та SFP
тренування щодня для метрик
аналіз щодня для ONU
аналіз що дві години для SFP
аналіз щогодини для метрик

# === Analyze (every hour) ===
15 * * * * /usr/bin/php /var/www/html/artisan ml:analyze-metrics >> /tmp/analyze-metrics-`/bin/date +\%Y\%m\%d`.log 2>&1
10 */2 * * * /usr/bin/php /var/www/html/artisan ml:analyze-sfp >> /tmp/analyze-sfp-`/bin/date +\%Y\%m\%d`.log 2>&1

# === Analyze (every day) ===
20 2 * * * /usr/bin/php /var/www/html/artisan ml:analyze-onu >> /tmp/analyze-onu-`/bin/date +\%Y\%m\%d`.log 2>&1


# === Train (every night) ===
0 2 * * * /usr/bin/php /var/www/html/artisan ml:train-metrics >> /tmp/train-metrics-`/bin/date +\%Y\%m\%d`.log 2>&1

# === Train (every monday) ===
20 1 * * 1 /usr/bin/php /var/www/html/artisan ml:train-sfp >> /tmp/train-sfp-`/bin/date +\%Y\%m\%d`.log 2>&1
30 1 * * 1 /usr/bin/php /var/www/html/artisan ml:train-onu >> /tmp/train-onu-`/bin/date +\%Y\%m\%d`.log 2>&1

Тренування моделей та аналіз даних потребують відповідних обчислювальних ресурсів ЦП та RAM. Будь ласка, забезпечте достатній рівень продуктивності системи для коректного та ефективного виконання зазначених процесів.