Интервью сВышкварковой Еленой Васильевной, кандидатом географических наук, ведущим научным сотрудником Лаборатории крупномасштабного взаимодействия океана и атмосферы и изменений климата Института природно-технических систем. Тема нашего разговора — заявленный план работ по грантуРНФ № 23-29-00558«Обнаружение аномалий в данных активности моллюсков алгоритмами машинного обучения для формирования сигнала тревоги в комплексах автоматизированного биомониторинга водной среды» (2023–2024 гг.) Научный коллектив – к.г.н. Вышкваркова Е.В. (руководитель), к.т.н. Греков А.Н., к.б.н. Трусевич В.В., Маврин А.С. Основной задачей проекта было улучшение качества и уменьшение времени при обнаружении аномалий в данных активности моллюсков для формирования сигнала тревоги комплексом автоматизированного биомониторинга водной среды. Заявленный план работ выполнен в полном объеме.
Интервьюер: Проведено обобщение данных об активности двустворчатых моллюсков с трех локаций. В данных экспертным методом выделены три аномалии (первая – 19 марта 2017 года, вторая – 14 апреля, и третья – 24 апреля 2017 года). Эффективность алгоритмов машинного обучения оценивалась по времени обнаружения этих аномалий, а также по вычислительной сложности каждого метода.Елена Васильевна,подскажите, Какие алгоритмы применены были в работе?
Елена Васильевна:Для обнаружения аномалий применены алгоритмы машинного обучения без учителя (эллиптическая огибающая — elliptic envelope, изолирующий лес iForest, одноклассовый метод опорных векторов — one-class SVM и локальный уровень выбросов — LOF), прогнозные модели ARIMA, Theta, Prophet, Croston и метод ядерной оценки плотности (ЯОП). Для каждого алгоритма проведен выбор и настройка оптимальных гипермараметров, таких как уровень загрязнения (contamination rate), время осреднения данных, масштабирование, стандартизация и другие. Сравнение методов по времени отклика показало преимущество алгоритма IForest.
Для обнаружения аномалий в рядах активности двустворчатых моллюсков с использованием прогнозных моделей была проведена декомпозиция временных рядов, которая показала наличие сезонности в данных и необходимость использования модели ARIMA с сезонной составляющей (SARIMA). При применении прогнозных алгоритмов (Theta, Croston и Prophet) для каждого метода выбраны фиксированные пороги среднеквадратической ошибки, при котором возникает наибольшая ошибка при отсутствии аномалии плюс десятипроцентный запас прочности необходимый для работы в реальной системе, для исключения ложных срабатываний. Лучшее время обнаружения первой аномалии получено методом Prophet. Лучшее время обнаружения второй и третьей аномалии оказалось одинаковым для трех методов при одних и тех же настройках модели.
Для обнаружения аномалий методом ЯОП использованы несколько функций ядра (например, Гауссово ядро, Экспоненциальное ядро и др.), а параметр сглаживания (ширина окна) рассчитывался двумя способами: с помощью правил Скотта и Сильвермана.
Сравнение результатов обнаружения аномалий моделью ARIMA с оценками обнаружения аномалий с использованием четырёх алгоритмов машинного обучения без учителя на примере одной аномалии показало, что использование алгоритмов без учителя даёт небольшое преимущество в 10 минут по скорости обнаружения аномалии. Однако вычислительная сложность алгоритмов без учителя оказалась на несколько порядков выше по сравнению с моделью SARIMA. Сравнение прогнозных моделей показало, что для одной из аномалий наилучшим методом оказался Prophet, а для двух других время обнаружения аномалии не различалось между методами. Метод Prophet смог обнаружить первую аномалию на 1 час 20 минут быстрее, чем модель SARIMA и ЯОП. Время обнаружения второй аномалии тремя проанализированными алгоритмами улучшилось на 25 минут, а третьей аномалии улучшилось на 40 минут по сравнению с моделью SARIMA. Третья аномалия (24 апреля) была обнаружена методом ЯОП на 20 минут раньше, чем другими методами. По вычислительной сложности лучшим методом оказался Croston.
Выделение закономерностей (паттернов) в данных проведено методами классификации (Алгоритм k-ближайших соседей (k-nearest neighbors, KNN) и классификатор области ближайших соседей (Radius Neighbors -RN), кластеризации (k-means и K-medoids) и методом матричный профиль. Лучшие результаты по всему набору данных показал метод KNN.
Выделение мотивов проведено для трех временных промежутков – дневное время, ночное время и период с аномалиями. Результаты показали, что поиск типичных подпоследовательностей с помощью матричного профиля приводит к выделению простых областей в данных активности двустворчатых моллюсков. Коррекция матричного профиля с помощью вектора аннотации на основе оценки сложности значительно улучшило результаты поиска мотивов в данных.
Анализ данных и реализация разработанного алгоритма проводились на языке программирования Python с использованием пакетов и библиотек для обработки данных.
Наши результаты показывают, что природные и технические аномалии в наборах данных об активности двустворчатых моллюсков можно обнаружить с помощью алгоритмов машинного обучения без учителя и прогнозными моделями. Лучшим методом по скорости обнаружения аномалий оказался метод Prophet.
Интервьюер: Где будет внедрен ваш метод?
Елена Васильевна:Разработанный алгоритм будет внедрен в программное обеспечение автоматизированного комплекса биомониторинга водной среды.
Проведенная работа имеет важное значение для повышения эффективности прогнозирования аномалий в данных об активности двустворчатых моллюсков, используемых при экологическом мониторинге состояния водной среды, что будет способствовать снижению затрат, связанных с оперативным, тактическим и стратегическим планированием.
Интервьюер:Ваш проект стал интересен не только научном миру,но и представителям СМИ. В каких изданиях были публикации? И на телевидении?
Елена Васильевна:Исследование получило широкое освещение в СМИ. Информация с результатами, полученными в ходе реализации проекта, опубликована на сайте Российского научного фонда, на федеральном канале “РЕН-ТВ”, в газетах “Аргументы и факты” и “Севастопольская газета”, на сайте государственного информационного агентства ТАСС, и на более чем десяти информационных порталах:
https://rscf.ru/news/release/ne-tolko-delikates-s-pomoshchyu-midiy-imetodovmashinnogo-obucheniya—sozdan—algoritm—dlya—monitorin/https://иптс.рф/ru/2024/05/29/mollyuski—budut—vyyavlyat—anomalii/https://nauka.tass.ru/nauka/21251119
https://scientificrussia.ru/articles/ne-tolko-delikates-midii-i-masinnoe-obuceniepomogut-sledit-za-vodnoj-sredojhttps://poisknews.ru/ekologiya/ne-tolko-delikates-s-pomoshhyu-midij-i-metodovmashinnogo-obucheniya-sozdan-algoritm-dlya-monitoringa-vodnoj-sredy/https://inscience.news/ru/article/russian-science/midii-i-mashinnoye-obucheniepomogli-otsledit
https://news.rambler.ru/tech/53019484-midiy-prisposobili-dlya-iimonitoringasostoyaniya-vodnoy-sredy/
https://www.ferra.ru/news/v-rossii/rossiiskie-uchyonye-sozdali-ii-dlyamonitoringa-vodoyomov-po-sostoyaniyu-midii-02-07-
https://aif.ru/natsionalniye_proekti_rossii/digital_economy/neyroseti-vokrugnasoblasti-primeneniya-umnyh-tehnologiy-bezgranichnyhttps://lifehacker.ru/primenenie-iskusstvennogo-intellekta/
За два года выполнения проекта опубликованы:
Grekov, A.N.; Vyshkvarkova, E.V.; Mavrin, A.S. Forecasting and Anomaly Detection in BEWS: Comparative Study of Theta, Croston, and Prophet
Algorithms. Forecasting 2024, 6, 343–356.https://doi.org/10.3390/forecast6020019https://www.mdpi.com/2571-9394/6/2/19(Web of Science/Scopus, Q1)
Греков А.Н., Вышкваркова Е.В., Трусевич В.В. Выявление закономерностей в данных активности двустворчатых моллюсков с помощью матричного профиля // Экологические системы и приборы. – 2024. – № 12. – С. 26–36 (RSCI, Белый список)
Греков А.Н., Вышкваркова Е.В., Маврин А.С. Алгоритм обнаружения аномалий с помощью модели SARIMA для программного обеспечения автоматизированного комплекса биомониторинга водной среды // Искусственный интеллект и принятие решений. – 2024. – №. 1. – С. 52-67. DOI: 10.14357/20718594240105 (RSCI, Белый список)
Греков А.Н., Вышкваркова Е.В., Ивакин Я.А., Селезнев И.А., Греков Н.А., Кузьмин К.А. Биологическая система раннего обнаружения для экологического контроля водной среды // Экологические системы и приборы.
– 2024. – №1. – С. 38-48. DOI: 10.25791/esip.1.2024.1425. (RSCI, Белый список) Вышкваркова Е.В., Греков А.Н., Маврин А.С., Трусевич В.В. Применение модели ARIMA для обнаружения аномалий в рядах активности двустворчатых моллюсков // Системы контроля окружающей среды. – 2023. – Вып. 3 (53). – С. 141–147. (ВАК, РИНЦ)
Греков А.Н., Вышкваркова Е.В., Трусевич В.В. Применение метода ядерной оценки плотности для обнаружения аномалий в данных активности двустворчатых моллюсков // Системы контроля окружающей среды. – 2024. – № 4 (58), – С. 135-144. (ВАК, РИНЦ)
Глава в монографии Греков А.Н., Селезнев И.А., Ивакин Я.А., Греков Н.А., Вышкваркова Е.В., Трусевич В.В. Биологические системы раннего обнаружения для экологического мониторинга водной среды. Севастополь: ИПТС, 2023. 131 с., 54 ил., 19 табл., 155 библиогр. Тираж 500 экз. ISBN 9785-6048608-5-4, DOI: 10.33075/978-5-6048608-5-4.
Члены научного коллектива приняли участие в следующих конференциях:
- Всероссийская научная конференция молодых ученых «Комплексные исследования Мирового океана» (15–19 мая 2023 г., СанктПетербург).
Всероссийская научная конференция, посвящённая 90-летию со дня рождения д. б. н., профессора Олега Глебовича Миронова «Актуальные вопросы экологии водных и прибрежных экосистем» (2-5 октября 2023 г., г. Севастополь).
Международной научно-практической конференции «Системы контроля окружающей среды – 2023» (07 – 10 ноября 2023 г., г. Севастополь).
- Всероссийская научная конференция молодых ученых «Комплексные исследования Мирового океана» (13–17 мая 2024 г.
Владивосток).
Ежегодная конференция Data Fest 2024.
Международной научно-практической конференции «Системы контроля окружающей среды – 2024» (5–8 ноября 2024 г., г. Севастополь).