Результаты выполнения гранта РНФ № 23-29-00558. Интервью

Интервью сВышкварковой Еленой Васильевной, кандидатом географических наук, ведущим научным сотрудником Лаборатории крупномасштабного взаимодействия океана и атмосферы и изменений климата Института природно-технических систем. Тема нашего разговора — заявленный план работ по грантуРНФ № 23-29-00558«Обнаружение аномалий в данных активности моллюсков алгоритмами машинного обучения для формирования сигнала тревоги в комплексах автоматизированного биомониторинга водной среды» (2023–2024 гг.) Научный коллектив – к.г.н. Вышкваркова Е.В. (руководитель), к.т.н. Греков А.Н., к.б.н. Трусевич В.В., Маврин А.С. Основной задачей проекта было улучшение качества и уменьшение времени при обнаружении аномалий в данных активности моллюсков для формирования сигнала тревоги комплексом автоматизированного биомониторинга водной среды. Заявленный план работ выполнен в полном объеме.

Интервьюер: Проведено обобщение данных об активности двустворчатых моллюсков с трех локаций. В данных экспертным методом выделены три аномалии (первая – 19 марта 2017 года, вторая – 14 апреля, и третья – 24 апреля 2017 года). Эффективность алгоритмов машинного обучения оценивалась по времени обнаружения этих аномалий, а также по вычислительной сложности каждого метода.Елена Васильевна,подскажите, Какие алгоритмы применены были в работе?

Елена Васильевна:Для обнаружения аномалий применены алгоритмы машинного обучения без учителя (эллиптическая огибающая — elliptic envelope, изолирующий лес iForest, одноклассовый метод опорных векторов — one-class SVM и локальный уровень выбросов — LOF), прогнозные модели ARIMA, Theta, Prophet, Croston и метод ядерной оценки плотности (ЯОП). Для каждого алгоритма проведен выбор и настройка оптимальных гипермараметров, таких как уровень загрязнения (contamination rate), время осреднения данных, масштабирование, стандартизация и другие. Сравнение методов по времени отклика показало преимущество алгоритма IForest.

Для обнаружения аномалий в рядах активности двустворчатых моллюсков с использованием прогнозных моделей была проведена декомпозиция временных рядов, которая показала наличие сезонности в данных и необходимость использования модели ARIMA с сезонной составляющей (SARIMA). При применении прогнозных алгоритмов (Theta, Croston и Prophet) для каждого метода выбраны фиксированные пороги среднеквадратической ошибки, при котором возникает наибольшая ошибка при отсутствии аномалии плюс десятипроцентный запас прочности необходимый для работы в реальной системе, для исключения ложных срабатываний. Лучшее время обнаружения первой аномалии получено методом Prophet. Лучшее время обнаружения второй и третьей аномалии оказалось одинаковым для трех методов при одних и тех же настройках модели.

Для обнаружения аномалий методом ЯОП использованы несколько функций ядра (например, Гауссово ядро, Экспоненциальное ядро и др.), а параметр сглаживания (ширина окна) рассчитывался двумя способами: с помощью правил Скотта и Сильвермана.

Сравнение результатов обнаружения аномалий моделью ARIMA с оценками обнаружения аномалий с использованием четырёх алгоритмов машинного обучения без учителя на примере одной аномалии показало, что использование алгоритмов без учителя даёт небольшое преимущество в 10 минут по скорости обнаружения аномалии. Однако вычислительная сложность алгоритмов без учителя оказалась на несколько порядков выше по сравнению с моделью SARIMA. Сравнение прогнозных моделей показало, что для одной из аномалий наилучшим методом оказался Prophet, а для двух других время обнаружения аномалии не различалось между методами. Метод Prophet смог обнаружить первую аномалию на 1 час 20 минут быстрее, чем модель SARIMA и ЯОП. Время обнаружения второй аномалии тремя проанализированными алгоритмами улучшилось на 25 минут, а третьей аномалии улучшилось на 40 минут по сравнению с моделью SARIMA. Третья аномалия (24 апреля) была обнаружена методом ЯОП на 20 минут раньше, чем другими методами. По вычислительной сложности лучшим методом оказался Croston.

Выделение закономерностей (паттернов) в данных проведено методами классификации (Алгоритм k-ближайших соседей (k-nearest neighbors, KNN) и классификатор области ближайших соседей (Radius Neighbors -RN), кластеризации (k-means и K-medoids) и методом матричный профиль. Лучшие результаты по всему набору данных показал метод KNN.

Выделение мотивов проведено для трех временных промежутков – дневное время, ночное время и период с аномалиями. Результаты показали, что поиск типичных подпоследовательностей с помощью матричного профиля приводит к выделению простых областей в данных активности двустворчатых моллюсков. Коррекция матричного профиля с помощью вектора аннотации на основе оценки сложности значительно улучшило результаты поиска мотивов в данных.

Анализ данных и реализация разработанного алгоритма проводились на языке программирования Python с использованием пакетов и библиотек для обработки данных.

Наши результаты показывают, что природные и технические аномалии в наборах данных об активности двустворчатых моллюсков можно обнаружить с помощью алгоритмов машинного обучения без учителя и прогнозными моделями. Лучшим методом по скорости обнаружения аномалий оказался метод Prophet.

Интервьюер: Где будет внедрен ваш метод?

Елена Васильевна:Разработанный алгоритм будет внедрен в программное обеспечение автоматизированного комплекса биомониторинга водной среды.

Проведенная работа имеет важное значение для повышения эффективности прогнозирования аномалий в данных об активности двустворчатых моллюсков, используемых при экологическом мониторинге состояния водной среды, что будет способствовать снижению затрат, связанных с оперативным, тактическим и стратегическим планированием.

Интервьюер:Ваш проект стал интересен не только научном миру,но и представителям СМИ. В каких изданиях были публикации? И на телевидении?

Елена Васильевна:Исследование получило широкое освещение в СМИ. Информация с результатами, полученными в ходе реализации проекта, опубликована на сайте Российского научного фонда, на федеральном канале “РЕН-ТВ”, в газетах “Аргументы и факты” и “Севастопольская газета”, на сайте государственного информационного агентства ТАСС, и на более чем десяти информационных порталах:

За два года выполнения проекта опубликованы:

Grekov, A.N.; Vyshkvarkova, E.V.; Mavrin, A.S. Forecasting and Anomaly Detection in BEWS: Comparative Study of Theta, Croston, and Prophet

Algorithms. Forecasting 2024, 6, 343–356.https://doi.org/10.3390/forecast6020019https://www.mdpi.com/2571-9394/6/2/19(Web of Science/Scopus, Q1)

Греков А.Н., Вышкваркова Е.В., Трусевич В.В. Выявление закономерностей в данных активности двустворчатых моллюсков с помощью матричного профиля // Экологические системы и приборы. – 2024. – № 12. – С. 26–36 (RSCI, Белый список)

Греков А.Н., Вышкваркова Е.В., Маврин А.С. Алгоритм обнаружения аномалий с помощью модели SARIMA для программного обеспечения автоматизированного комплекса биомониторинга водной среды // Искусственный интеллект и принятие решений. – 2024. – №. 1. – С. 52-67. DOI: 10.14357/20718594240105 (RSCI, Белый список)

Греков А.Н., Вышкваркова Е.В., Ивакин Я.А., Селезнев И.А., Греков Н.А., Кузьмин К.А. Биологическая система раннего обнаружения для экологического контроля водной среды // Экологические системы и приборы.

– 2024. – №1. – С. 38-48. DOI: 10.25791/esip.1.2024.1425. (RSCI, Белый список) Вышкваркова Е.В., Греков А.Н., Маврин А.С., Трусевич В.В. Применение модели ARIMA для обнаружения аномалий в рядах активности двустворчатых моллюсков // Системы контроля окружающей среды. – 2023. – Вып. 3 (53). – С. 141–147. (ВАК, РИНЦ)

Греков А.Н., Вышкваркова Е.В., Трусевич В.В. Применение метода ядерной оценки плотности для обнаружения аномалий в данных активности двустворчатых моллюсков // Системы контроля окружающей среды. – 2024. – № 4 (58), – С. 135-144. (ВАК, РИНЦ)

Глава в монографии Греков А.Н., Селезнев И.А., Ивакин Я.А., Греков Н.А., Вышкваркова Е.В., Трусевич В.В. Биологические системы раннего обнаружения для экологического мониторинга водной среды. Севастополь: ИПТС, 2023. 131 с., 54 ил., 19 табл., 155 библиогр. Тираж 500 экз. ISBN 9785-6048608-5-4, DOI: 10.33075/978-5-6048608-5-4.

Члены научного коллектива приняли участие в следующих конференциях:

  • Всероссийская научная конференция молодых ученых «Комплексные исследования Мирового океана» (15–19 мая 2023 г., СанктПетербург).

Всероссийская научная конференция, посвящённая 90-летию со дня рождения д. б. н., профессора Олега Глебовича Миронова «Актуальные вопросы экологии водных и прибрежных экосистем» (2-5 октября 2023 г., г. Севастополь).

Международной научно-практической конференции «Системы контроля окружающей среды – 2023» (07 – 10 ноября 2023 г., г. Севастополь).

  • Всероссийская научная конференция молодых ученых «Комплексные исследования Мирового океана» (13–17 мая 2024 г.

Владивосток).

Ежегодная конференция Data Fest 2024.

Международной научно-практической конференции «Системы контроля окружающей среды – 2024» (5–8 ноября 2024 г., г. Севастополь).

Данные о правообладателе фото и видеоматериалов взяты с сайта «Институт природно-технических систем», подробнее в Условиях использования
Анализ
×
Вышкваркова Елена Васильевна
Греков А. Н.
Трусевич В. В.
Вышкварков Е. В.
Маврин А. С.
РНФ
Организации
70
ИПТС
Компании