• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
Контакты

123458 г. Москва, Таллинская, д. 34 (м. «Строгино»)

Тел.: +7 (495) 772-95-90 * 11089

E-mail: vstarykh@hse.ru

Руководство
Заместитель руководителя Королева Ирина Владимировна

Мультимодальные языковые модели на VOT Challenge 2025

Команда исследователей из МИЭМ НИУ ВШЭ и компании AlphaCHIP (Зеленоград) представила инновационный трекер VOTS2025_MIEM-HSE_AlphaCHIP на международном соревновании VOT Challenge 2025.

Мультимодальные языковые модели на VOT Challenge 2025

Команда исследователей из МИЭМ НИУ ВШЭ и компании AlphaCHIP (Зеленоград) в составе д.т.н., профессора МИЭМ А.Ю. Романова, д.т.н., приглашенного профессора МИЭМ Р.А. Соловьева, студентов Г.А. Кириченко и Д.А. Юртова представила инновационный трекер VOTS2025_MIEM-HSE_AlphaCHIP на международном соревновании VOT Challenge 2025.

МИЭМ в лице команды от УЛ САПР участвует в VOT Challenge несколько лет подряд и уже попадал на лидербоард соревнований (VOT Challenge: Computer Vision CompetitionVOTChallenge 2024, статья VOTS2024 Challenge Results).

В этом году командой МИЭМ акцент был сделан на использование мультимодальных языковых моделей, что позволило предложить нестандартное решение для задач отслеживания объектов в видео.

В основе подхода использована модель Qwen2.5-VL, способная одновременно анализировать текст, изображения и видеопоследовательности. В отличие от классических методов, где трекинг строится на анализе отдельных кадров, команда использовала контекстное понимание объекта на уровне всей видеопоследовательности. Это позволило учитывать не только визуальные особенности цели, но и ее семантику, описанную в текстовом запросе.

Для адаптации модели к ограничениям по вычислительным ресурсам исследователи разработали метод адаптивной выборки кадров. Это позволило сократить объем обрабатываемых данных без потери ключевой информации. Особое внимание уделено работе с динамичными сценами, где традиционные трекеры часто теряют цель из-за резких изменений освещения или ракурса. В результате, хоть по обобщенной метрике предложенное решение не было лучшим, этого было достаточно, чтобы преодолеть порог для попадания на лидербоард 2025 года. При этом по метрике NRE созданный трекер был лучшим.

Результаты работы войдут в доклад на European Conference on Computer Vision (ECCV 2025) и будут опубликованы в статье по итогам челенджа.

Результат участия в VOT Challenge 2025 подтвердил, что интеграция мультимодальных LLM в задачи трекинга открывает новые возможности для отрасли. Команда планирует развивать гибридный подход, сочетающий преимущества языковых моделей и традиционных нейросетевых архитектур.

Романов Александр Юрьевич

Департамент компьютерной инженерии: Профессор

Соловьев Роман Александрович

Кириченко Глеб Александрович

Юртов Дмитрий Петрович