Набор в Инженерно-математическую школу НИУ ВШЭ и VK
Открыт набор в проекты ИМШ
для студентов технических направлений НИУ ВШЭ
Инженерно-математическая школа — совместный образовательный проект VK и НИУ ВШЭ, где студенты работают над реальными задачами под руководством экспертов VK и научных сотрудников университета.
Стартовал набор в мастерские по прикладному искусственному интеллекту, безопасной разработки и эксплуатации высоконагруженных систем, по сервисам и платформам ИИ Инженерно-математической школы НИУ ВШЭ и VK: 10 новых проектов, реальные задачи, участие в конференциях и спецпроектах VK - без отрыва от учебы.
Участвуй в реальных проектах от бизнес-юнитов VK, приобретай актуальные знания и навыки, получи специальность в сфере IT без отрыва от учёбы.
Чтобы получить тестовое задание, зарегистрируйтесь. Без регистрации задание не будет принято к рассмотрению.
— 15-20 часов в неделю занимает работа в мастерских;
— Еженедельно или раз в две недели, в зависимости от проекта и мастерской, проходят созвоны или встречи с руководителем проекта или мастерской, а также с экспертом из VK — куратором проекта;
— Два раза в год команды презентуют итоги работы на демо-днях и рассказывают о своих планах до следующего демо.
Даты этапов отбора
-
Старт приема заявок и выдача тестовых заданий
6 октября, 10:00
-
Окончание приёма заявок и тестовых заданий
19 октября, 23:59
-
Проведение собеседований
с 27 октября
-
Оглашение результатов
31 октября
-
Вводная встреча для новых участников
Начало ноября
В какие проекты идет набор?
Мастерская безопасной разработки и эксплуатации высоконагруженных систем
Руководитель мастерской
Использование кодовых конструкций для k-анонимизации
Проект нацелен на разработку алгоритма кластеризации данных на основе кодовых конструкций с применением метрик L0 и L1 (или их комбинаций). На основе выполненной кластеризации производится приведение данных к целевым значениям метрик анонимизации, таких как k-анонимность. Данное решение позволит обезопасить субъектов, упоминаемых в данных, и выполнить один из необходимых шагов подготовки информации, используемой для обучения ML-моделей.
Цель проекта — разработка высокопроизводительного алгоритма анонимизации данных.
Подробнее
Инструмент контроля безопасности ML моделей и датасетов
В рамках проекта должен быть разработан инструмент для оценки безопасности моделей машинного обучения и связанных с ними датасетов. С использованием нескольких открытых программных решений (OSS) будет реализован процесс дедупликации результатов, что позволит эффективно выявлять уязвимости и потенциальные угрозы.
Цель проекта — создать интегрированный ресурс, который обеспечит разработчиков необходимыми инструментами для анализа и повышения безопасности их ML-систем.
Проект требует знаний в области ML, программирования и кибербезопасности, что позволит развивать навыки сразу в нескольких направлениях.
Подробнее
Мастерская по прикладному искусственному интеллекту
Руководитель мастерской
Быстрая генерация MCMC-сэмплов при помощи нейросетей
Гамильтоновы методы Монте-Карло на регулярной основе используются на практике для решения инженерных задач. Одним из примеров такой задачи может быть оценка рисков или вычисление оптимальных значений гиперпараметров.
Одним из недостатков вышеупомянутого метода, типичным также для методов Монте-Карло на марковских цепях, являются высокие вычислительные затраты. К примеру, при использовании байесовских методов для подбора гиперпараметров моделей машинного обучения симуляции становятся вычислительно очень дорогими из-за многократной генерации длинной марковской цепи.
В данной работе предлагается изучить возможность ускорения гамильтонова метода Монте-Карло за счёт применения методов машинного обучения. Главная проблема метода состоит в долгом периоде разгона (burn-in), во время которого положения частиц итеративно обновляются численными методами для решения обыкновенных дифференциальных уравнений (ОДУ). Основная идея метода в том, что на больших временах состояния частиц при условии случайного старта будут из нужного распределения. Избавиться от интегрирования можно путём предоставления точного или приближённого решения системы ОДУ из метода гамильтонова Монте-Карло. Для получения приближённого решения предлагается применить физически информированные нейронные сети (PINN) для аппроксимации динамики частиц. Применение такого подхода позволит существенно сократить время burn-in путём вычисления положения частицы напрямую через обученную PINN.
Цель проекта — разработка подхода для ускоренного сэмплирования при помощи MCMC на основе нейросетей.
Подробнее
VLMemes: сбор датасета и оценка Vision-Language моделей для выявления токсичности, сарказма и культурных отсылок
Мемы — один из наиболее сложных форматов пользовательского контента: их значение рождается из комбинации текста, изображения и культурного контекста. Современные исследования (MemeMind 2025, GuardHarMem 2025, HMGUARD 2025, MemeBLIP2 2025) показывают, что мультимодальные модели (VLM, LMM) могут эффективно выявлять токсичность и сарказм, но плохо справляются с локальными культурными особенностями и новыми форматами.
Цель проекта — собрать датасет русскоязычных мемов, аннотировать его по категориям токсичности, сарказма и культурных отсылок, а также исследовать, как современные мультимодальные модели (CLIP, LLaVa, Qwen VL, MemeBLIP2 и др.) работают с таким материалом. На основе полученных результатов планируется разработать и протестировать прототип мультимодальной системы анализа мемов для задач модерации и рекомендаций в VK с упором на:
-
выявление токсичных и оскорбительных мемов;
-
понимание сарказма и иронии;
-
учёт локальных культурных отсылок;
-
анализ explainability решений моделей.
Подробнее
Детекция и идентификация знаменитостей на видео
Задачей проекта является создание системы, которая автоматически определяет присутствие знаменитостей в пользовательских и профессиональных видеороликах на платформе VK Видео. Это ключевой элемент для:
-
улучшения рекомендаций (персонализация, тематические подборки);
-
модерации (проверка авторских прав, обнаружение использования образов знаменитостей);
-
поиска (поиск видео с конкретной персоной).
Мировые исследования (iQIYI-VID 2024–2025, VoxCeleb, CelebV-HQ) показывают, что простого face ID недостаточно: нужны мультимодальные подходы (лицо + тело + голос + контекст). В рамках проекта предлагается собрать собственный датасет с российскими знаменитостями, проанализировать существующие энкодеры и модели и дообучить собственный детектор.
Цель проекта — разработать прототип системы детекции и идентификации знаменитостей в VK Видео, включающий:
-
собственный датасет актуальных знаменитостей;
-
анализ современных подходов (VFR, мультимодальный fusion, face-ID-энкодеры);
-
обучение и дообучение детектора на основе открытых и собранных данных;
-
оценку качества на реальных видео и клипах.
Подробнее
Мастерская по сервисам и платформам ИИ
Руководитель мастерской
ContextRank: динамические социальные рекомендации на основе интеграции LLM и RL с моделированием асимметричного доверия
ContextRank — инновационная структура для социальных рекомендаций, решающая проблемы статических моделей путём динамического извлечения асимметричных оценок доверия из неструктурированных данных с использованием лёгковесных LLM и RL. Фреймворк строит персонализированные подграфы и оптимизирует рекомендации через гибридную функцию вознаграждения, балансирующую влияние рекомендаций и пользовательские предпочтения, достигая высокой точности и персонализации.
Ключевые улучшения: генерация контекстных векторов (вдохновлено Word2Vec), LLM-доппельгангеры для симуляции поведения и генерации причин. Преимущество — гибкость рекомендаций на основе контекста даже без явных социальных графов.
Проект фокусируется на ускорении рекомендаций за счёт интеграции LLM и RL: использование VK-LSVD, смешивание с негативными сэмплами (по расстоянию сходства в эмбеддинговом пространстве) для бинарной классификации в RL и генерация причин для проверки гипотез. Это улучшит персонализацию и объяснимость, особенно при холодном старте.
Цель проекта — разработка фреймворка ContextRank для динамических рекомендаций с LLM и RL, с акцентом на контекстные векторы и симуляцию поведения для повышения точности и интерпретируемости.
Побробнее
Улучшение качества речевого сигнала для голосовых интерфейсов в зашумленных условиях
Современные голосовые интерфейсы часто работают в шумных условиях (улица, транспорт, офис, дом), что снижает точность распознавания речи и ухудшает взаимодействие с пользователем. Ключевая задача проекта — улучшение качества речи на этапе предварительной обработки.
Проект направлен на разработку нейросетевых методов очистки и восстановления речевого сигнала с низкой вычислительной сложностью и высокой разборчивостью речи. Участники изучат современные подходы к спектральной и временной обработке, создадут модели с мультимасштабными признаками и оценят их эффективность.
Будет разработан прототип системы, работающей близко к реальному времени с задержкой не более 0,2 секунды, а также проработана интеграция решений с системами распознавания речи для устройств с ограниченными ресурсами.
Цель проекта — развитие у участников навыков экспериментальной работы и создания новых методов улучшения качества речи, подготовка научных публикаций уровня Q1/Q2 и разработка прикладных решений для голосовых ассистентов, систем поиска, диалоговых платформ и сервисов видеосвязи.
Подробнее
Attacks on Large Vision-Language Models
Цель проекта — систематически изучить и разработать методы атаки на OCR-подсистемы мультимодальных моделей (VLM/Video-VLM) путём незаметной для человека модификации изображений или кадров видео. Основная идея — внедрять текстовую информацию (искусственные патчи, стеганографию, adversarial-патчи), которая: будет некорректно считываться OCR/текстовой веткой модели (prompt injection, hallucination); или изменять downstream-поведение VLM (например, вызывать нежелательные ответы или ошибки в классификации и модерации), причём изменения должны оставаться невидимыми для человеческого глаза.
Проект включает обзор литературы, адаптацию и разработку методов в black-box-сетапе (при частично закрытой модели), эксперименты и разработку метрик для оценки эффективности и незаметности атак.
Подробнее
Пучки на графах в рекомендательных системах
В данном проекте предлагается реализовать новый алгоритм построения эмбеддингов пользователей и айтемов на основе теории пучков на графе. Планируется построить два взвешенных графа: один — только с пользователями, другой — только с айтемами, на основе истории взаимодействия пользователей с платформой. Для каждого графа строится эмбеддинг на основе BPR-лосса и лапласиана пучка на графе. В данном случае пучок выступает в качестве регуляризатора. Далее полученные эмбеддинги используются для решения задачи рекомендаций (классификации вершин).
Цель проекта — исследование применимости пучков на графе для построения стабильных эмбеддингов пользователей и айтемов.
Подробнее
Генеративное предсказание временных рядов на основе нейронных стохастических дифференциальных уравнений
Особый интерес в задаче анализа временных рядов вызывает возможность оценивать неопределённость прогнозов или генерировать возможные сценарии развития ряда. Это позволяет не только определять основное направление динамики, но и оценивать, какие сценарии развития более вероятны. Если модель способна генерировать возможные траектории рядов, её можно использовать как часть пайплайна для решения конечных задач: оптимального управления и обучения с подкреплением. Кроме того, модели, предсказывающие следующий элемент последовательности, активно применяются в рекомендательных системах (например, предсказывают следующий айтем, с которым взаимодействует пользователь).
В проекте предлагается рассмотреть подход на основе нейронных стохастических дифференциальных уравнений. В его рамках уже реализованы модели типа VAE и GAN, однако условная генерация пока не была адресована. Полученное решение позволит построить принципиально новые симуляционные модели случайных процессов на основе сложных временных рядов, возникающих при анализе пользовательского внимания и популярности контента. Предполагается, что такие модели будут не только решать задачу прогноза, но и хорошо описывать распределения будущих наблюдений.
Цель проекта — разработка метода генеративного прогноза на основе моделей нейронных стохастических дифференциальных уравнений.
Подробнее
FAQ
Кто может принимать участие в наборе на проекты?
Как подготовиться к поступлению?
Какие мне необходимы навыки, чтобы успешно пройти отбор и работать над проектом?
Возьмут ли меня после работы над проектом на работу в VK?
В проект могут попасть только студенты московского кампуса?
Могу ли я совмещать выполнение проекта с работой?
Могу ли я подать заявку на несколько проектов?
Все вопросы по отбору в Инженерно-математическую школу направляйте на почту info_pish@hse.ru