• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Московский институт электроники
и математики им. А.Н. Тихонова

В МИЭМ НИУ ВШЭ прошла летняя школа, где осваивали профессию будущего – анализ данных

В МИЭМ НИУ ВШЭ с 24 по 28 июля прошла летняя школа «Автоматическая обработка текстов и анализ данных». 30 бакалавров, магистрантов и аспирантов из Вышки, МФТИ, МГУ, Бауманки, СПбГУ, а также из вузов Хельсинки, Казани, Челябинска и Ярославля занимались машинным обучением и анализом данных, решая попутно поставленную практическую командную задачу.

Наш материал – рассказ о школе от коллективного «первого лица», размышления и впечатления некоторых участников и преподавателей.

Про машинное обучение и анализ данных: что это и почему об этом так много сегодня говорят

Клышинский Эдуард Станиславович, руководитель школы, преподаватель НИУ ВШЭ: «Приведу простую аналогию. Допустим, есть новая предметная область, в которой мы ничего не знаем. И мы сначала должны эту область освоить, или, другими словами, научиться. После этого нам необходимо выдержать экзамен, после которого можно будет назвать себя специалистом. В машинном обучении всё работает точно так же, только объектом обучения является компьютер, система. Есть какие-то данные, на которых система учится, а потом мы проверяем, хорошо ли она научилась. Если хорошо, мы ее выпускаем в свет: система начинает работать и решать задачи, связанные с анализом данных, ради которого всё и делается».

Большакова Елена Игоревна, преподаватель НИУ ВШЭ: «В последнее время сильно растет спрос на такую деятельность, который появился, в первую очередь, в связи с развитием Интернета. Но тут важен и другой процесс. Спрос был всегда, а увеличивается он в первую очередь по мере роста мощности инструментов. Те люди, которые еще недавно никак не были связаны с машинным обучением и искусственным интеллектом, сегодня знают, что можно делать более глубокую обработку текстов и получать таким образом более интересные и детальные результаты. Спрос растет еще и потому, что постоянно увеличивается количество информации, в том числе текстовой. Кстати, в область обработки текстов и анализа данных сегодня приходят специалисты из других областей – есть физики, математики, инженеры, программисты. Машинное обучение и анализ данных – междисциплинарная область».


Какие области знаний затрагивает машинное обучение

Большакова Елена Игоревна: «Математика, лингвистика, программирование, в том числе и всё, что связано с искусственным интеллектом. А искусственный интеллект, в свою очередь, черпает материал из психологии. Именно на стыке этих дисциплин родились нейронные сети, активно используемые в Google Переводчике (Google Translate), из-за чего он сегодня стал работать на порядок лучше. Кстати, нейронные сети на протяжении десятилетий считались неперспективным направлением, а потом пришли какие-то молодые люди, и у них заработало. Интересный современный парадокс: сегодня открытия совершают люди, пришедшие из смежных областей».


Зачем студентам нужна эта школа

Клышинский Эдуард Станиславович: «Начнем с того, что анализ данных – это профессия будущего. И на школе участники получают эту профессию. Пять дней, каждый день - три лекции, одна лабораторная работа, в общей сложности 8 академических часов. Всего 40. По сути, это полноценный семестровый курс по анализу данных. При этом ребята получают самые свежие данные, знания, навыки из первых рук и при этом имеют возможность это практически закрепить».

Короткова Елизавета, выпускница бакалавриата Санкт-Петербургского государственного университета по специальности «математическая лингвистика»: «Сегодня, со всеми современными подходами, с машинным обучением,  зачастую складывается представление, что компьютер решает подобные задачи лучше, чем человек. Не везде, конечно, но у меня как лингвиста порой складывается ощущение, что на современном уровне развития компьютерных технологий лингвистика уже не особенно нужна и что действительно всё может посчитать компьютер. Но на лекциях в этой школе у меня проходит такое ощущение и я рада тому, что лингвисты все-таки нужны».

Большакова Елена Игоревна: «Сегодня я, например, во время лекции с удивлением услышала, что многие студенты не знают, что Яндекс выдает запросы с помощью операторов. Ребята, с одной стороны, во многом нахватали немало нужной информации, имеют представление о многом, но, с другой, не имеют общей картины. И задача школы – дать островки относительной ясности и рассказать о каких-то инструментах, которые можно применить. А, используя эти инструменты, уже можно решать конкретные задачи. И есть методы решения этих задач, о которых они не знают. Одна из целей школы – дать им эти методы».

Анна Шарипова, студентка 3 курса бакалавриата НИУ ВШЭ (Нижний Новгород), образовательная программа «компьютерная лингвистика»: «Мне в школе очень нравится. Для меня тут очень много новой информации – например, сегодня про машинное обучение. Я не подкована в этом. Это всё интересно, сложно, но от сложности не становится грустно».

Клышинский Эдуард Станиславович: «Ценность школы в первую очередь в том, что у участников есть сквозная практическая задача, решаемая ими в командах на протяжении всей школы. На лекциях ребятам дают массу намеков, подсказок о том, как можно решать. Собственно, все лекции, теория – для этого.   Методов решения схожих задач огромное количество, их можно по-разному комбинировать, и участники  выбирают эти методы самостоятельно. Например, одна команда взяла два синтаксических анализатора, стала с ними работать, у них стало что-то непонятное получаться, а потом в среду они прослушали лекцию и после этого сказали «Ага, всё понятно». После чего один анализатор отбросили, а второй стали использовать. В этом ведь тоже задача школы: пусть ребята попробуют максимальное количество инструментов и поймут в сравнении, как эти инструменты работают. То есть, по большому счету, самым важным является даже не само решение, а путь к нему. Проходя этот путь, участники получают новые знания и навыки».


О практической командной задаче

Фесенко Георгий, МИЭМ НИУ ВШЭ, студент 3 курса бакалавриата: «Нам в первый день выдали блок текстовых новостей, где присутствуют именованные сущности. Таким термином в машинном обучении обозначается любой субъект действия в тексте, вступающий во взаимодействие с другими субъектами. Это может быть человек, государство, организация и т.д. И нам нужно по данным текстам определить отношения между именованными сущностями, написав соответствующую программу. Если мы всё сделаем правильно, то в дальнейшем эта программа сможет обрабатывать и другие аналогичные тексты».

Клышинский Эдуард Станиславович: «Чтобы участники могли выполнить эту цель, мы читаем лекции, проводим практические занятия. Мы стараемся при этом соблюсти баланс, поскольку все ребята - с разным уровнем подготовки. Среди участников есть и бакалавры, и магистры, и аспиранты. Кому-то нужно рассказать и объяснить, поскольку он ничего еще не знает,  а кому-то можно дать продвинутый уровень. У лекторов, таким образом, непростая задача. С другой стороны, и это хорошо, у участников есть возможность узнать какие-то новейшие разработки, которые, что называется, вышли из-под пера и которые преподаватели хотят им донести».

Большакова Елена Игоревна: «Объектом в работе является текст. Мы работаем не с цифровыми данными, а с текстовыми. Они могут быть представлены в виде структур, например, графовых, где можно отследить взаимосвязи.  Как простой пример: из текста мы знаем, что объект 1 знаком с объектом 2, объект 2 – с объектом 3, что предполагает возможность знакомства объектов 1 и 3. Тут уже начинается анализ данных».

Фесенко Георгий, МИЭМ НИУ ВШЭ, студент 3 курса бакалавриата: «Собственно, задача – на основании текстов указать все эти взаимосвязи и существующие взаимоотношения, отрицательные или положительные. Допустим, если страна А напала на страну Б, то очевидно, что между странами отрицательные взаимоотношения. Но компьютер этого не знает, потому что он не знает значения слова «напасть».


О том, как команды решают задачу

Фесенко Георгий: Мы внутри команды разделились на две рабочие группы, каждая по-своему пытается решить задачу. Первая группа занимается анализом непосредственно текста, отталкиваясь от норм и категорий русского языка.  Наша же часть команды за основу взяла машинное обучение. То есть, нам необходимо представить текст, слова, предложения в понятной для компьютера форме. Например, компьютер не поймет, что такое «напали, победили», ему нужны цифры. Точнее, набор цифр, вектор.  Мы и переводим предложения в эти понятные компьютеру цифры, а дальше он уже сам после освоения этого материала через написанную нами обучающую программу построит взаимосвязи. По крайней мере, мы очень на это надеемся».

Короткова Елизавета: «Наша группа пытается больше опираться на правила, которые ввел человек. Здесь как раз нужна я как лингвист: мы больше работаем именно с текстом, выявляя существующие в нем закономерности. Кроме программных средств, мы используем дополнительные лингвистические ресурсы, например, словари. Я в нашей группе в большей степени работаю со смыслами, с контекстом. Вторая группа выявляет эти закономерности чисто математически, только с использованием машинного обучения. Потом мы надеемся объединить два подхода и взять лучшее из того, что найдем мы и они».

Воскобойник Катерина, магистрантка, Хельсинки:  «Мне кажется, сначала мы грустили немножко. А сейчас мы начали собираться. Сначала мы никто друг друга не знали, поэтому всё больше сидели, молчали. Теперь мы за пару дней познакомились и уже не так сложно какие-то глупые идеи говорить».


О преподавателях

Клышинский Эдуард Станиславович: «Начнем с Максима Ионова. Он на школе работает тьютором и читает лекции. Он приехал из Франкфурта, где преподает в университете.

Наталья Валентиновна Лукашевич работает в научно-исследовательском вычислительном центре МГУ и помогла с определением темы школы и тех данных, которые используются для постановки задачи участникам. Она работает в области определения тональности текстов, является крупным специалистом по антологиям и тезаурусам в России.

Елена Игоревна Большакова, специалист с нашего ФКН, является серьезным специалистом в области машинного обучения.

Константин Вячеславович Воронцов – специалист по математическому моделированию.

Петр Ермаков – аспирант у нас в МИЭМе и одновременно руководит группой, которая занимается анализом данных в Mail.ru.


В каких направлениях сегодня можно ожидать развития в машинном обучении

Большакова Елена Игоревна: «Конечно, в первую очередь, в области информационного поиска. Самое интересное здесь по-прежнему – та задача, из которой всё выросло. Это машинный перевод.  Полностью хорошего, идеального машинного перевода на открытой тематике не будет никогда. Идеал всегда будет недосягаем, поэтому здесь всегда есть куда стремиться».