В МИЭМ НИУ ВШЭ прошла летняя школа, где осваивали профессию будущего – анализ данных
В МИЭМ НИУ ВШЭ с 24 по 28 июля прошла летняя школа «Автоматическая обработка текстов и анализ данных». 30 бакалавров, магистрантов и аспирантов из Вышки, МФТИ, МГУ, Бауманки, СПбГУ, а также из вузов Хельсинки, Казани, Челябинска и Ярославля занимались машинным обучением и анализом данных, решая попутно поставленную практическую командную задачу.
Наш материал – рассказ о школе от коллективного «первого лица», размышления и впечатления некоторых участников и преподавателей.
Про машинное обучение и анализ данных: что это и почему об этом так много сегодня говорят
Клышинский Эдуард Станиславович, руководитель школы, преподаватель НИУ ВШЭ: «Приведу простую аналогию. Допустим, есть новая предметная область, в которой мы ничего не знаем. И мы сначала должны эту область освоить, или, другими словами, научиться. После этого нам необходимо выдержать экзамен, после которого можно будет назвать себя специалистом. В машинном обучении всё работает точно так же, только объектом обучения является компьютер, система. Есть какие-то данные, на которых система учится, а потом мы проверяем, хорошо ли она научилась. Если хорошо, мы ее выпускаем в свет: система начинает работать и решать задачи, связанные с анализом данных, ради которого всё и делается».
Большакова Елена Игоревна, преподаватель НИУ ВШЭ: «В последнее время сильно растет спрос на такую деятельность, который появился, в первую очередь, в связи с развитием Интернета. Но тут важен и другой процесс. Спрос был всегда, а увеличивается он в первую очередь по мере роста мощности инструментов. Те люди, которые еще недавно никак не были связаны с машинным обучением и искусственным интеллектом, сегодня знают, что можно делать более глубокую обработку текстов и получать таким образом более интересные и детальные результаты. Спрос растет еще и потому, что постоянно увеличивается количество информации, в том числе текстовой. Кстати, в область обработки текстов и анализа данных сегодня приходят специалисты из других областей – есть физики, математики, инженеры, программисты. Машинное обучение и анализ данных – междисциплинарная область».
Какие области знаний затрагивает машинное обучение
Большакова Елена Игоревна: «Математика, лингвистика, программирование, в том числе и всё, что связано с искусственным интеллектом. А искусственный интеллект, в свою очередь, черпает материал из психологии. Именно на стыке этих дисциплин родились нейронные сети, активно используемые в Google Переводчике (Google Translate), из-за чего он сегодня стал работать на порядок лучше. Кстати, нейронные сети на протяжении десятилетий считались неперспективным направлением, а потом пришли какие-то молодые люди, и у них заработало. Интересный современный парадокс: сегодня открытия совершают люди, пришедшие из смежных областей».
Зачем студентам нужна эта школа
Клышинский Эдуард Станиславович: «Начнем с того, что анализ данных – это профессия будущего. И на школе участники получают эту профессию. Пять дней, каждый день - три лекции, одна лабораторная работа, в общей сложности 8 академических часов. Всего 40. По сути, это полноценный семестровый курс по анализу данных. При этом ребята получают самые свежие данные, знания, навыки из первых рук и при этом имеют возможность это практически закрепить».
Короткова Елизавета, выпускница бакалавриата Санкт-Петербургского государственного университета по специальности «математическая лингвистика»: «Сегодня, со всеми современными подходами, с машинным обучением, зачастую складывается представление, что компьютер решает подобные задачи лучше, чем человек. Не везде, конечно, но у меня как лингвиста порой складывается ощущение, что на современном уровне развития компьютерных технологий лингвистика уже не особенно нужна и что действительно всё может посчитать компьютер. Но на лекциях в этой школе у меня проходит такое ощущение и я рада тому, что лингвисты все-таки нужны».
Большакова Елена Игоревна: «Сегодня я, например, во время лекции с удивлением услышала, что многие студенты не знают, что Яндекс выдает запросы с помощью операторов. Ребята, с одной стороны, во многом нахватали немало нужной информации, имеют представление о многом, но, с другой, не имеют общей картины. И задача школы – дать островки относительной ясности и рассказать о каких-то инструментах, которые можно применить. А, используя эти инструменты, уже можно решать конкретные задачи. И есть методы решения этих задач, о которых они не знают. Одна из целей школы – дать им эти методы».
Анна Шарипова, студентка 3 курса бакалавриата НИУ ВШЭ (Нижний Новгород), образовательная программа «компьютерная лингвистика»: «Мне в школе очень нравится. Для меня тут очень много новой информации – например, сегодня про машинное обучение. Я не подкована в этом. Это всё интересно, сложно, но от сложности не становится грустно».
Клышинский Эдуард Станиславович: «Ценность школы в первую очередь в том, что у участников есть сквозная практическая задача, решаемая ими в командах на протяжении всей школы. На лекциях ребятам дают массу намеков, подсказок о том, как можно решать. Собственно, все лекции, теория – для этого. Методов решения схожих задач огромное количество, их можно по-разному комбинировать, и участники выбирают эти методы самостоятельно. Например, одна команда взяла два синтаксических анализатора, стала с ними работать, у них стало что-то непонятное получаться, а потом в среду они прослушали лекцию и после этого сказали «Ага, всё понятно». После чего один анализатор отбросили, а второй стали использовать. В этом ведь тоже задача школы: пусть ребята попробуют максимальное количество инструментов и поймут в сравнении, как эти инструменты работают. То есть, по большому счету, самым важным является даже не само решение, а путь к нему. Проходя этот путь, участники получают новые знания и навыки».
О практической командной задаче
Фесенко Георгий, МИЭМ НИУ ВШЭ, студент 3 курса бакалавриата: «Нам в первый день выдали блок текстовых новостей, где присутствуют именованные сущности. Таким термином в машинном обучении обозначается любой субъект действия в тексте, вступающий во взаимодействие с другими субъектами. Это может быть человек, государство, организация и т.д. И нам нужно по данным текстам определить отношения между именованными сущностями, написав соответствующую программу. Если мы всё сделаем правильно, то в дальнейшем эта программа сможет обрабатывать и другие аналогичные тексты».
Клышинский Эдуард Станиславович: «Чтобы участники могли выполнить эту цель, мы читаем лекции, проводим практические занятия. Мы стараемся при этом соблюсти баланс, поскольку все ребята - с разным уровнем подготовки. Среди участников есть и бакалавры, и магистры, и аспиранты. Кому-то нужно рассказать и объяснить, поскольку он ничего еще не знает, а кому-то можно дать продвинутый уровень. У лекторов, таким образом, непростая задача. С другой стороны, и это хорошо, у участников есть возможность узнать какие-то новейшие разработки, которые, что называется, вышли из-под пера и которые преподаватели хотят им донести».
Большакова Елена Игоревна: «Объектом в работе является текст. Мы работаем не с цифровыми данными, а с текстовыми. Они могут быть представлены в виде структур, например, графовых, где можно отследить взаимосвязи. Как простой пример: из текста мы знаем, что объект 1 знаком с объектом 2, объект 2 – с объектом 3, что предполагает возможность знакомства объектов 1 и 3. Тут уже начинается анализ данных».
Фесенко Георгий, МИЭМ НИУ ВШЭ, студент 3 курса бакалавриата: «Собственно, задача – на основании текстов указать все эти взаимосвязи и существующие взаимоотношения, отрицательные или положительные. Допустим, если страна А напала на страну Б, то очевидно, что между странами отрицательные взаимоотношения. Но компьютер этого не знает, потому что он не знает значения слова «напасть».
О том, как команды решают задачу
Фесенко Георгий: Мы внутри команды разделились на две рабочие группы, каждая по-своему пытается решить задачу. Первая группа занимается анализом непосредственно текста, отталкиваясь от норм и категорий русского языка. Наша же часть команды за основу взяла машинное обучение. То есть, нам необходимо представить текст, слова, предложения в понятной для компьютера форме. Например, компьютер не поймет, что такое «напали, победили», ему нужны цифры. Точнее, набор цифр, вектор. Мы и переводим предложения в эти понятные компьютеру цифры, а дальше он уже сам после освоения этого материала через написанную нами обучающую программу построит взаимосвязи. По крайней мере, мы очень на это надеемся».
Короткова Елизавета: «Наша группа пытается больше опираться на правила, которые ввел человек. Здесь как раз нужна я как лингвист: мы больше работаем именно с текстом, выявляя существующие в нем закономерности. Кроме программных средств, мы используем дополнительные лингвистические ресурсы, например, словари. Я в нашей группе в большей степени работаю со смыслами, с контекстом. Вторая группа выявляет эти закономерности чисто математически, только с использованием машинного обучения. Потом мы надеемся объединить два подхода и взять лучшее из того, что найдем мы и они».
Воскобойник Катерина, магистрантка, Хельсинки: «Мне кажется, сначала мы грустили немножко. А сейчас мы начали собираться. Сначала мы никто друг друга не знали, поэтому всё больше сидели, молчали. Теперь мы за пару дней познакомились и уже не так сложно какие-то глупые идеи говорить».
О преподавателях
Клышинский Эдуард Станиславович: «Начнем с Максима Ионова. Он на школе работает тьютором и читает лекции. Он приехал из Франкфурта, где преподает в университете.
Наталья Валентиновна Лукашевич работает в научно-исследовательском вычислительном центре МГУ и помогла с определением темы школы и тех данных, которые используются для постановки задачи участникам. Она работает в области определения тональности текстов, является крупным специалистом по антологиям и тезаурусам в России.
Елена Игоревна Большакова, специалист с нашего ФКН, является серьезным специалистом в области машинного обучения.
Константин Вячеславович Воронцов – специалист по математическому моделированию.
Петр Ермаков – аспирант у нас в МИЭМе и одновременно руководит группой, которая занимается анализом данных в Mail.ru.
В каких направлениях сегодня можно ожидать развития в машинном обучении
Большакова Елена Игоревна: «Конечно, в первую очередь, в области информационного поиска. Самое интересное здесь по-прежнему – та задача, из которой всё выросло. Это машинный перевод. Полностью хорошего, идеального машинного перевода на открытой тематике не будет никогда. Идеал всегда будет недосягаем, поэтому здесь всегда есть куда стремиться».
Воронцов Константин Вячеславович
Ермаков Петр Дмитриевич