Predictive analitycs via machine learning
Создание обучаемых компьютеров как инструментов прогнозирования будущего: победные стратегии управления в бизнес аналитике.
Послание моим будущим студентам и аспирантам.
Эпиграф : Великие достижения рождаются от великих целей. Японская пословица.
А.В. Шмид д.т.н., профессор, заведующий базовой кафедрой «Информационно-аналитические системы ЗАО ЕС-лизинг» МИЭМ НИУ ВШЭ.
В сентябре 2015 года на мега факультете МИЭМ НИУ ВШЭ начинается обучение по магистерской программе «Вычислительные системы и сети». Одной из специализаций этой образовательной программы является трек «информационно-аналитические системы», целью которого является подготовка магистров в области методов инжиниринга и технологии создания, использования, сопровождения и развития таких разновидностей современных информационно-аналитических систем, как экспертные системы, а также обучаемых компьютеров как вида автоматизированных систем обработки информации и управления, в их жизненном цикле.
Согласно стратегическому прогнозу развития информатики на период 2005 - 2015, разработанному в IBM, к 2015 году новое поколение обучаемых компьютеров (экспертных систем - ЭС) будет превосходить людей по качеству принимаемых решений сначала в некоторых, а затем и в большинстве областей человеческой деятельности.
Для подтверждения состоятельности этого прогноза достаточно отметить, что ЭС Watson фирмы IBM в этом (2013) году на общих основаниях сдала университетские экзамены и получила диплом врача, приобретя юридическое право лечить людей. И в области онкологии уже демонстрирует блестящие результаты. Коммерчески доступны также индустриальные и банковские приложения ЭС. На этом фоне показательно заявление CEO IBM - V. Rometty1: в течение следующих 5 лет все фирмы разделятся на победителей и побежденных в зависимости от качества принимаемых корпоративных решений (с применением ЭС!!!).
В ближайшем будущем качество (решений) уже не может, и не будет опираться на опыт и интуицию: конкурентные преимущества будут достигаться с учетом прогнозирования последствий принимаемых решений (predictive analitics). А технологическая "гонка вооружений" в области ИТ будет идти и уже идет за достижение превосходства по основным характеристикам применяемых ЭС: информированности и интеллектуальности.2
Согласно прогнозам McKinsey3 Global Institute эта новая область ИТ технологий в недалеком будущем станет и новой областью экономик, превосходящих по своей значимости нефтегазовый сектор. С тем отличием, что "сырьем" для переработки здесь будут не нефть и газ, а огромный и быстрорастущий объем мировых данных с необходимостью создания "заводов" по переработке "сырья" - ЭС.
Налицо поэтому ДВЕ угрозы любой национальной экономике:
А. Потеря конкурентоспособности предприятий, для которых будут недоступны современные и будущие технологии принятия конкурентоспособных решений.
Проблема в том, что Современные ЭС уже относятся к классу обучаемых систем, в которых персонал постоянно совершенствует приданные ему средства автоматизации в процессе эксплуатации (дообучает ЭС). И конкурентные свойства ЭС определяются совокупностью качеств персонала и ЭС. Таким образом остается открытым вопрос доступности персонала, способного дообучать ЭС в ходе эксплуатации для достижения конкурентных преимуществ. Вместе с тем, по мнению V. Rometty1, в США этому пока не учат, но собираются учить (predictive analitics).
ПРОБЛЕМА ОБУЧЕНИЯ ПЕРСОНАЛА ДЛЯ СОЗДАНИЯ, ЭКСПЛУАТАЦИИ И РАЗВИТИЯ ЭС ЯВЛЯЕТСЯ МЕЖДУНАРОДНОЙ.
В. Снижение конкурентоспособности экономики В ЦЕЛОМ в случае выпадения из мирового разделения труда в новом секторе инновационной экономики: "машиностроения" ЭС ("заводов" по переработке "сырья" - больших данных).
Несмотря на новизну и необычность сектора создания НОВОГО КЛАССА НЕМАТЕРИАЛЬНЫХ АКТИВОВ (обучаемых ЭС и сектора услуг по их обучению), базовые законы экономики никто не отменял. Объемы производства и в этом секторе, как и ранее, будут определяться как ЧИСЛОМ работающих, так и ПРОИЗВОДИТЕЛЬНОСТЬЮ ТРУДА работающих. Производительность же труда при создании ЭС (как и ранее в программировании) будет определяться наличием средств автоматизации разработки заключительного продукта из готовых крупных строительных блоков программ (ранее в программировании - языки высоко уровня, СУБД, мониторы транзакций - и т.д,).
При создании ЭС на основе коммерчески доступной платформы (например) IBM BIG DATA основные компоненты платформы (более 600) позиционируются фирмой - изготовителем именно как АКСЕЛЕРАТОРЫ (ускорители) разработки ЭС. То есть, как средства радикального повышения производительности труда в новом "машиностроении" - производстве ЭС.
Итак, для удовлетворения потребностей инновационного развития экономики (например в РФ) по экспертным оценкам в ближайшие годы потребуются десятки тысяч специалистов в области создания и развития ЭС - нового поколения обучаемых компьютеров.
Необходимым условием (но не достаточным!) самой возможности организации обучения такого рода специалистов является наличие доступа при обучении к современным средствам проектирования ЭС: платформам BIG DATA - букварю новой компьютерной грамотности, конструктору для первоначальной сборки ЭС. Стандартные требования к функциям платформ BIG DATA представлены на рис. 1 (левая колонка), а базовые программные продукты, отвечающие этим требованиям из арсенала платформы BIG DATA IBM - в правой колонке рис. 1.
Рис 1. Требования к функциям платформы BIG DATA.
Однако, для ответа на вопрос чему же еще надо учить специалистов в области создания и развития ЭС, после первоначальной сборки ЭС из конструктора платформы, СЛЕДУЕТ ВСПОМНИТЬ, что коммерчески значимым информационным продуктом ЭС является РЕШЕНИЕ в той или иной области человеческой деятельности. И специалисты этих специальностей должны уметь работать с ЭС В ЦЕЛОМ, оценивать качество принимаемых ЭС решений и уметь повышать качество ЭТИХ принимаемых решений в ходе эксплуатации и развития ЭС. Иными словами владеть знаниями и навыками по доводке ФУНКЦИОНАЛА, реализуемого ЭС до желаемого состояния - уметь обучать ЭС, как по составу учитываемых аргументов предметной области (развитие информированности ЭС), так и по моделям принятия решений на основе собираемой в предметной области информации (развитие интеллектуальности).
Для конкретизации понимания деталей процесса обучения ЭС обратимся к простейшей модели принятия РЕШЕНИЙ из [2] представленной на рис. 2, обратив внимание на основные процессы, реализуемые в этой схеме: сбор данных и выделение информации, методы и модели выработки решения и мер воздействия на ситуацию, с последующим анализом реакции объекта управления на меры воздействия.
Рис 2. Основные процессы подготовки РЕШЕНИЯ
Из соображений здравого смысла следует, что повлиять на качество решения в принципе можно двумя путями: расширяя состав и объем накапливаемой информации по предметной области всех видов и видоизменяя модели выработки решения по имеющейся информации. По аналогии с адаптивными системами управления с обратными связями можно предположить, что наличие обратных связей как при поиске данных и выделения из данных информации, так и при принятии решений может положительно повлиять на качество работы ЭС.
На рис. 3 приводится одна из возможных современных схем принятия решений [2], отличающаяся наличием множественных обратных связей на всех этапах работы ЭС, в значительной степени из меняющих ролевые модели персонала АС. С возникновением новых требований к квалификации персонала, работающего в командах обучаемых компьютеров.
Очевидно, что требования к квалификации персонала креативной команды ОБУЧАЕМОГО компьютера рис. 3 определяются позициями специалистов в ролевой модели Современной схемы принятия решений.
Рис. 3. Современная схема принятия решений
Поэтому главными требованиями к знаниям и квалификации персонала креативных команд обучаемых компьютеров, сформулированных по крупному, являются требования к умению работы со всей совокупностью обратных связей повышения качества решений ОБУЧАЕМОГО компьютера: умения и знания УЧИТЕЛЯ ОБУЧАЕМОГО компьютера.
По сути дела, старая специальность УЧИТЕЛЯ, но в новой реальности. На основе новых технологий обучения и необычных учеников ДИАЛЕКТИКА.
Очевидно, что необходимой материальной основой обучения является доступ в процессе обучения как к технологиям, так и к ученикам: к макетам обучаемых компьютеров, к тренажерам обучения.
С целью удовлетворения потребности доступа к такого рода технологиям, фирмой ЕС-ЛИЗИНГ (ЕСЛ) совместно с IBM в конце 2012 года создан первый в РФ Центр компетенции технологий платформы IBM BIG DATA - базовым технологиям создания ЭС Watson. В этом Центре на основе ВЦ ЕСЛ (вся линейка оборудования IBM, включая IBM z и Netezza) развернуты в полном объеме продукты платформы IBM BIG DATA, а также основные университетские лабораторные работы IBM по начальному обучению этим продуктам.
Развернута также и ЦЕНТРАЛИЗОВАННАЯ ИНФОРМАЦИОННО-АНАЛИТИЧЕСКАЯ СИСТЕМА: платформа для одновременного исполнения многих учебных задач и тренажеров для реализации процессов обучения обучаемых компьютеров, представленная на рис 4., созданная по проекту ЕСЛ.
Рис. 4. Группировка обучаемых компьютеров для макетирования процессов обучения в различных областях бизнеса.
Ее базовыми составляющими являются:
- группировка виртуальных обучаемых компьютеров (синие, зеленые и красные квадраты) для применения в различных областях бизнеса;
- ИАП (Информационно-аналитическая платформа): виртуальная среда исполнения многих обучаемых компьютеров;
- ЦОД - центр обработки данных.
Процессы обучения обучаемых формализуются в лабораторных работах, разрабатываемых магистрантами и аспирантами.
Самообучение СПЕЦИАЛИСТОВ в настоящее время организуется на основе базовой кафедры «Информационно-аналитические системы ЗАО ЕС-лизинг»", созданной в МИЭМ НИУ ВШЭ в 2013 с предоставлением облачного доступа преподавателям и студентам к возможностям Центра. Завершившие обучение по магистерской программе кафедры получают сертификат IBM для работы в области BIG DATA.
Особенностью обучения на базовой кафедре ЕСЛ является непременное участие студентов под руководством преподавателей в практическом проектировании систем, реализуемых для заказчиков ЗАО ЕСЛ.
Центр компетенции IBM BIG DATA - ЕСЛ является материально - технической основой для проведения НИР и ОКР в области создания современных информационно аналитических систем, в том числе ЭС. Для заинтересованных организаций Центром компетенции IBM - ЕСЛ оказывается целый спектр услуг по оказанию помощи в освоении технологий BIG DATA и организации обучения персонала по макетированию аналитических систем для выбора направлений их развития.
С точки зрения внешних пользователей Центр компетенции выглядит так, как это показано на Рис. 5 в виде мощного пылесоса разнообразных данных и их последующей обработки в интересах множества виртуальных обучаемых компьютеров: прикладных задач внешних пользователей, макетирующих их исполнение и обучающих свой персонал креативных команд.
Рис 5.
РЕАЛИЗУЕТ ГРУППИРОВКУ ТРЕНАЖЕРОВ ОБУЧЕНИЯ РЕШЕНИЮ РАЗНОХАРАКТЕРНЫХ БИЗНЕС-ЗАДАЧ.
ВЫВОДЫ.
1. В конкурентной борьбе как за качество принимаемых корпоративных решений, так и за долю рынка в новой экономике, ключевую роль играет производительность труда проектировщиков ЭС. Целевая производительность труда может быть достигнута только с применением платформ BIG DATA - крупноблочных конструкторов для строительства ЭС.
2. Применение технологий BIG DATA приводит к появлению обучаемых ЭС, отличающихся от традиционных ЭС схемой принятия решений и наличием возможности обучения в ходе эксплуатации, с соответствующим изменением требований к ролям и квалификации персонала.
3. Подготовка специалистов для крупноблочного проектирования и последующего обучения ЭС требует доступа обучаемых к тренажерам ЭС, обеспечивающим формирование необходимых знаний и навыков.
1 -Беседы с Виржинией Рометти - http://www.cfr.org/technology-and-science/conversation-ginni-rometty/p30181
2 Учебник 4 CIO Шмид А.В . Революция в области философии и технологиях принятия корпоративных решений - http://4cio.activetextbook.com/active_textbooks/34#page642
3 - McKinsey Global Institute, “Distruptive technologies: Advances that will transform life, business, and the global economy”, May 2013
14 декабря 2014 года профессор Шмид А.В. был участником передачи по проблематике Big Data, которая состоялась в программе «Точка» на радиостанции Эхо Москвы. Запись этой передачи доступна по адресу http://2.cdn.echo.msk.ru/snd/2014-12-14-tochka-2207.mp3