• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Автоматическая обработка текстов и анализ больших данных

Цель настоящей программы: совершенствование профессиональных компетенций обучающихся в области основ автоматической обработки текстов и анализа больших данных.

Полученные занятия и навыки могут быть использованы при организации и ведении проектной деятельности учащихся.
Программа предназначена для учителей физики, информатики и технологии образовательных организаций общего образования, педагогов дополнительного образования в сфере политехнического образования, преподавателей вузов.

Тематический план:

Тема 1: Этапы анализа текстов на естественном языке
•            Токенизация, морфологический анализ, синтаксический анализ, семантический анализ, дополнительные этапы, неоднозначность при разборе текста.

Тема 2: Морфологический анализ текстов, векторизация текстов

•             Представление текста в виде вектора, метрики важности слов в тексте, распределение Ципфа

Тема 3: Синтаксический анализ естественных языков

•             Методы синтаксического анализа, деревья составляющих, деревья зависимостей. Библиотеки UDPipe и SpaCy

Тема 4: Методы определения расстояния между текстами. Методы кластеризации текстов

•             Расстояния Хэмминга и Левенштейна. Косинусное расстояния, расстояние Жаккара. Неметричность мер расстояний. Библиотеки sklearn для расчета расстояний. Методы кластеризации к-средних и DB-SCAN библиотеки sklearn

Тема 5: Методы классификации текстов. Метрики качества анализа текстов

•             Метод к-ближайших соседей. Полнота, точность, F1-мера. Библиотеки sklearn для классификации

Тема 6: Загрузка информации из сети Интернет

•             Передача данных в сети Интернет, форматы HTML и JSON. Библиотеки requests, BeuatyfulSoup, XPath

 
Объем программы: 18 часов

В содержании разделов (модулей) программы определено оптимальное соотношение лекционных и практических занятий. Во время прохождения программы будет выполнен несколько проектов на закрепление полученных навыков.

Дополнительная профессиональная образовательная программа реализуется в очном формате с активной дистанционной поддержкой. Дистанционная поддержка программы предполагает самостоятельную работу с применением информационно-телекоммуникационных сетей при опосредованном (на расстоянии) взаимодействии обучающихся и педагогических работников, а также возможности получения консультаций у преподавателей данного курса.

Контингент обучающихся – только учителя школ, имеющих статус участника или кандидата в проекте «ИТ-класс в московской школе» Департамента образования города Москвы

Форма обучения: дистанционный формат

Обучение для данного контингента обучающихся – бесплатное

Место проведения занятий – город Москва, улица Таллинская, д.34, МИЭМ НИУ ВШЭ, метро Строгино (последний вагон из центра, пешком 5 минут от метро).


 

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.