Автоматическая обработка текстов и анализ больших данных
Цель настоящей программы: совершенствование профессиональных компетенций обучающихся в области основ автоматической обработки текстов и анализа больших данных.
Полученные занятия и навыки могут быть использованы при организации и ведении проектной деятельности учащихся.
Программа предназначена для учителей физики, информатики и технологии образовательных организаций общего образования, педагогов дополнительного образования в сфере политехнического образования, преподавателей вузов.
Тематический план:
Тема 1: Этапы анализа текстов на естественном языке
• Токенизация, морфологический анализ, синтаксический анализ, семантический анализ, дополнительные этапы, неоднозначность при разборе текста.
Тема 2: Морфологический анализ текстов, векторизация текстов
• Представление текста в виде вектора, метрики важности слов в тексте, распределение Ципфа
Тема 3: Синтаксический анализ естественных языков
• Методы синтаксического анализа, деревья составляющих, деревья зависимостей. Библиотеки UDPipe и SpaCy
Тема 4: Методы определения расстояния между текстами. Методы кластеризации текстов
• Расстояния Хэмминга и Левенштейна. Косинусное расстояния, расстояние Жаккара. Неметричность мер расстояний. Библиотеки sklearn для расчета расстояний. Методы кластеризации к-средних и DB-SCAN библиотеки sklearn
Тема 5: Методы классификации текстов. Метрики качества анализа текстов
• Метод к-ближайших соседей. Полнота, точность, F1-мера. Библиотеки sklearn для классификации
Тема 6: Загрузка информации из сети Интернет
• Передача данных в сети Интернет, форматы HTML и JSON. Библиотеки requests, BeuatyfulSoup, XPath
Объем программы: 18 часов
В содержании разделов (модулей) программы определено оптимальное соотношение лекционных и практических занятий. Во время прохождения программы будет выполнен несколько проектов на закрепление полученных навыков.
Дополнительная профессиональная образовательная программа реализуется в очном формате с активной дистанционной поддержкой. Дистанционная поддержка программы предполагает самостоятельную работу с применением информационно-телекоммуникационных сетей при опосредованном (на расстоянии) взаимодействии обучающихся и педагогических работников, а также возможности получения консультаций у преподавателей данного курса.
Контингент обучающихся – только учителя школ, имеющих статус участника или кандидата в проекте «ИТ-класс в московской школе» Департамента образования города Москвы
Форма обучения: дистанционный формат
Обучение для данного контингента обучающихся – бесплатное
Место проведения занятий – город Москва, улица Таллинская, д.34, МИЭМ НИУ ВШЭ, метро Строгино (последний вагон из центра, пешком 5 минут от метро).
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.