Читайте на индонезийском языке
COMPFEST 15, проходивший в Депоке, стал вторым выпуском Академии наук о данных (DSA) в лагере 2 с 14 по 19 августа 2023 года. Лагерь, проводившийся онлайн через платформу Zoom, длился четыре дня. Участники, 10 лучших команд, предварительно отобранных COMPFEST, углубились в машинное обучение в области науки о данных. На сессиях выступали компетентные спикеры, хорошо разбирающиеся в своей области. Заинтригованы волнением? Узнайте больше в статье ниже!
День 1. Введение в машинное обучение
Начав второй лагерь Академии наук о данных, первый день был посвящен «Введению в машинное обучение». Обсуждение охватывало данные, основы машинного обучения и разработку функций. Материал представил старший специалист по данным в Jakarta Smart City Энди Суласикин. Суласикин подчеркнул экспоненциальный рост данных благодаря быстрому развитию информационных технологий. Собранные данные требуют от организации преобразовать их в ценную информацию, которая, в свою очередь, формирует основу для применения знаний при решении проблем и бизнес-процессах.
По словам Энди, данные являются краеугольным камнем искусственного интеллекта. Процесс машинного обучения отражает человеческое обучение: точно так же, как люди учатся на опыте, машины учатся на данных. Следующая затронутая тема — машинное обучение. Анди подчеркнул ключевой момент: не все проблемы требуют решения машинного обучения, и не все проблемы можно решить с помощью традиционного программирования. Мы должны понять, когда следует использовать машинное обучение, а когда достаточно обычного программирования. Энди приступил к описанию типов машинного обучения: контролируемое, неконтролируемое и обучение с подкреплением.
В следующем сегменте «Разработка функций» поясняется, что этот процесс происходит до моделирования и подготовки данных. Анди подробно описал методы проектирования функций, такие как масштабирование, преобразование журналов, горячее кодирование, обработку выбросов и вменение. Модуль завершился сессией вопросов и ответов с участниками и Анди, а также викториной под руководством ведущего.
День 2. Обучение под наблюдением
Второй день Лагеря 2 Академии наук о данных был посвящен «контролируемому обучению». В этой теме изучались методы обучения с учителем, включая линейную регрессию, логистическую регрессию и случайный лес. Материал представил Мухаммад Анга Муттакин, сооснователь и генеральный директор компании Indonesia AI.
Ангга подробно остановился на различиях между искусственным интеллектом, машинным обучением и глубоким обучением. Он проиллюстрировал эту связь как движение от общего к частному. Сосредоточившись на контролируемом обучении, Ангга приступил к изучению линейной и логистической регрессии — фундаментальных моделей в этой области.
По словам Ангги, линейная и логистическая регрессия, которую часто называют «привет, мир» в науке о данных, содержат важные знания для всех специалистов по данным. Хотя они больше не являются основными моделями в этой области, они остаются важнейшей основой. Линейная регрессия обращается к непрерывным данным, тогда как логистическая регрессия имеет дело с дискретными данными, такими как двоичные результаты.
Расширяя практические применения, Ангга представил модель случайного леса, жизненно важную как для задач регрессии, так и для задач классификации. Обсуждение распространилось на взаимодействие между энтропией и случайным лесом.
После изучения материала последовало практическое занятие, позволившее участникам закрепить свое понимание посредством практического применения. Мероприятие завершилось увлекательной сессией вопросов и ответов и увлекательной викториной.
День 3. Обучение без учителя
В третий день приняла участие Сити Амина, преподаватель факультета компьютерных наук и научный сотрудник Университета Индонезии. Сити предоставил обучающий контент без присмотра, углубляясь в такие темы, как кластеризация, кластеризация k-средних, иерархическая кластеризация и настройка гиперпараметров.
Обучение без учителя, отрасль машинного обучения, работает с данными, не имеющими четких меток или целей. Его основная цель — выявить закономерности или структуры, существующие в данных, без каких-либо указаний на основе меток. Сити подчеркнул, что когда данным не хватает меток, присвоить которые может быть дорого или сложно, обучение без учителя предлагает ценное решение.
Кластеризация — это центральный метод обучения без учителя. В отличие от контролируемой классификации с известными метками, кластеризация решает проблему идентификации неизвестного количества и типов групп в данных. Кластеризация служит цели группировки данных путем выявления присущих им закономерностей. Оценка кластеризации, отметил Сити, более сложна, чем классификация, поскольку результаты могут быть субъективными и зависеть от цели кластеризации.
Частичная кластеризация разделяет наборы данных на отдельные непересекающиеся группы, тогда как иерархическая кластеризация создает многоуровневую структуру групп и подгрупп. Среди методов разделения заметную роль играет кластеризация K-средних, но она имеет ограничения, включая чувствительность к инициализации центроида и выбросам. С другой стороны, иерархическая кластеризация подходит для данных с иерархической структурой.
Как и в предыдущий день, за презентацией материала последовала увлекательная сессия вопросов и ответов и практические упражнения.
День 4 — Глубокое обучение
Переходя к четвертому дню мероприятия, все внимание было сосредоточено на Микаэле Алвиане Ризки в качестве ведущего. Руководил дискуссией Микаэль, опытный инженер-программист и бывший ассистент преподавателя курса «Искусственный интеллект и базовые науки о данных». Его сеанс был посвящен глубокому обучению, охватывающему нейронные сети, функции активации, эпохи и пакеты, классификацию изображений, и завершился практическим занятием с использованием TensorFlow.
Глубокое обучение ориентируется в области более абстрактных данных по сравнению со структурированными табличными данными, к которым обращается машинное обучение. Микаэль приравнял нейронные сети к функционированию нашего собственного мозга, а нейроны — к его элементарным строительным блокам. Он провел параллель между нейронными сетями и процессом восприятия человеческого глаза: там, где глаз получает визуальную информацию, нейронная сеть принимает и обрабатывает данные через свои слои. Эти уровни состоят из входного слоя (прием входных данных), скрытого уровня (внутренняя обработка) и выходного уровня (результат прогнозирования или классификации).
Следующей темой стала функция активации. Микаэль сравнил эту функцию с переключателем, который выключается при отрицательных результатах и включается при положительных. Продвигаясь вперед, он обсудил эпохи, которые показывают, сколько раз модель сталкивается с обучающими данными. В глубоком обучении эпохи имеют решающее значение для того, чтобы модель могла усвоить шаблоны данных и уменьшить переобучение.
Впоследствии Микаэль исследовал сверточные нейронные сети, объединение слоев, сглаживание и полностью связный слой. Эти дискуссии высветили сложный мир глубокого обучения и его различные компоненты.
После сеанса презентации материала импульс перешел в практическое занятие с использованием TensorFlow. Здесь Микаэль применил теорию на практике, позволив участникам напрямую использовать концепции, объясненные ранее. После практических упражнений последний сегмент включал в себя практические примеры из реальной жизни, лично представленные Микаэлем. Давая инструкции по решению этих случаев, Микаэль руководил участниками. После разделения групп на группы, назначенные комитетом, участникам было предоставлено два часа для работы над тематическим исследованием. Впоследствии была выбрана группа для представления своих результатов.
После завершения лагеря 2 DSA интервью с одной из групп Академии наук о данных, Infinity, в которую входят Балкис, Адит и Амар, пролило свет на их опыт. Балкис отметил: «Академия наук о данных COMPFEST — это действительно полезный, невероятно увлекательный и совершенно новый опыт. Особенно во время семинара по тематическому исследованию, где мы сотрудничали с разными командами». Выразив надежду на дальнейший рост программы Академии наук о данных, они подчеркнули ее важность из-за ограниченности ресурсов обучения науке о данных в Индонезии. Они рассматривали программу как инструмент демократизации знаний в области науки о данных для более широкой аудитории.
DSA продолжится в Лагере 3, а также состоятся еще серии соревнований COMPFEST. Итак, продолжайте следить за нашим путешествием через наши аккаунты в социальных сетях @compfest в Twitter, Instagram, Facebook, LinkedIn и на нашем сайте compfest.id. Чтобы получить больше удовольствия от Академии COMPFEST, прочитайте полные статьи на нашей странице Средний. (Редакционный маркетинг/Мухаммад Икбал)