Что нужно, чтобы стать №1 в мире на Kaggle
В беседе с Гуаньшуо Сюй: специалистом по анализу данных, гроссмейстером соревнований Kaggle (ранг 1) и доктором философии. в области электротехники.
В этой серии интервью я представляю истории признанных Data Scientists и гроссмейстеров Kaggle на H2O.ai, которые делятся своим путешествием, вдохновением и достижениями. Цель этих собеседований - мотивировать и воодушевить других, кто хочет понять, что нужно для того, чтобы стать гроссмейстером Kaggle.
В этой статье я расскажу о своем взаимодействии с Гуаньшо Сюй. Он является гроссмейстером соревнований Kaggle и специалистом по анализу данных в H2O.ai. Гуаньшуо получил докторскую степень. Имеет степень кандидата технических наук в области электротехники и электроники в Технологическом институте Нью-Джерси, специализируясь на судебной экспертизе изображений и стеганализе на основе машинного обучения.
Гуаньшуо - человек многих достижений. Его методы обнаружения и локализации подделки изображений в реальном мире заняли второе место в First IEEE Image Forensics Challenge. Его архитектурный дизайн глубоких нейронных сетей впервые превзошел традиционные методы на основе функций в стеганализе изображений. Совсем недавно Guanshuo также занял первое место в мире в рейтинге соревнований на Kaggle, победив в соревнованиях Alaska2 Image Steganalysis и RSNA STR по обнаружению легочной эмболии.
Вот также ссылка на интервью Гуаньшуо на CTDS.show, где он обсуждает свои достижения на Kaggle.
В этом интервью мы узнаем больше о его академическом образовании, страсти к Kaggle и его пути к титулу номер один. Вот отрывок из моего разговора с Гуаньшуо:
У вас есть докторская степень. в области электротехники. Повлияло ли это как-то на ваше решение заняться машинным обучением в качестве профессии?
Гуаньшуо: Да, в моем докторском исследовании использовались методы машинного обучения для решения таких проблем, как обнаружение подделки изображений и обнаружение скрытых данных. Например, мой последний доктор философии. Исследовательский проект заключался в использовании глубоких нейронных сетей для стеганализа изображений. Итак, мое образование и исследования напрямую связаны с машинным обучением. Таким образом, машинное обучение было для меня естественным выбором карьеры.
Как началось ваше свидание с Kaggle и что поддерживало вас на протяжении всего пути вашего гроссмейстера?
Гуаньшуо: с тех пор, как я открыл для себя kaggle, я пристрастился к нему. Некоторыми из факторов, побуждающих к продолжению соревнований на Kaggle, могут быть совокупное удовлетворение от победы в соревнованиях и призовых денег, изучение новых методов, расширение и углубление моего понимания машинного обучения и создание удивительно эффективных моделей.
Каково быть №1 в мире на соревнованиях? Оказывает ли это дополнительное давление во время соревнований?
Гуаньшуо:. Честно говоря, стремление сохранить первое место в рейтинге требует гораздо большего, чем его достижение. Это потому, что это требует «более плавной» работы. Иногда мне приходится участвовать в большем количестве соревнований одновременно, чем раньше.
Как вы обычно подходите к проблеме Kaggle?
Гуаньшуо: Мой подход зависит от типа проблемы и цели соревнования. В настоящее время я часто трачу дни или даже недели на понимание данных и проблемы и обдумывание решения, которое включает, например, угадывание распределения частных тестовых данных, правильную схему проверки, подробные шаги моделирования и т. Д. У меня есть хорошее представление об общем подходе, я начинаю кодировать и моделировать. Этот процесс помогает мне лучше понять и при необходимости внести исправления или корректировки в общий подход.
Не могли бы вы познакомить нас с вашим набором инструментов, например с любимым языком программирования, IDE, алгоритмами и т. д.
Guanshuo: Что касается моего набора инструментов, я в основном использую gedit, Python и Pytorch для глубокого обучения.
Область науки о данных стремительно развивается. Как вам удается быть в курсе всех последних событий?
Гуаньшуо: я узнаю о большинстве новых вещей и технологий через Kaggle, моих коллег или даже просто через Google. Что касается новых разработок в области машинного обучения, это зависит от реальных потребностей. Я стараюсь отфильтровывать все, что не помогает мгновенно, и, возможно, слежу за потенциально интересными вещами. Затем я возвращаюсь к нему по мере необходимости.
Совет для соискателей науки о данных, которые только начали или хотят начать свой путь в науке о данных?
Гуаньшуо: в основном зависит от происхождения и интересов каждого человека. Однако поиск подходящей платформы для обучения и развития навыков в целом может значительно упростить задачу. Кроме того, участие в соревнованиях Kaggle может оказаться дополнительным полезным ресурсом.
Достичь первого места в мире - нелегкий подвиг, и безжалостное отношение и упорный труд Гуаньшо заслуживают всяческих похвал. Взгляд на его различные успешные решения на Kaggle демонстрирует его структурированный подход, который является важным элементом, который необходимо прививать для решения проблем.
Прочтите другие интервью из этой серии:
- Рохан Рао: путь специалиста по данным от судоку к Kaggle
- Шивам Бансал: специалист по данным, который руководит соревнованиями« Наука о данных во благо на Kaggle.»
- Знакомьтесь, Евгений: первый и единственный гроссмейстер Kaggle из Беларуси.
- Судалай Раджкумар: Как страсть к числам превратила этого инженера-механика в великого мастера Kaggle
- Габор Фодор: Вдохновляющее путешествие« Белуги из мира Kaggle 🐋»
- Познакомьтесь с Data Scientist, который просто не может перестать выигрывать на Kaggle
- Учиться у других необходимо для успеха в Kaggle, - говорит турецкий гроссмейстер
Изначально опубликовано в блоге H2O.ai
👉 Интересно прочитать другие статьи, написанные мной. Это репо содержит все написанные мной статьи по категориям.