Опубликуйте свои данные на Kaggle, чтобы поделиться ими с более чем 600 000 специалистов по данным
Kaggle наиболее известен проведением соревнований по машинному обучению. Эти соревнования помогли классифицировать китов в океанах и галактиках в небе; они помогли диагностировать диабетическую ретинопатию и спрогнозировать количество кликов по рекламе.
Сегодня мы выходим за рамки соревнований по машинному обучению и открываем Kaggle Datasets для всех. Теперь вы можете мгновенно делиться и публиковать данные через Kaggle. Это создает дом для вашего набора данных и место для его изучения нашим сообществом. Ваши данные сразу же становятся доступными в Kaggle Kernels, а это означает, что весь анализ и идеи доступны вместе с набором данных.
Это самый последний шаг в большом наборе изменений. В прошлом году мы запустили Kaggle Kernels (первоначально названные Scripts), воспроизводимую среду обработки данных, чтобы помочь нашему сообществу совместно работать над соревнованиями. Шесть месяцев назад мы запустили Kaggle Datasets с небольшими наборами данных, которые мы курировали. В прошлом месяце мы обновили наши профили, позволив пользователям хвастаться своими ядрами и участвовать в обсуждениях, а также своими выступлениями на соревнованиях.
Все это для того, чтобы вывести Kaggle за рамки соревнований: наша миссия - помочь миру учиться на данных, и мы хотим быть тем местом, куда приходят специалисты по данным, которые занимаются всей своей наукой о данных. Инженеры-программисты, читающие этот пост, думают, что Stack Overflow, GitHub и TopCoder объединены в одну платформу, ориентированную на данные.
Зачем публиковать набор данных на Kaggle?
Как ученый вы можете публиковать данные и код своего последнего эксперимента. Это позволит другим ученым в вашей области воспроизвести результаты в вашей статье и опираться на них. Это позволит другим более глубоко погрузиться в вашу работу и привлечет к ней более широкую аудиторию.
Как любитель, вы можете публиковать данные, которые вам интересны на Kaggle и развивать сообщество на основе набора данных, которое разделяет те же интересы.
Как автор пакета вы можете выпустить набор данных и код, демонстрирующий ваш пакет с примерами исполняемой документации. Специалисты по обработке данных считают, что учиться на примерах быстрее и проще, чем на обширной документации по API.
Как студент, вы можете использовать Kaggle для создания классных проектов. Это избавляет вас от необходимости настраивать локальную аналитическую среду и позволяет приступить к созданию вашего портфолио в области науки о данных. Недавно мы обновили профили Kaggle и систему прогресса, чтобы акцентировать внимание на коде и обсуждении, сделав их еще более полезными для менеджеров по найму в области науки о данных.
Как поставщик данных вы можете выпустить образец своего набора данных. Это лучший способ продемонстрировать потенциал ваших данных крупнейшему в мире сообществу специалистов по данным.
Как компания или некоммерческая организация вы можете публиковать данные, которые вы хотите, чтобы наше сообщество изучило. В Kaggle мы публикуем большую часть общедоступных данных на сайте в легко усваиваемой форме. Мы многое узнали о собственном бизнесе из ядер, созданных нашим сообществом.
Как правительство вы можете публиковать данные, которые собирают ваши агентства на Kaggle. Вместо того, чтобы запускать свои наборы данных в пустую комнату, вы можете выпустить их в яркую экосистему и увидеть, какие идеи сообщество Kaggle находит в ваших данных.
Публикация ваших данных через Kaggle
Создание нового набора данных
Обмен данными через Kaggle невероятно прост. После того, как вы подготовили свои данные, вам понадобится всего несколько минут, чтобы опубликовать их на Kaggle.
Получение видимости для вашего набора данных
Публикация ваших данных на Kaggle отображает их в Kaggle Datasets, а также в вашем собственном профиле пользователя. Мы рекомендуем вам опубликовать свой набор данных в Твиттере и поделиться им с теми, кто в нем заинтересован. Мы также регулярно предоставляем нашему сообществу высококачественные и хорошо задокументированные наборы данных как в нашем блоге, так и в информационных бюллетенях.
Изучение набора данных
Создание набора данных на Kaggle немедленно делает его доступным в нашей воспроизводимой среде науки о данных, Kaggle Kernels. Затем любой пользователь Kaggle может создать новый скрипт или записную книжку, что позволит им запускать код R, Python, Julia и, возможно, SQLite с данными без загрузки. Мы поддерживаем контейнеры Docker для каждого языка со всеми уже установленными часто используемыми пакетами аналитики.
Скачивание набора данных
Наше сообщество также может загружать данные и работать с ними локально. Они смогут загрузить zip-архив со всем набором данных, который мы создаем автоматически, или с файлами по отдельности.
Изучите код и идеи, которые создает наше сообщество
Вы сможете увидеть код и идеи, которыми сообщество делится через ядра Kaggle, а также пообщаться с сообществом через дискуссионные форумы. Дискуссионные форумы также способствуют развитию сообщества сотрудников, которые развивают сами данные, исследуя их и отвечая на вопросы друг друга.
Фид активности набора данных
Вы сможете отслеживать действия с набором данных через его фид. Это отображает новые запуски ядра, комментарии и версии наборов данных.
Версии набора данных
Наш интерфейс делает создание и вывод на поверхность новой версии набора данных безболезненным как для вас, так и для сообщества. Мы сохраняем доступ к историческим версиям набора данных для воспроизводимости и добавляем предупреждение, когда вы работаете со старыми версиями данных.
Любые вопросы?
Мы с нетерпением ждем того, что вы опубликуете и создадите на Kaggle! Если у вас есть какие-либо вопросы, комментарии или проблемы, напишите на нашем форуме или напишите мне по адресу [email protected].
Спасибо Анне Монтойя, Энтони Голдблуму, Джеффу Мозеру, Джераду Роузу, Рэнду Си, Меган О’Коннелл, Стивену Мерити и Уолтеру Риду за чтение черновиков.
пс. Хотите помочь воплотить наше видение в жизнь и воплотить его в жизнь? Мы нанимаем программистов полного цикла