Ваша программа машинного обучения хороша ровно настолько, насколько хороши ваши тренировочные наборы. Наборы данных являются неотъемлемой частью качества вашего машинного обучения, но вы не всегда можете иметь доступ к данным за закрытыми стенами или бюджет на покупку (или аренду) ключа.

Не отчаивайтесь. Существует множество наборов данных, по которым вы можете бесплатно тренировать машинное обучение. Вот 25 лучших вариантов для наборов данных машинного обучения с открытым исходным кодом. Каждый из них предлагает чистые данные с аккуратными столбцами и строками, чтобы ваши обучающие наборы выполнялись более плавно. Давайте взглянем.

25 открытых наборов данных машинного обучения для начала

Каждый из этих наборов данных может ответить на интересный вопрос, основанный на вашем основном поле. Они уже очищены и достаточно просты, чтобы работать без ошибок, не упуская слишком много полезной информации.

Обработка естественного языка

  • Amazon Reviews: коллекция из более чем 35 миллионов отзывов за последние 18 лет. Он включает в себя такие вещи, как рейтинги, отзывы в виде обычного текста и информацию о пользователях. Он также содержит полную информацию о продукте для справки.
  • Данные о ссылках на Википедию: вся мощь Википедии, включая четыре миллиона статей, содержащих 1,9 миллиарда слов. Параметры поиска разнообразны и включают поиск по словам и фразам, а также по частям абзацев.

Анализ настроений

  • Standford Sentiment Treebank: набор данных, содержащий обозначения тональности для более чем 10 000 фрагментов данных из обзоров Rotten Tomatoes, представленных в HTML.
  • Твиттер настроения авиакомпаний США: собранные твиты об авиалиниях США с четкими пометками для положительного, отрицательного и нейтрального тонов, датированные 2015 годом.

[Статья по теме: Поиск по набору данных Google запущен, чтобы помочь аналитикам просматривать репозитории]

Публичные правительственные данные

  • Data USA: всесторонний обзор различных наборов общедоступных данных США в забавных визуализациях. Сюда входят такие вещи, как население, здоровье и рабочие места.
  • Портал открытых данных ЕС: очень похож на Data USA, но с упором на страны, входящие в ЕС. Среди прочего, он включает такие области, как население, культура, энергетика и здоровье.

Финансы и экономика

  • Открытые данные Всемирного банка: данные о демографии населения и ключевых показателях развития.
  • Данные МВФ: сбор открытых данных Международного валютного фонда по таким вещам, как ставки долга, цены на сырьевые товары, международные рынки и валютные резервы.

Распознавание лиц

  • Маркированные лица в дикой природе: общий набор данных для обучения распознаванию лиц. Он включает 13 000 обрезанных лиц и группу людей с двумя разными изображениями в наборе данных.
  • Набор данных UMDFaces: включает статические и видеоизображения. Набор данных аннотирован и включает около 367 000 лиц более 8 000 предметов.

Наборы данных изображений

  • Imagenet: набор данных, содержащий более 14 миллионов изображений, доступных для скачивания в различных форматах. Он также включает интеграцию API и организован в соответствии с иерархией WordNet.
  • Открытые изображения Google: 9 миллионов URL-адресов общедоступных изображений, распределенных по более чем 6000 категориям. Каждое изображение находится под лицензией Creative Commons.

Здоровье:

  • Healthdata.gov: ресурс федерального правительства США, предоставляющий данные для улучшения показателей здоровья населения США.
  • База данных MIMIC Critical Care: наборы данных для вычислительной физиологии с неопознанными данными о состоянии здоровья 40 000 пациентов интенсивной терапии (демографические данные, показатели жизненно важных функций, лекарства и т. Д.)

СМИ

  • FiveThirtyEight Journalism: цифры, стоящие за некоторыми статьями этого центра журналистики. Полезно для визуализаций и историй с данными.
  • BuzzFeed Media: центр данных с открытым исходным кодом для всего, что касается Buzzfeed. Все, что их журналисты использовали для создания статей (организация рекомендует прочитать статьи, чтобы лучше понять, как использовались данные).

Транспорт

  • Национальное бюро путешествий и туризма США: предоставляет надежные наборы данных с обширной картиной индустрии туризма, включая такие вещи, как въездные и выездные путешествия и данные о международных посетителях.
  • Министерство транспорта: наборы данных по каждому полю, подпадающему под действие DOT, включая национальные парки, реестры водителей, информацию о мостах и ​​железных дорогах, а также портовые системы.

Речь

  • Flickr Audio Caption Corpus: 40 000 озвученных подписей из 8 000 изображений в удобном размере. Первоначально он был разработан для неконтролируемого обнаружения речевых паттернов.
  • Набор данных речевых команд: постоянно развивающаяся коллекция высказываний длиной в одну секунду от тысяч разных людей. Он все еще получает отзывы и полезен для создания базовых голосовых интерфейсов.

Звук

  • FSD (Freesound): сборник ежедневных звуков, собранных путем внесения взносов по лицензии с открытым исходным кодом.
  • Наборы экологических аудиоданных: они содержат некоторую частную информацию, но большая ее часть имеет открытый исходный код. Он содержит таблицы звуковых событий и таблицы акустических сцен.

Агрегаторы наборов данных

  • OpenDataSoft: 2600 порталов данных, организованных в виде интерактивной карты или по списку стран. Если вы его ищете, скорее всего, он здесь.
  • Kaggle: онлайн-сообщество специалистов по данным, в котором пользователи могут работать с наборами данных и загружать их. Это сообщество и ресурс в одном лице.
  • Репозиторий машинного обучения UCI: пользовательские наборы данных разного уровня чистоты. Это один из оригиналов, и вы можете загружать наборы данных, ничего не регистрируя.

[Условно-бесплатная загрузка: 20 бесплатных ресурсов ODSC для изучения машинного обучения]

Начало работы с машинным обучением

Это далеко не полный список наборов данных. Когда вы приступаете к следующему проекту данных, наличие места для старта в зависимости от предмета может помочь вам сократить начальное время. Они предлагают отличные наборы информации и бесплатно доступны для вас. Итак, есть ли у вас проект для своей организации или вы экспериментируете с чем-то самостоятельно, для вас всегда найдется набор данных.

Оригинальный пост здесь.

Прочтите больше статей по науке о данных на OpenDataScience.com, включая учебные пособия и руководства от новичка до продвинутого уровня! Подпишитесь на нашу еженедельную рассылку здесь и получайте последние новости каждый четверг.