Как и было обещано, проблемы, связанные с данными, будут более подробно описаны, но прежде чем углубиться в море, я приглашаю вас прочитать мои предыдущие статьи, чтобы получить полное представление того, о чем я говорю, и продолжить свое путешествие по машинному обучению в этой серии,





во время наших последних дискуссий мы сказали, что:

  • Количество данных — это реальная проблема для вашей модели машинного обучения, поскольку вы рассчитываете построить надежную модель, но даже обученный человек не видел достаточно данных, чтобы хорошо обобщать и, следовательно, быть более точным.

Чтобы малыш узнал, что такое яблоко, достаточно указать на яблоко и сказать «яблоко» (возможно, повторив эту процедуру несколько раз). Теперь ребенок может распознавать яблоки всех цветов и форм. Гений. Машинное обучение еще не совсем готово; для правильной работы большинства алгоритмов машинного обучения требуется много данных. Даже для очень простых задач вам обычно нужны тысячи примеров, а для сложных задач, таких как распознавание изображений или речи, вам могут понадобиться миллионы примеров (если вы не можете повторно использовать части существующей модели).

Орельен Жерон

Чтобы правильно отметить влияние количества данных, приведем знаменитую статью, опубликованную в 2001 году исследователями Microsoft Мишель Банко и Эриком Бриллом. и проанализируйте диаграмму внутри него:

Пошагово проанализировав приведенную выше диаграмму слева направо, мы приходим к выводу, что:

  • Чем больше мы передаем алгоритмам данных, тем выше показатель точности.
  • Разница между алгоритмами уже не заметна при достаточном количестве данных.
  • В целом, в будущем мы можем подумать о большем количестве и качестве собранных данных по сравнению с выбором алгоритма.

Подводить итоги,

Идея о том, что данные важнее алгоритмов для сложных задач, была популяризирована Петером Норвигом и др. в статье под названием «Необоснованная эффективность данных», опубликованной в 2009 г.10 Однако следует отметить, что наборы данных малого и среднего размера все еще очень распространены, и их не всегда легко или дешево получить. дополнительные обучающие данные — так что пока не отказывайтесь от алгоритмов. Орельен Жерон

Спасибо за ваше время,

Посетите мой веб-сайт: Домашняя страница — IsmailOuahbi.com
Следуйте за мной в LinkedIn, чтобы узнать больше.