Наука о данных

Наука о данных будет демократизирована (менее чем за 10 лет)

Все, что нам нужно для начала работы с данными, доступно и доступно

Надеюсь, первая серьезная попытка была предпринята в 1985. Революционное программное обеспечение изменило наше представление о данных. Это позволило обычным людям проводить необычный анализ данных. Мы называем его Excel, изначально разработанный Microsoft для Machintosh.

С тех пор наука о данных развивалась и стала доступной для всех.

  • Доступ к знаниям феноменально улучшился . Если вы слушали интервью, посвященные науке о данных, то, возможно, заметили, что каждый десятый упоминает Курс Эндрю Нг по машинному обучению. Это бесплатный онлайн-ресурс, доступный для всех, кто хочет стать специалистом по анализу данных.
  • Доступная инфраструктура - обучение модели стоит меньше чашки кофе. До появления облачных вычислений люди покупали тяжелое оборудование и боролись с его обслуживанием. Вы можете арендовать один и заплатить гораздо меньше сегодня. Если для вашей модели машинного обучения требуется один час обучения на оборудовании с 96 ЦП и 192 ГБ ОЗУ, экземпляр EC2 стоит всего 4,08 доллара. Это Caffe Mocha в Starbucks.
  • Программное обеспечение с открытым исходным кодом правит миром. Большая часть инструментария специалистов по анализу данных - это программное обеспечение с открытым исходным кодом. Большинство из них также бесплатны для коммерческого использования. Языки программирования для науки о данных, такие как Python и R, также имеют открытый исходный код. В отличие от проприетарных проектов, глобальное сообщество разработчиков поддерживает все проекты с открытым исходным кодом.
  • Доступные данные - сбор и хранение данных никогда не было таким простым. Мобильные приложения отслеживают десяток биометрических данных и хранят их в облаке. За несколько щелчков мышью любой может создать опрос и распространить его по всей планете. Настройка облачного хранилища на большинстве современных программных продуктов также не связана с вашим SSO.

Благодаря этому усовершенствованию сегодня все пользуются огромными преимуществами науки о данных. Скоро исчезнут и все оставшиеся преграды. Но приведут ли достижения в области науки о данных к исчезновению специалистов по данным?

Что делает аналитика данных в будущем?

Некоторая информационная грамотность и критическое мышление - вот ответ.

Исключительные математические навыки, программирование более чем на одном языке больше не требуется. Любой школьник знает достаточно математики, чтобы начать свой путь в науке о данных.

Если вы ученый-исследователь, возможно, вам придется. Но не многие специалисты по данным изобретают новые алгоритмы. Вместо этого они решают практические задачи, используя их. Для них алгоритмы - это настраиваемые черные ящики. Их внутреннее устройство не имеет значения постоянно.

Точно так же вам никогда не придется изучать программирование, чтобы стать специалистом по данным. Уже нет. Вместо этого вы можете использовать такие инструменты, как KNIME, Rapid miner, AutoML и Data Robot. Они позволяют вам программировать логику без языка программирования.



Пример: Королевский банк Канады подает отличный пример. Их деловые люди также преуспевают в науке о данных, используя новейшие технологии. Вот технический документ, в котором объясняется их история успеха.

Из лабораторного халата и очков из химика не получится. Точно так же навыки программирования не помогут специалистам по данным. Это всего лишь предпочтение.

Ваши дети не будут решать те проблемы, которые вы делаете сегодня.

Последние пару десятилетий мы занимались наукой о данных, подгоняя модели под реальные проблемы. Мы упорно трудились, чтобы делать прогнозы точными, настраивая гиперпараметры вручную. Большая часть нашей энергии ушла на кодирование их голыми руками и оптимизацию их для соответствия вычислительная мощность.

Но картина меняется. Настройка гиперпараметров, которая, как я думал, всегда будет оставаться ручной, теперь полуавтоматическая. Программирование также уходит с дороги с такими проектами, как Github Copilot.

Приятно думать о том, что осталось от науки о данных для наших детей. Но есть. Их усилия будут больше сосредоточены на определении проблемы, а не на ее решении. Потому что машины решают свои проблемы, если они четко определены.

Будущие поколения не будут подбирать модели и настраивать их на точность и производительность. Эксперты в предметной области возьмут на себя приложение, а специалисты по обработке данных сосредоточатся на развитии самой науки.

Это демократизация науки о данных. При нынешних темпах этого не потребуется еще десять лет, чтобы это осознать.

В итоге,

С каждым днем ​​наука о данных становится доступной большему количеству людей. Благодаря быстрым улучшениям в обмене знаниями, инфраструктуре, программном обеспечении с открытым исходным кодом и доступе к данным, это не ограничивается только высокотехнологичными компаниями.

В будущем применение науки о данных не будет ролью специалиста по данным. Эксперты в предметной области сами справятся с этим с помощью отличных платформ, таких как KNIME.

Ответственность за развитие науки возьмет на себя специалисты по данным. Но это тоже будет не то же самое, что даже сложные вещи, такие как настройка гиперпараметров и программирование, автоматизированы.

Спасибо за прочтение, друг. Похоже, у нас с тобой много общих интересов. Обязательно загляните и в мой личный блог.

Передайте мне привет в LinkedIn, Twitter и Medium. Я сломаю тебе лед.

Еще не являетесь участником Medium? Воспользуйтесь этой ссылкой, чтобы стать участником, потому что я получаю небольшую комиссию за рекомендации без каких-либо дополнительных затрат для вас.