Борьба с постыдной новой алхимией цифровой эры
Карьера в области данных была отвратительно раскручена. Не преувеличение (имеет невероятную ценность, которую можно извлечь из данных), а больше похоже на ошибочное толкование — многие люди создают шумиху вокруг данных по совершенно неверным причинам. .
Правильные причины для волнения связаны со старой поговоркой: знание — это сила: сила улучшить ваш бизнес, вашу работу, вашу личную жизнь и мир вокруг вас. Со всеми технологическими улучшениями в хранении и обработке исходных материалов знаний существует так много потенциала, который только и ждет, чтобы его раскрыли. Это стоит нескольких грузовиков шумихи.
Но я надеюсь, что вы присоединитесь ко мне и скажете «нет» обману: не приравнивайте данные к магии. Мусор не превратится в золото, сколько бы математики вы к нему ни прибавляли. Увлечение индустрии алхимией данных столь же постыдно, как увлечение 15-го века бормотанием на латыни над железными опилками.
Не приравнивайте данные к магии.
Я бы хотел, чтобы мы все перестали произносить данные с большой буквы. Данные — это не волшебство — то, что у вас есть электронная таблица, полная чисел, не гарантирует, что вы сможете извлечь из нее что-то полезное. Принцип GIGO актуален как никогда.
GIGO: Мусор на входе, мусор на выходе.
Данные не соответствуют действительности. Отнюдь не. Проиллюстрируем это на примере. На изображении ниже изображен американский символ Колокол Свободы. Найдите минутку, чтобы записать город, в котором находится этот культовый объект, прежде чем читать дальше.
Теперь представьте, что вы работаете от имени туристической организации, и вам поручили собрать данные о самых приятных местах отдыха в Соединенных Штатах среди вашего пользовательского населения. Вы создаете онлайн-опрос, в котором предлагаете пользователям назвать три своих любимых города для туризма через открытое поле формы. Что возможно могло пойти не так?
Позже, когда вы просматриваете ответы, вы замечаете некоторые записи для этого города Колокола Свободы…
Oh no.
Нононононононо.
Что это за бонусные ады?
Филадельфия?
фи-лоад-эльфия??
Филадельфия???
Можете также написать это как Pffffftiladelphia на этом этапе, поскольку все эти пользовательские данные принесут вам пользу. Но давайте будем великодушны к человечеству и позволим себе минуту благодарности за то, что правильный ответ добрался до этой клоунской машины. Но какой из них является правильным ответом?
Вот этот?
Конечно, а как насчет этих?
Все четыре достойных ответа… но четыре разные версии одной и той же записи — это не представление уважающего себя человека о том, как хорошо провести время. Это не покер. Почти дубликаты не ваши друзья, если вы ищете самый четкий и чистый сигнал из ваших данных.
Кроме того, только потому, что ответы технически правильны, не означает, что вам понравится с ними работать. Например, запятая — например, в Филадельфия, Пенсильвания — может сломать ваш CSV-файл. Почему, ну почему, вы позволили пользователю сделать это с вами?
Ситуация забавная, но и грустная. И то, и другое! Философский, что ли. Но что еще более важно, эту ситуацию можно предотвратить.
В этом примере респонденты искренне старались быть полезными. Никто не хотел связываться с тобой. Вы просили людей рассказать вам, какие города им нравится посещать, и они старались изо всех сил. Если бы они могли писать правильно, возможно, они бы так и сделали. Не то чтобы их ответы были «Марс», или имя их кота, или что-то в этом роде… Они действительно пытаются сказать вам, что Филадельфия — хороший город.
У каждой из этих записей есть сигнал Philadelphia, но не все они одинаковы. Некоторые из них имеют гораздо меньший сигнал, чем другие. Вам нужно как можно больше сигнала, но если вы позволите людям вводить свои данные, как им заблагорассудится, большая часть этого сигнала будет потеряна, и вам нужно будет потратить время, энергию и ресурсы на его очистку, чтобы восстановить этот сигнал. . Принимая во внимание, что если бы вы с умом разработали этот сбор данных, каждая запись в Филадельфии была бы сплошным сигналом, а не шумом.
Если предоставить их самим себе, люди найдут замечательные способы помешать вашим намерениям по сбору данных. И если вы предоставите проектирование сбора данных тем, у кого нет навыков предвидеть и предотвращать проблемы, вы потратите время и деньги, разгребая испорченный набор данных. (Иногда никакие усилия не сработают, и он разваливается навсегда.) Очистка данных — дело святое, но к нему следует прибегать в крайнем случае. Гораздо лучше планировать с умом, чем надеяться, что вы сможете исправить плохое планирование тщательной уборкой.
Если предоставить их самим себе, люди найдут замечательные способы помешать вашим намерениям по сбору данных.
Что подводит меня к моей основной мысли. Люди не являются интуитивно упорядоченными дизайнерами данных. Чтобы спроектировать сбор данных, нужно знать, как быстрее и проще сделать эти данные пригодными для использования и полезными.
Помните, как выглядел Интернет, когда каждый кодер мнил себя дизайнером? Валовой. Примерно так выглядят наборы данных, когда никто не тратит время на приобретение навыков проектирования данных.
Если вы заинтересованы в том, чтобы сделать данные полезными, я настоятельно рекомендую вам ознакомиться с этими двумя темами:
Я на седьмом небе от счастья, что некоторые из самых увлеченных дизайнеров данных, которых я знаю, недавно выпустили учебное пособие по теме дизайна данных, Пособие по карточкам данных. Проверьте это, если вы серьезно относитесь к данным!
Помните, данные вам ничего не должны. Даже не достойное качество для ваших бед. Никогда нет гарантии, что ваши данные не мусор. Если у вас в организации математическое мышление и вы считаете, что получение данных — это самое простое, то вы не наймете людей, которые действительно хорошо справляются с тем, чтобы эти данные не были мусором.
Пришло время начать ценить навыки, связанные с созданием хороших данных, по крайней мере, так же высоко, как и навыки, позволяющие сделать существующие данные полезными.
Спасибо за прочтение! Как насчет курса YouTube?
Если вам было весело здесь, и вы ищете полный курс прикладного ИИ, предназначенный для развлечения как новичков, так и экспертов, вот тот, который я сделал для вашего развлечения:
P.S. Вы когда-нибудь пытались нажать кнопку хлопка здесь, на Medium, более одного раза, чтобы посмотреть, что произойдет? ❤️
Ищете практические руководства по ML/AI?
Вот некоторые из моих любимых 10-минутных прохождений:
- АвтоМЛ
- Вершинный ИИ
- ИИ-блокноты
- ML для табличных данных
- Текстовая классификация
- Классификация изображений
- Видео классификация
Не забудьте посетить книгу с карточками данных!
Хотя сайт делает упор на документирование данных и искусственный интеллект (нужно уловить дух времени), Пособие по карточкам данных — это гораздо больше. Это самый сильный набор общих ресурсов для проектирования данных, о которых я знаю. Предварительный просмотр:
Понравился автор? Связаться с Кэсси Козырьковой
Давай будем друзьями! Вы можете найти меня в Twitter, YouTube, Substack и LinkedIn. Хотите, чтобы я выступил на вашем мероприятии? Используйте эту форму для связи.