– Кэролайн Роузберри, AVADO Learning
Скоро наука о данных станет просто еще одним навыком, в котором мы все хотя бы немного разбираемся. Однако одним из основных препятствий является жаргон, используемый экспертами по данным, что делает эту тему недоступной для обычного человека. А чтобы разобраться, нам нужно начать избавляться от жаргона или хотя бы овладеть им.
Только 33% штатных сотрудников в США уверены в своей грамотности в работе с данными — и нетрудно понять, почему. Понимание данных предполагает изучение совершенно нового языка жаргона, связанного с данными, что создает реальный барьер для входа. Однако, по словам Джеффа Кэтлина, генерального директора Lexalytics, наука о данных станет просто еще одним навыком, в котором мы все хотя бы немного разбираемся.
По мере того, как ИИ становится все более распространенным, а инструменты становятся более удобными для пользователя, Кэтлин предсказывает, что барьеры для входа будут снижаться: «Подобно тому, как компьютеры стали более доступными и простыми в использовании, то же самое произойдет и с ИИ».
Уже доказано, что воздействие данных повышает грамотность в отношении данных. Организации, которым удалось создать культуру, основанную на данных, начинают видеть, как менее технические сотрудники работают с данными и извлекают из них пользу — и есть реальный стимул для поощрения этого. Для типичной компании из списка Fortune 1000 повышение доступности данных всего на 10 % принесет дополнительный чистый доход в размере более 65 млн долларов США.
Проще говоря, это не проблема: нам нужно дать каждому возможность комфортно работать с данными. И это включает в себя избавление от жаргона.
Ниже мы собрали несколько примеров наиболее часто используемого жаргона данных.
Наши главные защитники профессионального жаргона
Наука о данных. По сути, наука о данных – это междисциплинарная область, в которой данные используются для понимания и воздействия на поведение людей, систем и сред. Используя научные методы, процессы, алгоритмы и системы, специалисты по данным могут извлекать знания и идеи из больших объемов сложных данных. Другими словами, это целая сфера науки, специально предназначенная для предоставления значимой информации и интерпретации данных с целью принятия решений. Просто, верно?
Искусственный интеллект (ИИ). Возможно, вы уже слышали об ИИ, который часто используется в научно-фантастических фильмах. В двух словах, ИИ — это специальная форма информатики, направленная на предоставление компьютерам возможностей, имитирующих аспекты человеческого интеллекта. Это может включать в себя все, от распознавания образов до компьютерного зрения и рассуждений.
Машинное обучение. Это тип статистического метода, который позволяет машине обучаться самостоятельно, без помощи специалиста по данным. Он зависит от способности машины адаптироваться: используя алгоритмы, модели активно учатся и совершенствуются каждый раз, когда обрабатывают новые данные. Они делают это, классифицируя различные входные данные, чтобы делать прогнозы о будущем поведении, основываясь на обучении с аналогичными предыдущими данными. Это может применяться ко всему, от обнаружения спама до прогнозирования продаж, а также рекомендаций по продуктам.
Глубокое обучение. Это специализация одного конкретного метода машинного обучения, известного как «искусственные нейронные сети», который позволяет машинам обучаться самостоятельно. Для этого им необходимо иметь доступ к достаточно большому количеству примерных данных. Методы глубокого обучения различаются, но некоторые приложения включают распознавание изображений и речи, языковой перевод и автономные транспортные средства.
Аналитика. Проще говоря, аналитика — это форма повествования. Это процесс получения выводов на основе необработанной информации. Благодаря анализу данные и цифры могут быть преобразованы во что-то полезное.
Существует три основных типа аналитики данных:
- Описательная аналитика. Она включает преобразование больших чисел в более мелкие фрагменты информации. Это похоже на сводку: вместо того, чтобы перечислять каждую цифру и каждую деталь, описательная аналитика дает общее повествование.
- Прогнозная аналитика. Прогностическая аналитика позволяет аналитикам делать прогнозы на будущее, изучая недавние и исторические данные. Конечно, этот процесс не является точным на 100 %, но он может дать представление о том, что, скорее всего, произойдет дальше, и выполняется с использованием интеллектуального анализа данных, машинного обучения и статистика.
- Предписывающая аналитика. Наконец, имея надежный прогноз на будущее, аналитики могут предписать курс действий. Это превращает данные в действие и приводит к реальным решениям.
Автономные вещи. «Автономные вещи» используют ИИ для выполнения задач, традиционно выполняемых людьми. Будь то робототехника, автомобили, дроны или бытовая техника, все автономные вещи используют ИИ для взаимодействия с окружающей средой. Сложность этих систем может быть разной: например, они могут охватывать беспилотник, работающий в воздухе с помощью человека, до сельскохозяйственного робота, работающего полностью автономно в поле. Такие компании, как Microsoft и Uber, уже используют роботов с искусственным интеллектом для патрулирования парковок и больших открытых площадок, чтобы прогнозировать и предотвращать преступления.
Большие данные.Коротко говоря, «большие данные» — это наборы данных, которые настолько объемны и сложны, что традиционное прикладное программное обеспечение для обработки данных не справляется с ними. Поскольку данные поступают из множества разных источников и не всегда согласуются или структурированы, с ними может быть очень сложно работать. Вот почему очень практично иметь специалистов по данным.
Большинство крупных веб-приложений могут иметь данные в десятках гигабайт. Однако объем больших данных варьируется от сотен гигабайт до терабайтов или даже петабайтов. Для справки: один петабайт равен 1 000 000 000 000 000 байт. Для наглядности Gizmodo описал один петабайт как 20 миллионов шкафов с четырьмя ящиками, заполненных текстами. 20 петабайт составили бы все письменные труды человечества с начала времен, переведенные на все языки.
База данных. База данных — это организованный набор данных. Это могут быть диаграммы, схемы или таблицы. Его также можно интегрировать в Систему управления базами данных (СУБД), программное обеспечение, которое позволяет исследовать и анализировать данные.
Интеллектуальный анализ данных. Вместо добычи природных ресурсов интеллектуальный анализ данных исследует большие наборы данных, чтобы найти закономерности и идеи. Это высокоаналитический процесс, в котором особое внимание уделяется использованию больших наборов данных, обычно связанных с искусственным интеллектом, машинным обучением или статистикой. Важно отметить, что собранные данные можно использовать для прогнозирования будущих тенденций.
IoT: «Интернет вещей» обычно описывается как способ, которым продукты могут «разговаривать» друг с другом. Это сеть объектов (например, ваш телефон, смарт-часы или автомобиль), встроенная в сеть. Беспилотные автомобили — прекрасный тому пример. Они всегда извлекают информацию из облака, а их датчики передают информацию обратно. Интернет вещей генерирует огромные объемы данных, что делает его важным и популярным для науки о данных. Существует также Интернет вещей («Всеобъемлющий Интернет»), который объединяет продукты, людей и процессы для создания еще большей связи.
Стороны. Данные классифицируются как данные первой стороны, данные второй стороны или данные третьей стороны.
- Собственные данные являются наиболее ценными: это информация, собранная в автономном режиме (например, опросы) или в Интернете (например, на основе файлов cookie, веб-аналитики, клиентской CRM). Они принадлежат тому, кто их собирает — часто это будут рекламодатели, которые могут собирать данные (с уведомления и согласия потребителя) через Платформы управления данными.
- Сторонние данные — это, по сути, чьи-то собственные данные. Это информация, собранная офлайн или онлайн, принадлежащая компании, которая собирает данные о потребителе (с его согласия), и с которой у вас может быть партнерское соглашение. Другими словами, это чьи-то собственные данные (например, данные Facebook).
- Сторонние данные — это самый широкий тип данных. Сюда входят данные, собранные поставщиками данных, отличными от владельца веб-сайта (например, Exelate или bluekai).
Личные данные. Новый закон ЕС о конфиденциальности данных — Общий регламент по защите данных (GDPR) — определяет персональные данные следующим образом: любая информация, относящаяся к идентифицированному или идентифицируемому лицу. Это лицо может быть идентифицировано прямо или косвенно по идентификатору, такому как имя, идентификационный номер, данные о местонахождении, онлайн-идентификатор, или по одному или нескольким факторам, характерным для физических, физиологических, генетических, психических , экономической, культурной или социальной идентичности этого физического лица. Это могут быть любые данные, которые могут идентифицировать конкретного человека, например, имена, адреса электронной почты, идентификаторы устройств, дескрипторы Twitter, данные о местоположении и фотографии. Но это также могут быть данные cookie, IP-адреса и другие уникальные ссылочные номера.
Готовы повысить грамотность данных в своей организации?
В Академии данных AVADO мы работаем над развитием программ сообщества, поэтому грамотность в отношении данных становится приоритетом и проникает в повседневное сознание.
Хотите узнать больше о том, как Академия данных может помочь вашей организации, и о наших бесплатных программах, финансируемых за счет налогов?
Позвоните нам по телефону +44 (0)20 3893 5401 или напишите нам по адресу [email protected].
Первоначально опубликовано на blog.avadolearning.com.
Как создатель цифрового контента для AVADO, я исследую и пишу на различные темы, включая науку о данных, цифровое обучение, разнообразие и лидерство. Я создаю широкий спектр цифрового контента, включая размышления, сообщения в блогах, информационные бюллетени и технические документы.