Область науки о данных расширяется за счет терминологии, сочетания терминов из информатики, статистики, математики и разработки программного обеспечения. В целом язык науки о данных растет очень быстро.
Если вы только начинаете заниматься наукой о данных, ожидается, что вы выучите много новой терминологии. Здесь на помощь приходит лексика науки о данных. Я собрал здесь список терминов по науке о данных.
В этой статье я представлю вам краткий словарь терминов, связанных с наукой о данных, включая ИИ, машинное обучение и Глубокое обучение. Список ниже состоит из 60 терминов в алфавитном порядке.
Точность
Предположим, что вы обучаете машину классифицировать электронные письма со спамом и письма без спама. Скажем, из 100 писем он правильно классифицирует 60 писем и дает неверный результат для остальных 40. Итак, мы можем сказать, что эффективность составляет 60%. Следовательно, точность - это сумма правильно классифицированных писем, деленная на общее количество писем. В общем, точность означает, какой процент правильно предсказывается машиной из всех отправленных электронных писем (будь то спам или отсутствие спама).
Функция активации
Функции активации используются в нейронных сетях. Нейронная сеть без функции активации становится моделью линейной регрессии, что означает, что она теряет способность изучать сложные шаблоны. Модель линейной регрессии работает точно, если данные линейны, но нам нужна функция активации, если в данных есть нелинейность. Подводя итог, функция активации включает в себя нелинейность нейронных сетей. Существует множество функций активации, поэтому важно выбрать одну из них правильно, если вы хотите, чтобы ваша сеть изучила набор данных. Он выбирает, насколько нейрон полезен для всей нейронной сети, а затем соответственно активирует его.
Искусственный интеллект
Искусственный интеллект (ИИ) дает машинам возможность учиться на собственном опыте, адаптироваться к новым входным данным и выполнять задачи, похожие на человеческие. Большинство примеров искусственного интеллекта, о которых вы слышите сегодня - от шахматных компьютеров до беспилотных автомобилей - во многом основаны на глубоком обучении и обработке естественного языка. Применяя эти технологии, компьютеры можно обучить выполнять определенные задачи, обрабатывая большие объемы данных и распознавая закономерности в данных.
Авторегрессия
Авторегрессия - это модель временных рядов, которая использует наблюдения из предыдущих временных шагов в качестве входных данных в уравнение регрессии для прогнозирования значения на следующем временном шаге. Это очень простая идея, которая может привести к точным прогнозам по ряду проблем временных рядов.
Обратное распространение
Это практика точной настройки весов нейронной сети на основе частоты ошибок (т. Е. Потерь), полученных в предыдущую эпоху (т. Е. Итераций). Правильная настройка весов обеспечивает более низкую частоту ошибок, делая модель надежной за счет увеличения ее обобщения.
Большое количество данных
В связи с наступлением цифровой эпохи количество создаваемых данных резко возросло. От исходных баз данных и электронных таблиц до цифровых следов, оставленных устройством GPS, количество данных растет в геометрической прогрессии. Большие данные - это сбор всех данных в мире и процесс получения неизвестных сведений о данных для повышения уровня бизнес-аналитики.
Предвзятость
Смещение - это разница между фактическими и прогнозируемыми значениями. Это происходит потому, что наш алгоритм менее гибкий, чтобы понять истинную форму набора данных. Теперь, если разница велика, наша модель машинного обучения будет допускать ошибки во время обучения и прогнозирования, поскольку будет страдать от недостаточной подгонки.
Повышение
Повышение - это последовательный процесс, в котором каждая последующая модель пытается исправить ошибки предыдущей модели. Последующие модели зависят от предыдущей модели. Некоторые из алгоритмов повышения:
- AdaBoost
- GBM
- XGBM
- LightGBM
Классификация
Проблема классификации возникает, когда выходной переменной является категория, например, «красный» или «черный», или «болезнь» и «без болезней», «собака» или «кошка». Модель классификации пытается сделать некоторые выводы из наблюдаемых значений. Учитывая один или несколько входных данных, модель классификации попытается предсказать ценность одного или нескольких результатов. Например, при разделении писем на «спам» или «не спам», при просмотре данных транзакции, на «мошеннические» или «авторизованные».
В зависимости от количества выходных классов он бывает двух типов: двоичный Классификация (работа с двумя классами: 0 или 1) и мультиклассовая классификация (работа с классами более 2).
Кластеризация
Допустим, у вас есть случайные данные, и вы хотите найти какие-либо закономерности, классы или отношения между данными. Давайте разберемся с техникой кластеризации на реальном примере торгового центра: когда мы посещаем любой торговый центр, мы можем наблюдать, что вещи с одинаковым использованием расположены вместе. Например, футболки сгруппированы в одном разделе, а брюки - в других разделах, аналогично, в разделах с овощами, яблоки, бананы, манго и т. Д. Сгруппированы в отдельные разделы, чтобы мы могли легко найти вещи. Аналогичным образом работает и метод кластеризации.
Компьютерное зрение
Компьютерное зрение - это область компьютерных наук, которая позволяет компьютерам видеть, идентифицировать и обрабатывать изображения идентично человеческому зрению, а затем обеспечивать соответствующий результат. Весь процесс включает в себя получение изображений, просмотр, анализ, идентификацию и извлечение информации. Некоторые из ключевых приложений компьютерного зрения:
- Пешеходы, автомобили, обнаружение дороги в умных (беспилотных) автомобилях
- Распознавание объекта
- Отслеживание объекта
- Анализ движения
Матрица путаницы
Матрица неточностей - это таблица, которая обычно используется для объяснения эффективности модели классификации. Это матрица N * N, где N - количество классов. Мы создаем матрицу путаницы между предсказанием классов модели и фактическими классами. Второй квадрант называется ошибкой типа II или ложными отрицательными результатами, тогда как третий квадрант называется ошибкой типа I или ложными срабатываниями.
Перекрестная проверка
Допустим, мы разбиваем наш набор данных на 3 равные части и называем его X, Y и Z. Рассмотрим приведенные ниже случаи:
Когда X и Y используются в качестве обучающего набора, Z будет использоваться как набор проверки
Когда X и Z используются в качестве обучающего набора, Y будет использоваться как набор проверки
Когда Y и Z используются как обучающий набор, X будет использоваться как набор проверки
Теперь точность усредняется по трем итерациям, чтобы получить общую эффективность модели. Следовательно, в «перекрестной проверке» мы проверяем наши выводы о модели из каждой части набора данных.
Data Science
Наука о данных - это область исследования, которая сочетает в себе практический опыт, навыки программирования, а также знания математики и статистики для извлечения значимой информации из данных. Специалисты в области науки о данных применяют алгоритмы машинного обучения к числам, тексту, изображениям, видео, аудио и многому другому для создания систем искусственного интеллекта (ИИ) для выполнения задач, которые обычно требуют человеческого интеллекта.
Набор данных
Набор данных (или набор данных) - это набор данных. Набор данных организован в виде структуры данных. В базе данных, например, набор данных может содержать набор бизнес-данных (имена, зарплаты, контактную информацию, данные о продажах и т. Д.). Несколько характеристик определяют структуру и свойства набора данных. К ним относятся количество и типы атрибутов или переменных, а также различные применимые к ним статистические показатели, такие как стандартное отклонение и эксцесс.
Глубокое обучение
Глубокое обучение - это просто тип машинного обучения, мотивированный структурой человеческого мозга. Алгоритмы глубокого обучения пытаются получить те же результаты, что и люди, путем постоянного анализа данных с заданной логической структурой. Для этого в глубоком обучении используется многоуровневая структура алгоритмов, называемых нейронными сетями. Подобно тому, как мы учимся на собственном опыте, алгоритм глубокого обучения будет выполнять задачу неоднократно, каждый раз немного изменяя ее, чтобы улучшить результат.
Ансамблевое обучение
Допустим, вы больны, и обратитесь к трем врачам. Врач А предсказывает, что вы страдаете от вируса, доктор Б говорит, что это нормальный кашель, а доктор С говорит, что у вас вирус. Поскольку 2 из 3 докторов предсказали вирусную инфекцию, вы будете знать, что это предсказание верно. Теперь замените врачей слабыми классификаторами, а «кашель и вирус» - другими классами. Это становится методом максимального голосования в ансамбле. Подводя итог, можно сказать, что ансамблевое обучение - это метод использования прогнозов различных моделей для получения лучшего прогноза.
Эпоха
Эпоха в машинном обучении означает одно полное прохождение обучающего набора данных через алгоритм. Номер эпохи является важным гиперпараметром алгоритма. Он определяет количество эпох или полных проходов всего набора обучающих данных, проходящих через процесс обучения или обучения алгоритма. С каждой эпохой обновляются внутренние параметры модели набора данных.
EDA
Исследовательский анализ данных - это процесс изучения или понимания данных и извлечения информации или основных характеристик данных. EDA обычно подразделяется на два метода: графический анализ и неграфический анализ. Основной мотив EDA -
- Изучите распределение данных
- Обработка отсутствующих значений набора данных
- Обработка выбросов
- Удаление повторяющихся данных
- Кодирование категориальных переменных
- Нормализация и масштабирование
ETL
ETL расшифровывается как «Извлечь, преобразовать, загрузить». Предположим, у вас есть бизнес, и ваш сайт привлекает много посетителей. Теперь вы хотите представить мобильное приложение. Сбор данных из нескольких источников и получение их в одном месте - огромная проблема, и именно здесь извлечение данных вступает в игру. Теперь данные, которые вы могли собрать, могут быть в структурированном или частично структурированном формате. Для построения отчетов важна структура. Здесь на сцену выходит Трансформация. Затем данные загружаются в хранилище и затем преобразуются в соответствии с бизнес-требованиями. Это то, что мы подразумеваем под загрузкой.
Метрики оценки
Цель метрики оценки - измерить качество модели статистического / машинного обучения. Например, вот несколько показателей оценки.
- AUC
- Оценка ROC
- F-оценка
- Log-Loss
Выбор функции
Выбор функций - одна из основных концепций машинного обучения, которая сильно влияет на производительность вашей модели. Функции данных, которые вы используете для обучения своих моделей машинного обучения, имеют огромное влияние на производительность, которой вы можете достичь.
· Уменьшает переоснащение: меньше избыточных данных означает меньше шансов принимать решения на основе шума.
· Повышает точность. Чем меньше вводящих в заблуждение данных, тем выше точность моделирования.
· Сокращает время обучения: меньшее количество точек данных снижает сложность алгоритма, и алгоритмы обучаются быстрее.
F1-Score
Это гармоническое среднее для точности и отзыва, которое дает лучшую меру неправильно классифицированных случаев, чем показатель точности.
GAN
Генеративная состязательная сеть (GAN) - это модель машинного обучения, в которой две нейронные сети конкурируют друг с другом, чтобы сделать свои прогнозы более точными. Основная задача GAN - создавать данные с нуля, в основном изображения, но были созданы и другие области, включая музыку. Первым шагом в построении GAN является определение желаемого конечного результата и сбор начального набора данных для обучения на основе этих параметров.
Градиентный спуск
Представьте себе мяч в месте, где много долин. Теперь мяч стремится найти самую глубокую долину. Это то, что делает градиентный спуск. Это алгоритм оптимизации, который можно сравнить со спуском с холма. Итеративно оно приближается к минимальному значению функции. Мы хотим, чтобы «Ошибка» была как минимум в нашей модели. Например, он помогает нам найти глобальное минимальное значение функции стоимости в простой модели линейной регрессии.
Гиперпараметры
Гиперпараметры важны, потому что они напрямую управляют поведением алгоритма обучения и оказывают существенное влияние на производительность обучаемой модели. Определение соответствующих гиперпараметров играет решающую роль в успехе архитектуры нашей нейронной сети. Поскольку это оказывает огромное влияние на изученную модель. Например, если скорость обучения слишком низкая, модель упустит основные закономерности в данных. Если он высокий, возможны столкновения.
Итерация
Итерация означает, сколько раз параметры алгоритма обновляются во время обучения модели на наборе данных. Например, каждая итерация обучения нейронной сети берет определенное количество обучающих данных и обновляет веса, используя градиентный спуск или какое-либо другое правило обновления весов.
Распознавание изображений
Распознавание изображений - это способность системы или программного обеспечения распознавать объекты, людей, места и действия на изображениях. Он использует технологии машинного зрения с искусственным интеллектом и обученные алгоритмы для распознавания изображений через систему камеры. Например, у нас есть сканеры, которые идентифицируют текст на данном изображении и известны как OCR.
Несбалансированный набор данных
Дисбаланс данных обычно указывает на неравномерное распределение классов в наборе данных. Например, в наборе данных по обнаружению мошенничества с кредитными картами большинство транзакций по кредитным картам не являются мошенничеством, и очень немногие классы являются мошенническими транзакциями. Таким образом, соотношение классов мошенничества и не мошенничества составляет примерно 50: 1.
Эксцесс
Эксцесс определяется как толщина (или тяжесть) хвостов данного распределения. В зависимости от величины эксцесса его можно разделить на 3 категории:
- Мезокуртика: распределение со значением эксцесса, равным 3. Случайная величина, которая следует нормальному распределению, имеет значение эксцесса, равное 3.
- Platykurtic: если эксцесс меньше 3. В этом случае у данного распределения более тонкие хвосты и более низкий пик, чем у нормального распределения.
- Leptykurtic: когда значение эксцесса больше 3. В этом случае у данного распределения более толстые хвосты и более высокий пик, чем у нормального распределения.
Этикетка
Характеристики - это вход, а метка - выход. Метка - это окончательный выбор, например, рис, пшеница, кукуруза, кукуруза и т. Д. После завершения обучения модель предсказывает метку (тип культуры) в качестве выходных данных для новых векторов признаков.
Функция потерь
Это процесс оценки того, насколько хорошо ваш алгоритм моделирует ваш набор данных. Если ваши прогнозы неверны, ваша функция потерь выдаст большее число. Если они в порядке, будет выведено меньшее число. По мере того, как вы меняете части своего алгоритма, чтобы попытаться улучшить свою модель, функция потерь сообщит вам, к чему вы пришли.
Машинное обучение
Врач, основываясь на текущих симптомах и истории болезни пациента, предсказывает, что у него / нее какое-то заболевание. Взять эту вышеупомянутую способность людей и попытаться заставить их учиться на машине, не будучи явно запрограммированной, называется машинным обучением. Вы даете машине некоторые входные и выходные данные и позволяете машине разработать набор правил, чтобы она могла давать прогнозы для нового набора входных данных. Проще говоря, ML учится на опыте, предсказывает, что будет дальше, а затем становится лучше с каждым полученным опытом.
Среднеквадратичная ошибка
Среднеквадратичная ошибка (MSE) - это мера того, насколько близка подобранная линия к точкам данных. Для каждой точки данных вы берете расстояние по вертикали от точки до аналогичного значения y на аппроксимации кривой (ошибка) и возводите значение в квадрат. Затем вы складываете все эти значения для всех точек данных и, в случае подбора с двумя параметрами, такими как линейная подгонка, делите на количество точек минус два.
Модель
Это метод, описывающий данные. Вы даете модели алгоритм для обучения на некоторых данных и выполнения прогнозов на основе новых невидимых данных. Так что же такое модель? Он состоит как из данных, так и из планов сделать некоторые прогнозы.
Обработка естественного языка
Проще говоря, обработка естественного языка - это область, которая направлена на то, чтобы компьютерные системы понимали человеческую речь. НЛП состоит из методов обработки, структурирования, категоризации необработанного текста и извлечения информации. ChatBot - классический пример НЛП, где предложения сначала обрабатываются, очищаются и конвертируются в понятный для машины формат.
Нейронная сеть
Нейронные сети - это разновидность алгоритма машинного обучения, структура которого основана на структуре человеческого мозга. Как и другие виды алгоритмов машинного обучения, они могут решать проблемы методом проб и ошибок, не будучи явно запрограммированными правилами, которым нужно следовать. Он состоит из нейронов в качестве узлов, слоя ввода / вывода и некоторых скрытых слоев, на которых выполняется основная обработка. Все эти компоненты взаимосвязаны, и они учатся. Во время прямого прохода эти узлы выполняют некоторые вычисления, а при обратном проходе эти узлы учатся на сделанных ошибках.
Нормализация
Нормализация - это процесс изменения масштаба ваших данных, чтобы они имели одинаковый масштаб. Нормализация используется, когда атрибуты в наших данных имеют разные масштабы. Например, если у вас есть переменная в диапазоне от 0 до 1, а другая - от 0 до 1000, вы можете нормализовать переменную так, чтобы оба значения находились в диапазоне от 0 до 1.
Одно горячее кодирование
Одно горячее кодирование обычно выполняется на этапе предварительной обработки. Это метод преобразования категориальных переменных в числовые в интерпретируемом формате. Здесь мы создаем логический столбец для каждой категории переменной.
Переоснащение
Переобучение - это явление, которое происходит, когда модель изучает особенности и шум в наборе данных до такой степени, что это влияет на производительность модели на новых данных. Это означает, что случайные колебания обучающих данных воспринимаются и изучаются моделью как концепции. Есть два метода преодоления переобучения:
- Уменьшить сложность модели
- Регуляризация
Распознавание образов
Распознавание образов - это метод распознавания образов с помощью алгоритма машинного обучения. Распознавание образов можно объяснить как классификацию данных на основе уже полученных знаний или статистической информации, извлеченной из образов и / или их представления. Одним из важных аспектов распознавания образов является его прикладной потенциал.
Примеры: распознавание речи, идентификация говорящего, распознавание мультимедийных документов (MDR), автоматическая медицинская диагностика.
P-значение
Это значение вероятности на самом деле является p-значением. Проще говоря, это просто вероятность увидеть то, что мы наблюдали, или крайние результаты, если мы предположим, что наша нулевая гипотеза верна.
Точность
Точность - это показатель, который определяет количество сделанных правильных положительных прогнозов. Он измеряется как отношение правильно предсказанных положительных примеров к общему количеству предсказанных положительных примеров.
Прогнозный анализ
Прогнозная аналитика - это своего рода аналитика данных, направленная на прогнозирование будущих результатов на основе исторических данных и таких аналитических методов, как статистическое моделирование и машинное обучение. Наука предиктивной аналитики может создавать будущие идеи со значительной степенью точности. С помощью современных инструментов и моделей прогнозной аналитики любая организация теперь может использовать прошлые и текущие данные для надежного прогнозирования тенденций и поведения на миллисекунды, дни или годы в будущем.
Предварительная обработка
Это один из важных шагов в машинном обучении. Это гарантирует, что данные готовы к работе с моделью. Это включает в себя загрузку набора данных из различных источников, его интеграцию, а затем очистку. Основными этапами предварительной обработки являются извлечение признаков и выбор признаков.
Рекомендательная система
Каждое приложение для социальных сетей, музыкальная / видеоплатформа или платформа для электронной коммерции используют систему рекомендаций для лучшего взаимодействия с пользователем. Это дает людям индивидуальный опыт, основанный на их прошлых покупках и предпочтениях. Он предоставляет информацию о клиенте, узнавая больше о покупателях, и может принимать более обоснованные бизнес-решения.
Регуляризация
Регуляризация - это метод, используемый для решения проблемы переобучения в статистических моделях. В машинном обучении регуляризация штрафует коэффициенты, поэтому модель лучше обобщает. У нас есть различные типы методов регрессии, которые используют регуляризацию, такие как регрессия Риджа и регрессия лассо.
Регресс
Это алгоритм машинного обучения, который используется для связи поведения одной переменной со значением другой переменной, что означает, что он устанавливает связь между двумя переменными. Допустим, мы хотим выяснить, как площадь дома влияет на цену дома в населенном пункте. Мы будем использовать регрессию для получения зависимости между ценой дома и площадью дома. Теперь, основываясь на этой зависимости, мы можем дополнительно спрогнозировать цены на жилье, если указана площадь.
ROC-AUC
Кривая ROC - это график между чувствительностью и (1-специфичностью). (1-специфичность) также известна как частота ложных срабатываний, а чувствительность также известна как частота истинных положительных результатов. Ниже приведена кривая ROC для рассматриваемого случая.
Обучение с подкреплением
Обучение с подкреплением означает обучение посредством взаимодействия с окружающей средой. Агент RL учится на собственном опыте, а не на непрерывном процессе обучения методом проб и ошибок, в отличие от обучения с учителем, когда внешний руководитель предоставляет примеры.
Отличным примером отличия являются беспилотные автомобили. Беспилотные автомобили используют обучение с подкреплением, чтобы постоянно принимать решения, например, какой маршрут выбрать, с какой скоростью двигаться - вот некоторые из вопросов, которые решаются после взаимодействия с окружающей средой. Простым проявлением контролируемого обучения было бы предсказание общей стоимости проезда в такси в конце поездки.
Анализ настроений
Анализ настроений - это процесс определения того, является ли текст положительным, отрицательным или нейтральным. Система анализа тональности для анализа текста сочетает в себе обработку естественного языка (NLP) и методы машинного обучения для присвоения взвешенных оценок тональности сущностям, темам, темам и категориям в предложении или фразе.
Асимметрия
Асимметрия - это мера симметрии. Распределение или набор данных является симметричным, если он выглядит одинаково слева и справа от центральной точки.
SMOTE
SMOTE (метод синтетической передискретизации меньшинства) - один из наиболее часто используемых методов передискретизации для решения проблемы дисбаланса.
Он предназначен для уравновешивания распределения классов путем случайного увеличения примеров классов меньшинств путем их репликации.
Контролируемое обучение
Контролируемое обучение - это когда мы обучаем или обучаем машину, используя данные с соответствующей маркировкой. Это означает, что некоторые данные уже помечены правильным ответом. После этого машине предоставляется новый набор примеров (данных), так что контролируемый алгоритм обучения анализирует обучающие данные (набор обучающих примеров) и дает правильный результат на основе помеченных данных.
Передача обучения
Трансферное обучение относится к применению предварительно обученной модели к новому набору данных. Предварительно обученная модель - это модель, созданная кем-то для решения проблемы. Эта модель может быть применена для решения связанной проблемы с похожими данными.
Набор для обучения и тестирования
Данные обучения - это данные, для которых вашему алгоритму известны «метки», и которые вы будете использовать в процессе обучения для построения своей модели. Набор тестовых данных - это невидимый набор данных для вашей модели, который поможет вам обобщить его. Это часть набора данных, которую вы скрываете от своей модели и используете ее только после того, как начнется обучение, чтобы вычислить некоторые метрики и получить подсказку о том, как ведет себя ваш алгоритм.
Недостаточное оснащение
Недостаточное соответствие происходит, когда модель не может понять тенденции в данных. Например, это может произойти, если мы попытаемся подогнать линейную модель к нелинейному набору данных. Это также приводит к плохой точности и производительности. Недостаток - это когда ваш результат слишком общий, что означает, что вы недостаточно учитываете свой набор тренировочных данных.
Неконтролируемое обучение
Это позволяет нам подходить к проблемам, практически не имея представления о том, как должны выглядеть наши результаты. Например, после расчета всех данных, относящихся к пользователям компании, с помощью неконтролируемого алгоритма, модель может предложить способ сгруппировать пользователей в три группы. Сравнив эти группы, вы можете распознать, что группа-1 находится в одном географическом месте, группа-2 и группа-3 - в другом.
Набор для проверки
Это еще одно подмножество обучающего набора, которое используется для оценки производительности модели для каждого запуска / набора значений гиперпараметров. Если вы не удовлетворены, вы измените свою модель, а затем снова обучите ее на обучающем наборе, а затем проверьте модель на проверочном наборе.
Визуализация
Визуализация данных - это важное представление точек данных в виде графика, диаграммы или других визуальных форматов. Визуализация данных дает больше информации о том, что происходит с данными на разных этапах, и дает нам более интуитивное представление о механизме. Визуализация помогает проверить целостность данных и исключить возможность таких ошибок.
См. Также: https://undolearning.com/lexicons-of-data-science/
Не стесняйтесь комментировать, если у вас есть предложения или вопросы.
Спасибо за чтение!