Анализ: тщательное изучение реальной системы.
Анализ: анализ, включая математику. (Люди используют этот термин по-разному, иногда охватывая все, от общего количества животных с простыми историческими данными, используемыми до очень сложных прогностических моделей. Всегда спрашивайте!)
Связь правило: инструмент для определения комбинаций. Чаще всего правило консолидации используется при анализе потребительской корзины.
Среднее значение: все измерения, которые описывают середину распределения (более формально, "центральная плотность 10" или "позиция"). В анализе термин «среднее» относится к среднему, но может указывать на медиану или моду.
Байесовская сеть: тип нейронной сети. Байесовские сети основаны на основах теории вероятностей. (См. Нейронные сети.)
Двоичный: ровно два альтернативных состояния.
binning: объединение данных в группы. Это может быть сделано для простоты анализа или для защиты конфиденциальности.
Причинно-следственная связь: акт создания эффекта или создания чего-либо. Фраза «корреляция не подразумевает причинно-следственную связь» означает, что того факта, что два явления происходят одновременно, недостаточно для доказательства того, что одно является причиной другого.
Хи-квадрат: тестовая статистика, вероятно, наиболее широко используемый из всех статистических методов проверки гипотез. Обычно используется в сочетании с таблицами перекрестных таблиц.
классификация. Методы организации данных в группы, связанные с определенным результатом, например с вероятностью покупки продукта или получения высшего образования.
кластерный анализ (кластеризация): методы организации данных в группы похожих наблюдений.
Корреляция: ассоциация значений двух или более переменных.
Межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM): то, что он говорит, или как говорят участники проекта CRISP-DM скажем так, «модель процесса интеллектуального анализа данных, не зависящая от отрасли и инструментов».
Информационная панель: предопределенные отчеты для отображения в Интернете. Обычно он состоит из простых таблиц и графиков с несколькими вариантами манипулирования пользователем. Панель инструментов обычно предназначена для использования бизнес-менеджерами, чтобы помочь в процессе принятия решений.
Интеллектуальный анализ данных. Общий термин для аналитических методов, которые облегчают быстрое обнаружение закономерностей и построение моделей, особенно при работе с большими наборами данных.
Набор данных: набор связанных измерений. В контексте интеллектуального анализа данных это обычно относится к организованному электронному файлу или базе данных, содержащему записи о рутинной деловой активности или другую информацию, относящуюся к конкретному проекту интеллектуального анализа данных.
Решение дерево: семейство методов классификации, результаты которых обычно представляются в виде древовидного графика.
Зависимая переменная. В модели переменная, значение которой напрямую зависит от значений других (независимых) переменных. Зависимая переменная обычно является элементом, который майнеры данных пытаются предсказать или контролировать. (См. также независимую переменную.)
Прогнозирование: предсказание будущих значений некоторой переменной. Методы прогнозирования часто используются для прогнозирования продаж, цен или других экономических показателей.
Частота: сколько раз определенное значение встречается в наборе данных.
гипотеза: предположение или убеждение. Логическая статистика основана на выдвижении и проверке гипотез. В логической статистике гипотеза — это утверждение о связи, которая существует между двумя измеряемыми явлениями.
проверка гипотез: сердцевина логической статистики, включающая оценку двух гипотез, известных как "нулевая" и "альтернативная" гипотезы. «Альтернативная» гипотеза утверждает, что два измеряемых явления каким-то образом связаны между собой, а «нулевая» гипотеза — это просто убеждение по умолчанию, что такой связи не существует. При проверке гипотез анализируются выборочные данные, чтобы определить, какие из двух данных лучше всего подтверждаются.
независимая переменная. В модели переменные, которые могут влиять на зависимую переменную. Они могут или не могут быть контролируемыми. Модель прогнозирования продаж может иметь зависимую переменную общего годового объема продаж (в долларах) и независимые переменные, такие как уровень инфляции, расходы на рекламу и количество звонков по продажам, среди прочих факторов.
ввод: независимая переменная.
модель. Уравнение или набор уравнений, используемых для описания поведения системы.
многослойный персептрон (MLP): тип нейронной сети. MLP — наиболее распространенная и, возможно, самая простая нейронная сеть, используемая для классификации. multivariate: В статистической литературе модель с более чем одной зависимой переменной. Также термин, используемый для описания некоторых тестов, в которых одновременно изменяются более одной независимой переменной.
нейронная сеть: семейство типов моделей, способных моделировать некоторые очень сложные системы.
узел. В некоторых приложениях для интеллектуального анализа данных функция (например, построение определенной модели дерева решений, создание точечной диаграммы или удаление незавершенных наблюдений из набора данных, среди многих других возможностей), представленная маленькая картинка или значок, а не пункты меню или код. В нейронных сетях - элемент сетевой структуры.
исследование операций (OR): общий термин для оптимизации и других математических методов, используемых для поддержки принятия решений.
выброс: значение данных настолько нетипично, что включение его в анализ может привести к бесполезным или вводящим в заблуждение результатам. Аналитики иногда предпочитают исключать эти значения или специально исследовать их влияние на производительность модели.
вывод: зависимая переменная.
чрезмерная подгонка. Возникает, когда модель точно описывает данные, используемые для обучения, но выдает ошибки или делает неверные прогнозы при применении к другим образцам данных.
перетренированность: см. переобучение.
параметр: значение, описывающее некоторый аспект распределения значений в совокупности. Истинные значения параметров, как правило, неизвестны, отсюда и необходимость в статистике.
Население: все элементы того типа, который вы хотите изучить. Например, если вы изучаете людей, население может состоять из всех людей, которые живут или могут родиться.
прогноз: ожидание будущего события.
Прогнозная аналитика. Аналитические методы, используемые для прогнозирования. Практика использования математического моделирования для прогнозирования результатов.
Предиктор: независимая переменная.
регрессия: семейство методов подгонки линии или кривой к набору данных, используемых для упрощения или осмысления ряда явно случайных точек данных.
отчет: набор сводных данных, обычно сравнивающих суммы, средние значения и проценты.
Ответ: Зависимая переменная.
правило набор: набор «if . . . то» утверждения, которые можно использовать для предсказаний.
выборка. Подмножество генеральной совокупности. Образец может включать все или только часть имеющихся у вас данных.
сегментация. В маркетинге действие по определению любой группы клиентов по интересам, не обязательно с использованием каких-либо аналитических методов. В интеллектуальном анализе данных и статистике сегментация аналогична кластеризации. Однако аналитики и другие лица часто небрежно используют этот термин для обозначения классификации.
Анализ настроений: методы анализа текста, используемые для получения информации о мнениях или отношении говорящего или писателя (или группы говорящих или писателей).
значительный: эффект, который можно четко отделить с помощью методов статистического анализа от естественной вариации (шума) в данных. (Обратите внимание, что что-то может быть «значительным» в этом смысле и при этом быть совершенно неважным с практической точки зрения.) Специалисты по добыче данных редко используют этот термин, если вообще используют его. Статистики используют его постоянно.
статистика: наука о выводах о совокупностях, основанная на математическом анализе выборочных данных.
структурное уравнение моделирование: общий термин для множества методов, используемых для определения того, действительно ли непротиворечива модель, которая, как предполагается, представляет реальную систему. с данными.
структурированные данные. В статистике и интеллектуальном анализе данных любой тип данных, значения которых имеют четко определенное значение, например числа и категории.
опросное исследование: задавать людям вопросы и использовать ответы в качестве данных.
набор тестовых данных. Выборка данных, используемых на каждой итерации процесса обучения для переоснащения модели (но вы также можете слышать, что этот термин используется для описания заблокированных данных). Этот термин чаще всего используется в контексте подгонки модели нейронной сети к данным; программное обеспечение подгоняет форму модели к подмножеству данных (называемому набором данных для обучения), а затем оценивает соответствие модели другому подмножеству, называемому набором данных для тестирования. Этот процесс может повторяться тысячи раз, и окончательная нейронная сеть модель будет той, которая лучше всего соответствует набору тестовых данных.
анализ текста: аналитические методы, примененные к тексту.
интеллектуальный анализ текста:методы интеллектуального анализа данных, применяемые к тексту. Поскольку они основаны на тех же основных аналитических подходах, что и анализ текста, интеллектуальный анализ текста является синонимом анализа текста, и использование термина интеллектуальный анализ в первую очередь зависит от стиля и контекста.
обучение. В интеллектуальном анализе данных процесс подбора модели к данным. Это итеративный процесс, который может включать тысячи и более итераций.
набор обучающих данных. При интеллектуальном анализе данных выборка данных, используемая на каждой итерации процесса обучения для оценки соответствия модели.
неструктурированные данные: текст, аудио, видео и другие типы сложных данных, которые не помещаются в обычную реляционную базу данных. Неструктурированные данные не так просты, как числа и короткие строки, которые использует большинство аналитиков данных.
валидация: акт тестирования модели с данными, которые не использовались в процессе подбора модели.
визуальное программирование: определение рабочего процесса путем манипулирования графическими изображениями, а не путем ввода кода или использования меню и диалоговых окон. Часто используется для интеллектуального анализа данных.
визуализация: изучение данных с помощью графиков. Этот термин чаще всего используется, когда графики относятся к новому или новому типу.