Что подразумевается под «стратифицированным сплитом»?

Стратифицированное разделение (Py) помогает нам разделить наши данные на 2 выборки (например, данные обучения и данные испытаний) с дополнительной функцией указания столбца для стратификации (например, мы указываем переменную Возраст как столбец для стратификации, после чего разделение выполняется таким образом, что каждое уникальное значение возраста входит в оба набора данных (Train/test ), В общем, это способ сделать подмножества из нескольких слоев основных данных.

Мы используем данные поезда для построения модели и тестовые данные для тестирования/проверки модели.

Эта функция создает две новые таблицы, в которых данные разбиваются на основе параметров, указанных пользователем.

Приложение:

1. Он используется для разделения наших данных на два набора (т.е. данные обучения и данные испытаний).

2. Данные поезда должны содержать 60–80 % от общего числа точек данных.

3. Тестовые данные должны содержать 20–30% от общего числа точек данных.

Пример:

Рассмотрим приведенный выше набор данных. Он имеет 10 образцов, поэтому, когда мы используем функцию Stratified Split (Py), нам нужно указать два параметра.

1: Размер поезда (допустим, мы упомянули 0,7, т.е. 70%)

2: Переменная стратификации

Таким образом, функция выполняется и создает две новые таблицы, содержащие 70% и 30% данных соответственно.

Ввод:

В ATH для запуска стратифицированного разделения (Py) выберите столбцы данных, а затем используйте путь: Управление данными → Выборка/подмножество данных → Стратифицированное разделение (Py)

В поле «Размер поезда»: введите подходящее значение от 0 до 1.

В «Переменная стратификации»: выберите «Переменная для стратификации».

Вывод и интерпретация:

  1. Обучить данные 70 % фактических точек данных —

2.Тестовые данные: 30 % фактических точек данных —

См. также: Разделение данных (Py), Проверка случайности.

Посетить — ATH LEAPS

.