Что подразумевается под «стратифицированным сплитом»?
Стратифицированное разделение (Py) помогает нам разделить наши данные на 2 выборки (например, данные обучения и данные испытаний) с дополнительной функцией указания столбца для стратификации (например, мы указываем переменную Возраст как столбец для стратификации, после чего разделение выполняется таким образом, что каждое уникальное значение возраста входит в оба набора данных (Train/test ), В общем, это способ сделать подмножества из нескольких слоев основных данных.
Мы используем данные поезда для построения модели и тестовые данные для тестирования/проверки модели.
Эта функция создает две новые таблицы, в которых данные разбиваются на основе параметров, указанных пользователем.
Приложение:
1. Он используется для разделения наших данных на два набора (т.е. данные обучения и данные испытаний).
2. Данные поезда должны содержать 60–80 % от общего числа точек данных.
3. Тестовые данные должны содержать 20–30% от общего числа точек данных.
Пример:
Рассмотрим приведенный выше набор данных. Он имеет 10 образцов, поэтому, когда мы используем функцию Stratified Split (Py), нам нужно указать два параметра.
1: Размер поезда (допустим, мы упомянули 0,7, т.е. 70%)
2: Переменная стратификации
Таким образом, функция выполняется и создает две новые таблицы, содержащие 70% и 30% данных соответственно.
Ввод:
В ATH для запуска стратифицированного разделения (Py) выберите столбцы данных, а затем используйте путь: Управление данными → Выборка/подмножество данных → Стратифицированное разделение (Py)
В поле «Размер поезда»: введите подходящее значение от 0 до 1.
В «Переменная стратификации»: выберите «Переменная для стратификации».
Вывод и интерпретация:
- Обучить данные 70 % фактических точек данных —
2.Тестовые данные: 30 % фактических точек данных —
См. также: Разделение данных (Py), Проверка случайности.
Посетить — ATH LEAPS
.