Зачем исследовать данные перед моделированием?
Исследование данных важно, потому что оно помогает глубже понять данные, выявить закономерности и взаимосвязи, раскрыть скрытые идеи, обнаружить выбросы и аномалии, а также предоставить информацию для разработки моделей и алгоритмов. Выполняя исследование данных, ученые и аналитики данных могут принимать обоснованные решения относительно данных и их потенциального использования, снижая риск разработки моделей, которые являются предвзятыми или неточными. В конечном счете, исследование данных приводит к более эффективному принятию решений и улучшению результатов в широком диапазоне приложений, от бизнеса и финансов до здравоохранения и научных исследований.
Пытаясь создать свое портфолио, я начал искать наборы данных для работы. Я нашел статью на LinkedIn, посвященную использованию методов машинного обучения для прогнозирования цен на жилье.
Подробнее о наборе данных. Набор данных представляет собой набор данных о жилье, представленный De Cock (2011). Данные поступили к нему непосредственно из офиса оценщика города Эймс в виде дампа данных из их системы записей. Исходный файл Excel содержал 113 переменных, описывающих 3970 продаж недвижимости, которые произошли в Эймсе, штат Айова, в период с 2006 по 2010 год. удалены любые переменные, которые требовали специальных знаний или предварительных расчетов для их использования. Большинство этих удаленных переменных были связаны с коэффициентами взвешивания и корректировки, используемыми в текущей системе моделирования города.
Набор данных содержит 2930 записей (строк) и 82 функции (столбца), и здесь мы находим описание столбцов, которые будут использоваться для прогнозирования нашего целевого столбца, который представляет собой цену продажи, то есть сумму, которую квартира или дом продают с учетом различных условия.
Исследование данных
Во-первых, мы видим распределение продаж домов по районам в зависимости от года продажи.
Это понимание также полезно для владельцев домов, а также строителей недвижимости.
Здесь мы видим график гистограммы, который показывает распределение цен продажи в наборе данных. Из графика видно, что большинство цен на жилье колеблется между 100 000 и 250 000.
Далее мы видим взаимосвязь между размером жилой площади и ценой собственности.
Этот график показывает, что чем больше жилая площадь, тем выше цена продажи.
Чтобы иметь возможность понять взаимосвязь между столбцами, см. ниже построенную карту корреляции.
Существует множество положительных и отрицательных корреляций. Однако, глядя на последнюю строку тепловой карты, которая является целевой переменной, она сильно положительно коррелирует со столбцами «Общее качество» и «Общая площадь жизни». Это также положительно коррелирует с годом постройки, годом переоборудования/добавления, максимальной площадью Vnr, Total Bsmt SF, 1st Flr SF, Full Bath, Garage Cars и Garage Area.
На приведенном выше графике показана связь между годом постройки объекта и ценой его продажи.
График выше показывает взаимосвязь между количеством спален и ценой продажи. Это показывает, что большее количество номеров не обязательно означает более высокую цену.
Затем мы запрашиваем набор данных о распределении общего качества свойства.
Этот график показывает, что большая часть собственности имеет общее качество от 4 до 8. Это также может повлиять на цену продажи.
Запрашивая столбец «Тип гаража» в связи с ценой продажи, мы видим, что квартира/недвижимость с любым типом гаража увеличивает цену. Это понимание также полезно для потенциальных застройщиков недвижимости.
Вот некоторые идеи, которые мне удалось извлечь из набора данных.
Далее я подготовлю набор данных для моделирования в своем следующем посте.