Как мы обсуждали в предыдущем посте об алгоритме K-ближайших соседей, это простой метод классификации новых данных, начиная с известных значений. Однако должен быть способ измерить, насколько хорошо сделаны прогнозы, чтобы решить, является ли это правильным алгоритмом для решения нашей проблемы или нам нужно внести некоторые коррективы в модель.

В машинном обучении это известно как показатели производительности модели, помимо измерения эффективности, его также можно использовать для сравнения производительности двух алгоритмов или для оценки того, ухудшается или улучшается производительность модели при оценке новых данных.

В зависимости от типа полученных данных применяются разные меры производительности, для KNN и других подобных алгоритмов классификации мы используем точность в качестве метрики производительности, где точность — это общее количество правильных наблюдений, деленное на общее количество сделанных наблюдений.

Чтобы вычислить точность модели на данных, набор обучающих данных должен использоваться для соответствия модели классификатора, но с учетом того, что он не может быть рассчитан с невидимыми данными, только с известными данными, чтобы не создавать ложных предположений.

Перед обучением модели набор данных необходимо разделить на две части. 20–30% данных обычно используются в качестве тестовых наборов, а остальные данные предназначены для обучающих наборов. Затем классификатор обучается с помощью обучающего набора, это создает модель, которая будет использоваться для создания прогнозов с тестовыми данными, наконец, результат прогноза сравнивается с реальным значением, чтобы получить среднее значение успешных наблюдений по всему размеченному тесту. данные.