Создайте портфолио по науке о данных с помощью обучающей арки аниме

Смотреть аниме? Пытаетесь расширить свой портфель машинного обучения? Создайте рекомендателя аниме на основе машинного обучения для своих следующих просмотров!

Вы закончили новое аниме, которое вам понравилось. Лучший. Чувство. Всегда! Ну,вот проблема: вы только что закончили новое любимое аниме! Вам нечего сейчас смотреть!

Ну не надо плакать. Сегодня мы научимся создавать систему рекомендаций по аниме, что, по сути, является просто причудливым способом сказать, что мы создадим программу, предлагающую похожие аниме. Чтобы быть точным, мы будем использовать совместную фильтрацию на основе элементов для поиска предложений.

Что такое совместная фильтрация?

Совместная фильтрация относится к системам рекомендаций, которые используют действия пользователей для рекомендации других элементов. В этом случае на входе нашей программы будет название аниме, а на выходе — десять предложений похожих аниме. Вот пример:

Набор данных и подготовка данных

Данные, используемые в этой статье, будут извлечены из набора данных MyAnimeList, созданного Azathoth. После загрузки набора данных мы захотим исследовать наши данные. В этом случае, для простоты, мы хотим, чтобы рекомендатель предлагал только аниме сериалы. Таким образом, мы удалим OVA, фильмы и другие специальные предложения из нашего набора данных. Давайте проверим, сколько серий в большинстве сериалов.

Почему в аниме 0 серий? Что ж, мы должны удалить аниме, которые еще не вышли в эфир. После этого у нас все еще будут серии с 0 эпизодами, потому что кажется, что в этом наборе данных, если аниме в настоящее время транслируется, столбцу эпизодов присваивается значение 0. Это тип деталей, с которыми специалист по данным должен быть осторожен. при изучении данных.

Рекомендатель с машинным обучением — K-ближайшие соседи

Пора пачкать руки! Мы будем использовать алгоритм KNN, чтобы найти похожие аниме.

Алгоритм KNN создаст вектор оценок для каждого аниме. Другими словами, каждое аниме станет вектором, состоящим из оценок пользователей и NaN, если пользователь не видел аниме.

Модель KNN измеряет сходство между векторами (в данном случае один вектор соответствует одному аниме) и дает нам ближайшие векторы/соседи.

Для расчета расстояния между векторами у нас не может быть пропущенных значений. Таким образом, мы заполним все пропущенные значения 0. Наш фрейм данных теперь будет выглядеть так:

Как вы можете видеть, наш фрейм данных в основном равен нулю, потому что большинство пользователей в среднем видели только около 166 аниме, но есть 14478 уникальных аниме. Таким образом, чтобы мы не получили никаких ошибок с памятью и были (намного) более эффективными, мы сожмем наш набор данных в csr_matrix. Это будут входные данные нашей модели, которую мы затем запустим и подгоним данные.

Теперь мы можем создать простую функцию для получения предложений аниме! Функция получает название аниме, а затем возвращает 10 предложений:

Модель, кажется, работает очень хорошо! Есть некоторые различия, когда мы сравниваем его с решением без машинного обучения. Примерно за час мы построили две системы рекомендаций аниме! Как вы думаете, кто показал себя лучше?

В другой статье я могу объяснить, как измерять и сравнивать производительность двух решений. Я также сделаю вторую часть, в которой объясню, как мы можем использовать эти два рекомендателя для создания сайта с помощью Streamlit. На данный момент вы можете получить доступ к коду через этот репозиторий Github.

Использованная литература:

[1] aniketng21, Система рекомендаций фильмов с использованием алгоритма KNN

[2] Ник Беккер, Музыкальные рекомендации

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning