Обзоры книг по науке о данных, серия № 001

Я надеюсь, что этот обзор книги поможет читателям выбрать правильную книгу для своих учебных потребностей.

Название книги: «Машинное обучение с использованием Python», авторами - Манаранжан Прадхан и профессор У Динеш Кумар - 1-е издание, 2019 г. - Прейскурантная цена: 534 рупий / -

Издатель: Wiley India Pvt.Limited, Нью-Дели

Рейтинг рецензирования книги - 7 из 10

Эта книга дает хорошее понимание концепций машинного обучения для начинающих. Поскольку код написан на python, он подходит для учащихся, имеющих очень базовые знания языка python. Поскольку Python является основным требованием для любого Data Scientist, для тех, кто стремится стать Data Scientist, это действительно хорошее чтение.

Книга состоит из 10 глав. В первых трех главах были представлены машинное обучение, фреймворк Anaconda для написания кода машинного обучения, некоторые полезные библиотеки Python, распределения вероятностей и проверка гипотез. В главах 4 и 5 описаны методы машинного обучения с учителем: регрессия и классификация. Глава 6 посвящена ансамблевым алгоритмам. Последняя глава посвящена аналитике текста. Остальные главы посвящены кластеризации, временным рядам и рекомендательным системам.

Наиболее понравившийся аспект книги - это аккуратно написанные коды на Python с соответствующими данными по каждой важной теме машинного обучения. Авторы поделились ссылкой в книге на коды и наборы данных, которые используются в книге. Коды и данные можно скачать по предоставленной ссылке. Коды воспроизводятся в записных книжках Jupiter. Каждая важная строка кода хорошо объясняется с помощью ячеек разметки. Вы можете практиковать код, изучая концепции, изложенные в книге. Это поможет легко понять новые концепции в деталях.

Мне нравится, как машинное обучение представлено в первой главе. Такие темы, как жизненный цикл разработки модели, фреймворк Anaconda, алгоритмы машинного обучения, объясняются вкратце с различными этапами и соответствующими рисунками. Новые концепции объясняются четким содержанием теории. Все алгоритмы демонстрируются соответствующими кодами с использованием знакомых наборов данных MOOC.

Библиотеки Python Numpy и Pandas очень важны для разработки кода для моделирования машинного обучения. В книгу включены важные пакеты и методы Pandas для анализа и визуализации данных. В книге нет очень важных библиотек, таких как re, date time, requests, collections, xml и т. Д., Которые очень важны для предварительной обработки данных. Ожидается, что для полного понимания кода у вас будут базовые или промежуточные знания Python.

Большинство основных графических приемов показано во второй главе книги. Визуализация данных в виде графиков и цифр в лучшем случае. Корреляции, тепловые карты, дендографы и проверка гипотез, которые являются одними из наиболее важных аспектов машинного обучения, объяснены очень хорошо.

Мне больше всего нравятся главы 4, 5, 7 и 8. В частности, основные предположения о регрессии четко проверяются на регрессионной модели, чтобы узнать, как улучшить производительность регрессионной модели. Алгоритмы классификации, такие как логистическая регрессия и дерево решений, демонстрируются на игрушечных наборах данных. Вы можете визуализировать древовидную структуру модели дерева решений с помощью предоставленного кода. Вам понравится узнать о кодировании категориальных переменных, факторах инфляции дисперсии, мультиколлинеарности, RMSE, R-квадрате, точности, точности, полноте, специфичности, F-балле, матрице путаницы, кривой ROC, оптимальном пороге классификации и т. Д. Графики усиления и подъема, методы кривой локтя прекрасно продемонстрированы. Мне очень нравится простой способ демонстрации диагностики модели в книге.

Основные алгоритмы временных рядов, рекомендательных систем и кластеризации включены с красивыми кодами. Глава, посвященная аналитике текста, хорошо описывает TF-IDF и алгоритм Наивного Байеса для классификации предложений.

Я твердо верю, что практическое применение этих методов доставит вам большое удовольствие от изучения книги. Лучше хорошо потренироваться на данных MOOC, чтобы отточить навыки.

Математические концепции, лежащие в основе алгоритмов, сведены к минимуму по мере необходимости, чтобы было легко понять основы каждого алгоритма. По мере того, как вы будете применять знания из этой книги к все большему количеству новых данных, вы почувствуете, что вам все еще не хватает чего-то для разработки более совершенной модели. Вам может быть сложно определить, какое преобразование необходимо в состоянии предварительной обработки жизненного цикла машинного обучения. Может быть, авторы придерживались краткой теории, чтобы читатели могли учиться как можно быстрее. Возможно, вам придется просмотреть другие книги или Google, чтобы найти конкретные преобразования, необходимые для улучшения производительности модели с точки зрения выбранных показателей.

Настройка гиперпараметров - один из важных аспектов обучения модели. Хотя книги очень хорошо объясняют поиск по сетке и перекрестную проверку K-Fold, современные методы не упоминаются. Стоит потренироваться в таких методах гиперпараметров, как Optuna, байесовский поиск с использованием HyperOpt и Ray.

Важные понятия, такие как примесь Джини, потеря кросс-энтропии, энтропия, среднеквадратичная ошибка, средняя абсолютная ошибка, R-квадрат, упаковка, повышение, влияние несбалансированных данных в задачах классификации, важность инженерии функций на производительность модели, вменение недостающих данных и углубленная работа над ансамблевыми алгоритмами, такими как критерии разделения, его гиперпараметры и т. д., полностью не объяснены. Соискатели науки о данных должны тщательно вспомнить эти темы, чтобы браться за интервью.

В целом книгу стоит прочитать и купить. Вы определенно узнаете много важных концепций машинного обучения, будь вы новичок или средний уровень. Эта книга предлагает очень многообещающий контент, на который вы можете ссылаться всякий раз, когда вам нужно найти важную тему или код машинного обучения. Что наиболее важно, вы действительно можете очень хорошо практиковать большинство алгоритмов машинного обучения с помощью кодов, написанных в этой книге.

Качество печати и переплет книги очень хорошее. Шрифт и язык удобны для чтения. Я бы сказал: это одна из лучших книг в рамках бюджета для изучения «Машинного обучения». Вы можете изучить другие книги, а именно: «Машинное обучение с помощью Python Cookbook», «Практическое машинное обучение с помощью Scikit-Learn и TensorFlow» и т. Д.

Технические книги очень сложно оценивать. Однако я хотел бы поставить этой книге 7 баллов по шкале от 1 до 10.

Такие темы, как загрузка / чтение различных типов файлов с использованием python, парсинг веб-страниц с использованием BeautifulSoup, новейшие платформы AutoML, такие как PyCaret, развертывание модели, новейшие методы настройки гиперпараметров, добавят большей ценности книге. Будем надеяться, что эти темы будут включены в следующий выпуск.

Следите за мной, чтобы узнавать о других обзорах книг!

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning