Неконтролируемое обучение — это тип алгоритма, который изучает шаблоны из немаркированных данных. Надежда состоит в том, что машина вынуждена создавать компактное внутреннее представление своего мира посредством мимикрии. Википедия

Неконтролируемая классификация выполняется довольно быстро и легко. Предварительных знаний в этой области не требуется, но вы должны уметь идентифицировать и обозначать классы после классификации.

Основные области применения неконтролируемого обучения включают кластеризацию, визуализацию, уменьшение размерности, поиск правил ассоциации и обнаружение аномалий.

Кластеризация.

Визуализация.

Уменьшение размерности.

Поиск правил ассоциации.

Обнаружение аномалий.

Подробнее об обучении без учителя.

В сегодняшней статье мы поговорим о пяти 6 проектах обучения без учителя / репозитории на Github, которые помогут вам в вашем путешествии по машинному обучению, чтобы улучшить ваши навыки в области науки о данных и искусственного интеллекта.

Примечание:В этой статье мы поговорим о некоторых действительно хороших проектах/репозиториях для самостоятельного обучения с открытым исходным кодом, которые вы можете использовать в своих проектах. Чтобы узнать больше о каждом из них, я рекомендую перейти по ссылке, указанной в проекте.

Обучение — это не только повышение компетентности в своей работе. Это гораздо больше. Datacamp позволяет мне учиться без ограничений.

Datacampпредоставляет вам гибкость, необходимую для прохождения курсов в свободное время и изучения основных навыков, необходимых для перехода к успешной карьере.

Datacamp научил меня быстро улавливать новые идеи и применять их к реальным проблемам. Пока я был на этапе обучения, Datacamp зацепил меня всем, что происходит на курсах, от содержания курсов и отзывов TA до встреч и твитов профессора.

Вот некоторые из моих любимых курсов, которые я настоятельно рекомендую вам изучать, когда это соответствует вашему графику и настроению. Вы можете напрямую применить концепции и навыки, полученные на этих курсах, в новом увлекательном проекте на работе или в университете.

  1. Data-scientist-with-python
  2. Data-scientist-with-r
  3. Ученый-машинное обучение-с-r
  4. Ученый-машинное обучение-с-питоном
  5. Машинное обучение для всех
  6. Наука о данных для всех
  7. Data-engineer-with-python
  8. Дата-аналитик-с-питоном
  9. Основы больших данных через pyspark

Возвращаясь к теме —

1. ПйОД

Гитхаб

Официальная документация

PyOD  — это набор инструментов Python для масштабируемого обнаружения выбросов (обнаружения аномалий). PyODимеет несколько моделей на основе нейронных сетей, например, AutoEncoders, которые реализованы в Keras.

PyOD — это всеобъемлющий и масштабируемый набор инструментов Python для обнаружения удаленных объектов в многомерных данных. Эта захватывающая, но сложная область обычно называется Обнаружение выбросовилиОбнаружение аномалий.

PyODвключает более 30 алгоритмов обнаружения, от классического LOF (SIGMOD 2000) до новейшего COPOD (ICDM 2020).

PyOD предназначен для:

  • Унифицированные API, подробная документация и интерактивные примеры для различных алгоритмов.
  • Расширенные модели, в том числе классические от scikit-learn, последние методы глубокого обучения и появляющиеся алгоритмы, такие как COPOD. .
  • Оптимизированная производительность с помощью JIT и распараллеливания, когда это возможно, с использованием numba и joblib.
  • Совместим с Python 2 и 3.

2. СфмЛернер

Гитхаб

"Бумага"

SfMLearner – это среда обучения без учителя для глубиныи эго-оценка движения по монокулярным видео. Эта кодовая база реализует систему, описанную в документе:

Неконтролируемое изучение глубины и эго-движения из видео

В этой статье они представили среду обучения без учителя для монокулярной глубины и оценки движения камеры по неструктурированным видеопоследовательностям

Эта кодовая база была разработана и протестирована с помощью Tensorflow 1.0, CUDA 8.0 и Ubuntu 16.04.

3. Каратэ-клуб

Гитхаб

"Бумага"

KarateClub – это API-ориентированная платформа Python с открытым исходным кодом для неконтролируемого обучения на Графики.

Karate Club — это неконтролируемая библиотека расширений машинного обучениядля NetworkX. Он основан на других открытых библиотеках линейной алгебры, машинного обучения и обработки графических сигналов, таких как Numpy, Scipy, Gensim, PyGSP и Scikit-Learn. Клуб каратэпредлагает самые современные методы для обучения без учителя на графически структурированных данных.

Проще говоря, это швейцарский армейский нож для небольших исследований графического анализа.

  • Во-первых, он предоставляет методы внедрения сети на уровне узла и графа.
  • Во-вторых, он включает множество пересекающихся и непересекающихся методов обнаружения сообществ.
  • Karate Club относительно просто использует современные методы обнаружения сообщества (см. здесь для сопутствующего руководства).

4. ВоксельМорф

Гитхаб

VoxelMorph – это проект обучения без учителя для регистрации изображений. Voxelmorph – это библиотека общего назначения для обучающих инструментов для выравнивания/регистрации и, в более общем плане, для моделирования с деформациями. /сильный>

Если вы хотите обучить свою модель, вам потребуется настроить код загрузки данных для ваших наборов данных и форматов данных. готово, при условии, что у вас есть каталог, содержащий файлы данных обучения в формате npz (NumPy).

ключевые слова: машинное обучение, сверточные нейронные сети, выравнивание, сопоставление, регистрация

5. Сеть передачи домена

Гитхаб

"Бумага"

Domain Transfer Network — это реализация TensorFlow для неконтролируемой междоменной генерации изображений.

Это проблема перевода выборки в одной области в аналоговую выборку в другой области. Учитывая две связанные части, S и T, мы хотели бы изучить порождающую функцию G, которая отображает входную выборку из S в домен T, так что выходные данные данной функции f, которая принимает входные данные в любом домене, останутся неизменными. За исключением функции f, обучающие данные не контролируются и состоят из выборок из каждой части. Сеть передачи доменов (DTN), которую мы представляем, использует составную функцию потерь, которая включает многоклассовую GAN потерю, компонент f-константы. и функция упорядочивания, которая побуждает G сопоставлять образцы из Tс собой.

Они применяют методы к визуальным областям, включая цифры и изображения лиц, и демонстрируют свою способностьсоздавать привлекательные новые изображения ранее невиданных объектов, сохраняя при этом их идентичность.

От фотографий к эмодзи (в газете)

6. Неконтролируемая классификация

Гитхаб

"Бумага"

Неконтролируемая классификация – это проектнеконтролируемого обучения SCAN: Learning to Classify Images Without Labels (ECCV 2020).

Этот репозиторий содержит реализацию нашей статьи в Pytorch:

СКАНИРОВАНИЕ: учимся классифицировать изображения без меток

Этот проект может автоматически группировать изображенияв семантически значимые кластеры, когда наземные аннотации отсутствуют. Задача неконтролируемой классификации изображений остается серьезной и открытой проблемой в области компьютерного зрения. Этот документ отличается от недавних работ и пропагандирует двухэтапный подход, в котором обучение признаков и кластеризация отделены друг от друга.

Они превосходят современные методы с большим отрывом, в частности, +26,6% на CIFAR10, +25,0% на CIFAR100–20 и +21,3% на STL10 с точки зрения точности классификации. Их метод является первым, хорошо зарекомендовавшим себя в ImageNet (1000 классов).

Если вам понравилось читать эту статью, я уверен, что мы разделяем схожие интересы и работаем/будем работать в схожих отраслях. Итак, подключаемся через LinkedIn и Github. Пожалуйста, не стесняйтесь отправить запрос на контакт!