Баночка данных и задач для маркировки последовательностей — Рекуррентные нейронные сети (RNN)

В последней статье мы обсуждали банк данных и задач для конкретных задач классификации последовательностей. В этой статье мы коснемся банок данных и задач для проблем с маркировкой последовательностей.

Данные и задачи для маркировки последовательностей

Давайте сначала обсудим цель маркировки последовательностей — здесь для каждого слова во входном предложении модель предсказывает вывод.

Скажем, вход состоит из ряда последовательностей, табличное представление одного и того же будет иметь форму (пост-токенизация)

И для каждого слова каждого предложения/строки есть соответствующий вывод

Например, для первого предложения первое слово «The» является определителем, затем второе слово «first» является прилагательным, третье слово « половина» — это «существительное» и так далее.

Для каждого слова во входных данных будет свой соответствующий истинный вывод — по сути, «отображение 1:1 в том смысле, что каждое входное слово будет иметь некоторый вывод». А поскольку входное предложение может содержать переменное количество слов, а между входными и выходными данными существует соответствие 1:1, это означает, что «выходные данные также будут иметь переменную длину”

И «входные и выходные данные должны быть преобразованы в числа», поскольку модель принимает числовые входные данные.

Давайте посмотрим на операции, которые должны быть охвачены предварительной обработкой данных:

Необходимо определить специальные символы для обозначения начала последовательности, конца последовательности, а затем для операции заполнения — детали этих символов и обоснование того же обсуждается в этой статье

Вот как будет выглядеть ввод, вывод после включения специальных символов

Следует заметить, что если входное слово является специальным символом (скажем, «начало последовательности», «конец последовательности» или «закладка»), соответствующий вывод также отражает тот же символ

Произнесите макс. длина предложения составляет 10 во всех входных предложениях, и во входных данных есть «m» строк данных, затем «размер матрицы входных данных» будет иметь размерность «m x 10», и каждый из 10 индексов будет ссылаться на индекс в вектор с горячим кодированием, где значение равно 1

И поскольку между входом и выходом будет сопоставление 1:1, размерность «размер выходной матрицы» также будет «m x 10» (здесь 10 действует как индексы меток в предложении), и здесь также фреймворк, такой как PyTorch, Tensorflow может просто захватить индекс, где значение равно 1 индексу хранения фактический вектор с горячим кодированием

Подготовка данных для преобразования в форму с горячим кодированием

Опубликуйте включение специальных символов в каждое предложение, идея будет заключаться в том, чтобы «подготовить текущий список всех уникальных слов в обучающих данных» и «присвоить ему уникальный индекс для каждого слова » — эта таблица затем будет использоваться для «подготовки вектора горячего кодирования для каждого слова».

И поскольку это в некотором смысле многоклассовая классификация, все возможные выходные значения заносятся в таблицу и им присваивается индекс, который используется для представления вектора с горячим кодированием.

Процесс вычисления:

Первое слово первого ввода («x1») передается в модель и будет использоваться для вычисления «s1». », и из этого «y1_hat» вычисляется с использованием «функции softmax», и поскольку это скорее проблема обучения с учителем, истинное распределение «y» уже доступно, и истинный прогнозируемый результат можно сравнить для вычисления значения потерь.

Здесь также «s0» берется как вектор со всеми элементами как 0

На следующей итерации в модель будет передано второе слово того же входного предложения, и все вычисления будут выполнены аналогичным образом и так далее для входных данных для последующих временных шагов.

Здесь также включение заполнения не испортит ввод, оно добавлено, чтобы убедиться, что размеры согласованы во всех входных предложениях, а фактические вычисления будут выполняться только до истинная длина (опять же, вектор с истинной длиной для всех входных данных передается в качестве входных данных модели)

Референции: ПадхАй

смотрите также:

Новые материалы

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning