Машины отслеживания знаний: машины факторизации для отслеживания знаний (Резюме)

https://arxiv.org/pdf/1811.03388.pdf
Это резюме исследования по машинному обучению, подготовленного Джилл-Дженн Ви и Хисаши Кашима.

Краткие факты

Будет представлен на AAAI 2019
Код Github доступен по адресу: https://github.com/jilljenn/ktm
Некоторые ранее представленные слайды о ранней работе Джилл-Дженн Ви по созданию машин отслеживания знаний можно найти здесь: Слайды с ключевыми комментариями: https://humanlearn.io/static/slides/knowledge-tracing-machines-vie.pdf

Введение

В данной статье представлены новые методы моделирования способности студентов отвечать на различные типы вопросов с использованием факторизационных машин. Он может хорошо обрабатывать разреженные функции и может работать с данными, основанными на времени. Он также имеет значительное улучшение по сравнению с предыдущими современными алгоритмами.

Условия

Temporal: « Относительно времени». Что касается этой статьи, мы используем функции, которые показывают, как учащийся со временем улучшает свои знания и уровень навыков.

KC: Компоненты знаний - это абстракции поведения, которое, как мы думаем, усваивается по мере того, как учащийся совершенствует свои навыки. KC могут подавать заявки на один или несколько вопросов, и вопросы также могут относиться к одному или нескольким KC.

Logit: функция logit, определенная в logit p = log (p / (1 - p)). Где p - вероятность правильного ответа пользователя на вопрос. Эта функция имеет диапазон от 0 до 1.

Совместная фильтрация (CF): прогнозирование значения пары пользователь-элемент на основе других пользователей и элементов, наиболее похожих на эту пару.

Машины факторизации (FM): контролируемые модели линейного обучения как для регрессии, так и для классификации. FM комбинируют SVM с моделями факторизации. В отличие от SVM, они моделируют взаимодействия между переменными, используя факторизованные параметры. Преимущества FM в том, что они позволяют оценивать параметры с разреженными данными, имеют линейную сложность и могут работать с любым вектором признаков с действительными значениями. FM моделируют взаимодействия, отображая их в низкоразмерном пространстве. Они могут факторизовать массивы, которые имеют более двух измерений, в отличие от матричной факторизации.

Машины факторизации использовались вместе с CF для кодирования дополнительной информации о пользователях (студентах) и элементах (вопросах) в аналогичных задачах.
Машины факторизации в их регрессионной форме использовались для моделирования студентов, в этой статье исследуется форма классификации FM для моделирования студентов.

Машины отслеживания знаний (KTM): семейство моделей, представленных в этом документе.

d: вы увидите эту переменную «d» вокруг, это вложения о пользователе, изученном алгоритмом. Это похоже на параметр, который вы устанавливаете, говоря вашему алгоритму, чтобы он узнал d скрытых факторов для каждого пользователя.

Площадь под кривой (AUC): кривая в этом случае (и в большинстве случаев машинного обучения) - это кривая оператора приемника (ROC), которая используется для измерения соотношения ложноположительных и ложноотрицательных ошибок. . AUC - это показатель того, сколько ошибок вы делаете, меняя пороговое значение для положительного и отрицательного.

Пример: AUC = 1 означает, что прогноз всегда правильный.
Пример: случайное предположение об идеально сбалансированном наборе данных даст AUC = 0,5.

Резюме

Временные данные

Чтобы точно предсказать результат попытки ученика ответить на конкретный вопрос, мы можем использовать кодирование последовательности попыток ученика задать конкретный вопрос. В этом документе показано, что, наряду с последовательностями попыток, мы можем получить более точные результаты с меньшим временем обучения, закодировав «навыки» или «компоненты знаний» (KC), которые связаны с вопросом. Кроме того, кодируя счетчики в KC учащегося каждый раз, когда он отвечает на вопрос правильно или неправильно, мы можем добиться еще большей точности.

Например. Предположим, вы студент, который пытается ответить на вопрос 2 (Q2). И предположим, что с Q2 связано 2 KC (KC1 и KC2).

Поздравляем, вы правильно ответили на вопрос!

Теперь мы закодируем счетчики ваших «Выигрышей» на KC1 и KC2 для следующей попытки, которую вы сделаете для ответа на вопрос.

Допустим, это позже в семестре, и вы просматриваете свои заметки, теперь вы снова пытаетесь выполнить Q2. Но на этот раз вы ошиблись. Мы не вычитаем из вашего счетчика побед, но добавим в счетчик неудач для обоих навыков KC1 и KC2. Стоит отметить, что подсчет ОБЕИХ выигрышей и неудач превосходит кодирование только выигрышей.

Допустим, вы сейчас пытаетесь задать вопрос, отличный от Q2, который мы будем называть Q3. Q3 использует навыки KC2 и KC3. Потому что он разделяет навык KC2 с Q2, на который вы уже показали, что можете ответить (по крайней мере, в некоторых случаях). Мы храним закодированный счетчик ваших побед и поражений для KC2. Но потому что Q3 не разделяет навыки KC1. Мы не учитываем этот закодированный счетчик для этой попытки.

Это базовая установка того, как данные, которые будет использовать эта модель, включают временную последовательность попыток задать вопрос. Модель будет использовать эту временную последовательность во время обучения, чтобы узнать, как повысить точность, когда похожие ученики будут правильно отвечать на аналогичные вопросы.

Визуализация

Мы можем визуализировать данные в 2D-пространстве, чтобы увидеть навыки и вопросы, с которыми конкретный пользователь хорошо справляется или с которыми борется. В приведенном ниже примере, когда вы вычисляете скалярное произведение WALL-E с навыками 2 и 7, вы получаете отрицательное число. Навыки и вопросы, которые имеют положительное отношение к WALL-E, имеют положительное число, когда вы вычисляете скалярное произведение этого навыка / вопроса с помощью WALL-E. Как оказалось, в вопросе 5, который, как мы видим, имеет высокий отрицательный скалярный продукт для пользователя, используются как навыки 2, так и 7.

Это довольно круто, потому что с первого взгляда мы можем увидеть, с какими навыками и вопросами сталкивается конкретный пользователь.

Скрытое пространство

Эта модель вводит переменную d для представления количества изученных скрытых факторов, которые алгоритм может вывести по вопросу. Можно подумать об этих усвоенных латентных факторах как о кодировании таких вещей, как, например, сложность вопроса.

Почему это исследование имеет значение

Этот документ имеет смысл, потому что он представляет модель, которая либо соответствует, либо превосходит каждую существующую модель. Что делает эту модель особенно особенной, так это то, что она позволяет вам использовать все данные, которые использовали предыдущие модели, но теперь вы используете их все одновременно. Эти данные включают:

Навыки кодирования, связанные с конкретными вопросами
Кодирование последовательных попыток пользователей ответить на вопросы
Кодирование подсчета успехов и неудач в зависимости от навыков, связанных с заданным вопросом

Что касается реальных приложений, кто-то может взять эту модель и сделать что-то из следующего:

Узнавайте сложность вопросов прямо из данных
Измеряйте знания студентов с течением времени
Создать адаптивную политику обучения, позволяющую учителям нацеливаться на конкретные проблемные области на индивидуальной основе.

Связанных с работой

DKT - модель глубокого обучения с долгосрочной краткосрочной памятью (LSTM) для моделирования студентов. Используется в качестве основы для оценки производительности модели. Однако они оценивают большое количество параметров, что делает их склонными к переобучению, и их трудно тренировать на длинных последовательностях.

Модель Раша (IRT). Модель Раша или теория отклика элемента - самая простая модель для факторного анализа. Это логистическая модель с одним параметром.

Где Theta i - это предвзятость студента, или, скорее, способности студента i и dj - это предвзятость вопроса, или, скорее, сложность вопроса j
IRT можно рассматривать как систему логистических регрессий, пытающуюся найти лучшее i (студент) и d (вопрос)
Первоначально было показано, что IRT превосходит DKT даже без временных функций.

MIRT - многомерная IRT.

Где delta j - это дополнительная предвзятость вопроса или легкость вопроса j.
Общеизвестно, что сложно тренировать, но его можно оптимизировать для эффективного обучения до 20 измерений.

AFM - аддитивная факторная модель, учитывает количество попыток, которые пользователь сделал для ответа на вопрос.

Где Beta k - смещение для навыка k, а gamma k - смещение для каждой возможности изучить навык k. Ник - это количество попыток учащегося i ответить на вопрос, требующий навыка k.

PFA - анализ факторов производительности, по сути AFM, но отдельно учитывает успешные и неудачные попытки ответа на вопрос .

Добавляет счетчики W ik и F ik для успехов и неудач.
DKT впоследствии смог сопоставить эффективность PFA.

Благодарности

Спасибо Джилл-Дженн Ви за ответы на мои вопросы и спасибо Мэтту Эмери за просмотр черновиков этого резюме.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning