https://arxiv.org/pdf/1811.03388.pdf
Это резюме исследования по машинному обучению, подготовленного Джилл-Дженн Ви и Хисаши Кашима.
Краткие факты
- Будет представлен на AAAI 2019
- Код Github доступен по адресу: https://github.com/jilljenn/ktm
- Некоторые ранее представленные слайды о ранней работе Джилл-Дженн Ви по созданию машин отслеживания знаний можно найти здесь: Слайды с ключевыми комментариями: https://humanlearn.io/static/slides/knowledge-tracing-machines-vie.pdf
Введение
В данной статье представлены новые методы моделирования способности студентов отвечать на различные типы вопросов с использованием факторизационных машин. Он может хорошо обрабатывать разреженные функции и может работать с данными, основанными на времени. Он также имеет значительное улучшение по сравнению с предыдущими современными алгоритмами.
Условия
Temporal: « Относительно времени». Что касается этой статьи, мы используем функции, которые показывают, как учащийся со временем улучшает свои знания и уровень навыков.
KC: Компоненты знаний - это абстракции поведения, которое, как мы думаем, усваивается по мере того, как учащийся совершенствует свои навыки. KC могут подавать заявки на один или несколько вопросов, и вопросы также могут относиться к одному или нескольким KC.
Logit: функция logit, определенная в logit p = log (p / (1 - p)). Где p - вероятность правильного ответа пользователя на вопрос. Эта функция имеет диапазон от 0 до 1.
Совместная фильтрация (CF): прогнозирование значения пары пользователь-элемент на основе других пользователей и элементов, наиболее похожих на эту пару.
Машины факторизации (FM): контролируемые модели линейного обучения как для регрессии, так и для классификации. FM комбинируют SVM с моделями факторизации. В отличие от SVM, они моделируют взаимодействия между переменными, используя факторизованные параметры. Преимущества FM в том, что они позволяют оценивать параметры с разреженными данными, имеют линейную сложность и могут работать с любым вектором признаков с действительными значениями. FM моделируют взаимодействия, отображая их в низкоразмерном пространстве. Они могут факторизовать массивы, которые имеют более двух измерений, в отличие от матричной факторизации.
- Машины факторизации использовались вместе с CF для кодирования дополнительной информации о пользователях (студентах) и элементах (вопросах) в аналогичных задачах.
- Машины факторизации в их регрессионной форме использовались для моделирования студентов, в этой статье исследуется форма классификации FM для моделирования студентов.
Машины отслеживания знаний (KTM): семейство моделей, представленных в этом документе.
d: вы увидите эту переменную «d» вокруг, это вложения о пользователе, изученном алгоритмом. Это похоже на параметр, который вы устанавливаете, говоря вашему алгоритму, чтобы он узнал d скрытых факторов для каждого пользователя.
Площадь под кривой (AUC): кривая в этом случае (и в большинстве случаев машинного обучения) - это кривая оператора приемника (ROC), которая используется для измерения соотношения ложноположительных и ложноотрицательных ошибок. . AUC - это показатель того, сколько ошибок вы делаете, меняя пороговое значение для положительного и отрицательного.
- Пример: AUC = 1 означает, что прогноз всегда правильный.
- Пример: случайное предположение об идеально сбалансированном наборе данных даст AUC = 0,5.
Резюме
Временные данные
Чтобы точно предсказать результат попытки ученика ответить на конкретный вопрос, мы можем использовать кодирование последовательности попыток ученика задать конкретный вопрос. В этом документе показано, что, наряду с последовательностями попыток, мы можем получить более точные результаты с меньшим временем обучения, закодировав «навыки» или «компоненты знаний» (KC), которые связаны с вопросом. Кроме того, кодируя счетчики в KC учащегося каждый раз, когда он отвечает на вопрос правильно или неправильно, мы можем добиться еще большей точности.
Например. Предположим, вы студент, который пытается ответить на вопрос 2 (Q2). И предположим, что с Q2 связано 2 KC (KC1 и KC2).
Поздравляем, вы правильно ответили на вопрос!
Теперь мы закодируем счетчики ваших «Выигрышей» на KC1 и KC2 для следующей попытки, которую вы сделаете для ответа на вопрос.
Допустим, это позже в семестре, и вы просматриваете свои заметки, теперь вы снова пытаетесь выполнить Q2. Но на этот раз вы ошиблись. Мы не вычитаем из вашего счетчика побед, но добавим в счетчик неудач для обоих навыков KC1 и KC2. Стоит отметить, что подсчет ОБЕИХ выигрышей и неудач превосходит кодирование только выигрышей.
Допустим, вы сейчас пытаетесь задать вопрос, отличный от Q2, который мы будем называть Q3. Q3 использует навыки KC2 и KC3. Потому что он разделяет навык KC2 с Q2, на который вы уже показали, что можете ответить (по крайней мере, в некоторых случаях). Мы храним закодированный счетчик ваших побед и поражений для KC2. Но потому что Q3 не разделяет навыки KC1. Мы не учитываем этот закодированный счетчик для этой попытки.
Это базовая установка того, как данные, которые будет использовать эта модель, включают временную последовательность попыток задать вопрос. Модель будет использовать эту временную последовательность во время обучения, чтобы узнать, как повысить точность, когда похожие ученики будут правильно отвечать на аналогичные вопросы.
Визуализация
Мы можем визуализировать данные в 2D-пространстве, чтобы увидеть навыки и вопросы, с которыми конкретный пользователь хорошо справляется или с которыми борется. В приведенном ниже примере, когда вы вычисляете скалярное произведение WALL-E с навыками 2 и 7, вы получаете отрицательное число. Навыки и вопросы, которые имеют положительное отношение к WALL-E, имеют положительное число, когда вы вычисляете скалярное произведение этого навыка / вопроса с помощью WALL-E. Как оказалось, в вопросе 5, который, как мы видим, имеет высокий отрицательный скалярный продукт для пользователя, используются как навыки 2, так и 7.
Это довольно круто, потому что с первого взгляда мы можем увидеть, с какими навыками и вопросами сталкивается конкретный пользователь.
Скрытое пространство
Эта модель вводит переменную d для представления количества изученных скрытых факторов, которые алгоритм может вывести по вопросу. Можно подумать об этих усвоенных латентных факторах как о кодировании таких вещей, как, например, сложность вопроса.
Почему это исследование имеет значение
Этот документ имеет смысл, потому что он представляет модель, которая либо соответствует, либо превосходит каждую существующую модель. Что делает эту модель особенно особенной, так это то, что она позволяет вам использовать все данные, которые использовали предыдущие модели, но теперь вы используете их все одновременно. Эти данные включают:
- Навыки кодирования, связанные с конкретными вопросами
- Кодирование последовательных попыток пользователей ответить на вопросы
- Кодирование подсчета успехов и неудач в зависимости от навыков, связанных с заданным вопросом
Что касается реальных приложений, кто-то может взять эту модель и сделать что-то из следующего:
- Узнавайте сложность вопросов прямо из данных
- Измеряйте знания студентов с течением времени
- Создать адаптивную политику обучения, позволяющую учителям нацеливаться на конкретные проблемные области на индивидуальной основе.
Связанных с работой
DKT - модель глубокого обучения с долгосрочной краткосрочной памятью (LSTM) для моделирования студентов. Используется в качестве основы для оценки производительности модели. Однако они оценивают большое количество параметров, что делает их склонными к переобучению, и их трудно тренировать на длинных последовательностях.
Модель Раша (IRT). Модель Раша или теория отклика элемента - самая простая модель для факторного анализа. Это логистическая модель с одним параметром.
- Где Theta i - это предвзятость студента, или, скорее, способности студента i и dj - это предвзятость вопроса, или, скорее, сложность вопроса j
- IRT можно рассматривать как систему логистических регрессий, пытающуюся найти лучшее i (студент) и d (вопрос)
- Первоначально было показано, что IRT превосходит DKT даже без временных функций.
MIRT - многомерная IRT.
- Где delta j - это дополнительная предвзятость вопроса или легкость вопроса j.
- Общеизвестно, что сложно тренировать, но его можно оптимизировать для эффективного обучения до 20 измерений.
AFM - аддитивная факторная модель, учитывает количество попыток, которые пользователь сделал для ответа на вопрос.
- Где Beta k - смещение для навыка k, а gamma k - смещение для каждой возможности изучить навык k. Ник - это количество попыток учащегося i ответить на вопрос, требующий навыка k.
PFA - анализ факторов производительности, по сути AFM, но отдельно учитывает успешные и неудачные попытки ответа на вопрос .
- Добавляет счетчики W ik и F ik для успехов и неудач.
- DKT впоследствии смог сопоставить эффективность PFA.
Благодарности
Спасибо Джилл-Дженн Ви за ответы на мои вопросы и спасибо Мэтту Эмери за просмотр черновиков этого резюме.