1. Смешение условий перекрестной энтропии и ожидаемых потерь(arXiv)
Автор:Барак Батташ, Лиор Вольф, Тамир Хазан
Аннотация: потеря перекрестной энтропии широко используется из-за ее эффективности и надежного теоретического обоснования. Однако по мере обучения потеря имеет тенденцию сосредотачиваться на трудноклассифицируемых образцах, что может помешать сети получить прирост производительности. В то время как большинство работ в этой области предлагают способы классификации жестких негативов, мы предлагаем стратегически оставить жесткие негативы позади, чтобы сосредоточиться на неправильно классифицированных образцах с более высокой вероятностью. Мы показываем, что добавление к цели оптимизации потери ожиданий, которая является лучшим приближением потери нуля или единицы, помогает сети достичь большей точности. Поэтому мы предлагаем переключаться между двумя потерями во время обучения, постепенно уделяя больше внимания потере ожиданий на более поздних этапах обучения. Наши эксперименты показывают, что новый протокол обучения повышает производительность в различных областях классификации, включая компьютерное зрение, обработку естественного языка, табличные данные и последовательности. Наш код и скрипты доступны на доп.
2.Смешанная перекрестная потеря энтропии для нейронного машинного перевода(arXiv)
Аннотация: в нейромашинном переводе перекрестная энтропия (CE) является стандартной функцией потерь в двух методах обучения авторегрессионных моделей, т. е. при принуждении учителя и выборке по расписанию. В этой статье мы предлагаем смешанную перекрестную потерю энтропии (смешанный CE) в качестве замены CE в обоих подходах к обучению. При принуждении учителя модель, обученная с помощью CE, рассматривает проблему перевода как процесс сопоставления «один к одному», тогда как в смешанном CE этот процесс может быть упрощен до «один ко многим». В запланированной выборке мы показываем, что смешанный CE может способствовать тому, чтобы поведение при обучении и тестировании было похоже друг на друга, более эффективно смягчая проблему предвзятости воздействия. Мы демонстрируем превосходство смешанного CE над CE на нескольких наборах данных машинного перевода, WMT’16 Ro-En, WMT’16 Ru-En и WMT’14 En-De как в настройках принудительного преподавателя, так и в настройках запланированной выборки. Кроме того, в WMT’14 En-De мы также обнаружили, что смешанный CE постоянно превосходит CE на множественном эталонном наборе, а также на сложном перефразированном эталонном наборе. Мы также обнаружили, что модель, обученная смешанному CE, способна обеспечить лучшее распределение вероятностей, определенное в выходном пространстве перевода. Наш код доступен по адресу https://github.com/haorannlp/mix.△ Меньше