- Звездообразные вероятностные модели шумоподавления (arXiv)
Автор : Андрей Охотин, Дмитрий Молчанов, Владимир Архипкин, Григорий Бартош, Айбек Аланов, Дмитрий Ветров.
Аннотация: Методы, основанные на вероятностных моделях шумоподавления (DDPM), стали повсеместным инструментом в генеративном моделировании. Однако они в основном ограничиваются гауссовскими и дискретными диффузионными процессами. Мы предлагаем звездообразные вероятностные модели шумоподавления (SS-DDPM), модель с немарковским диффузионно-подобным шумовым процессом. В случае распределений Гаусса эта модель эквивалентна марковским DDPM. Однако его можно определить и применить к произвольным распределениям шума, и он допускает эффективные алгоритмы обучения и выборки для широкого диапазона распределений, принадлежащих экспоненциальному семейству. Мы предлагаем простой рецепт проектирования диффузионных моделей с распределениями типа Бета, фон Мизеса — Фишера, Дирихле, Вишарта и других, который может быть особенно полезен, когда данные лежат на ограниченном многообразии, таком как единичная сфера, пространство положительных полураспределений. -определенные матрицы, вероятностный симплекс и т. д. Мы оцениваем модель в различных условиях и находим ее конкурентоспособной даже на данных изображений, где бета-SS-DDPM достигает результатов, сравнимых с гауссовской DDPM.
2. MedDiff: создание электронных медицинских карт с использованием модели ускоренного шумоподавления (arXiv)
Автор: Хуан Хэ, Шифан Чжао, Юаньчжэ Си, Джойс Си Хо.
Аннотация: Из-за проблем с защитой конфиденциальности пациентов исследования машинного обучения в здравоохранении, несомненно, были медленнее и ограничены, чем в других областях применения. Высококачественные, реалистичные, синтетические электронные медицинские карты (ЭМК) можно использовать для ускорения методологических разработок в исследовательских целях, одновременно смягчая проблемы конфиденциальности, связанные с обменом данными. Текущая современная модель для создания синтетических электронных медицинских карт — это генеративно-состязательные сети, которые, как известно, трудно обучать и которые могут страдать от коллапса режима. Недавно было показано, что вероятностные модели диффузионного шумоподавления, класс генеративных моделей, вдохновленных статистической термодинамикой, генерируют высококачественные синтетические образцы в определенных областях. Неизвестно, могут ли они обобщаться для создания крупномасштабных электронных медицинских карт высокой размерности. В этой статье мы представляем новую генеративную модель, основанную на моделях распространения, которая является первым успешным приложением для электронных медицинских карт. Наша модель предлагает механизм для выполнения выборки по условию класса для сохранения информации о метках. Мы также вводим новую стратегию выборки для ускорения скорости логического вывода. Мы эмпирически показываем, что наша модель превосходит существующие современные синтетические методы генерации EHR.