1. О теории BART(arXiv)

Автор :Вероника Рокова, Энакши Саха

Вывод:обучение в ансамбле — это статистическая парадигма, основанная на предположении, что многие слабые учащиеся могут работать исключительно хорошо при коллективном развертывании. Метод BART Чипмана и соавт. (2010) является ярким примером байесовского ансамблевого обучения, где каждый ученик представляет собой дерево. Благодаря своим впечатляющим характеристикам BART привлек большое внимание практиков. Однако, несмотря на его широкую популярность, теоретические исследования BART начали появляться совсем недавно. Закладывая основы теоретического анализа байесовских лесов, Рокова и ван дер Пас (2017) показали оптимальную апостериорную концентрацию при условно однородных априорных деревьях. Эти априорные значения отличаются от фактических априорных значений, реализованных в BART. Здесь мы изучаем точную априорную версию BART и предлагаем простую модификацию, чтобы она также обладала свойствами оптимальности. С этой целью мы углубимся в теорию ветвящихся процессов. Мы получаем хвостовые границы распределения всего потомства при гетерогенных процессах Гальтона-Ватсона (ГВ), используя их связь со случайными блужданиями. В заключение мы приводим результат, определяющий оптимальную скорость апостериорной сходимости для BART.

2.BART с целевым сглаживанием: анализ риска мертворождения у конкретного пациента(arXiv)

Автор: Дженнифер Э. Старлинг, Джаред С. Мюррей, Карлос М. Карвалью, Радек К. Буковски, Джеймс Г. Скотт.

Аннотация . В этой статье представлена ​​BART с целевым сглаживанием, или tsBART, новая байесовская древовидная модель для непараметрической регрессии. Цель tsBART состоит в том, чтобы ввести гладкость по одной целевой ковариате t, не обязательно требуя гладкости по другим ковариатам x. ЦБАРТ основан на модели байесовских аддитивных регрессионных деревьев (BART), ансамбле деревьев регрессии. TsBART расширяет BART, параметризируя конечные узлы каждого дерева гладкими функциями от t, а не независимыми скалярами. Как и BART, tsBART фиксирует сложные нелинейные отношения и взаимодействия между предикторами. Но в отличие от BART, tsBART гарантирует, что поверхность отклика будет гладкой в ​​целевой ковариате. Это улучшает интерпретируемость и помогает упорядочить оценку. После введения и сравнительного анализа модели tsBART мы применяем ее к нашему мотивирующему примеру: данные об исходах беременности из Национального центра статистики здравоохранения. Наша цель состоит в том, чтобы предоставить индивидуальные оценки риска мертворождения в зависимости от гестационного возраста (t) на основе факторов риска матери и плода (x). Акушеры ожидают, что риск мертворождения будет плавно варьироваться в зависимости от гестационного возраста, но не обязательно в зависимости от других ковариатов, и tsBART был разработан именно для отражения этих структурных знаний. Результаты нашего анализа показывают явное превосходство модели tsBART для количественной оценки риска мертворождения, тем самым предоставляя пациентам и врачам лучшую информацию для управления риском перинатальной смертности. Все описанные здесь методы реализованы в пакете R tsbart.

3.Гетероскедастический BART с использованием деревьев мультипликативной регрессии(arXiv)

Автор: Мэттью Пратола, Хью Чипман, Эдвард Джордж, Роберт МакКаллок.

Аннотация: BART (Байесовские деревья аддитивной регрессии) становятся все более популярными как гибкий и масштабируемый подход непараметрической регрессии для решения современных задач прикладной статистики. Для практиков, имеющих дело с большими и сложными нелинейными поверхностями отклика, его преимущества включают формулировку без матриц и отсутствие требования предварительно задавать ограничивающий базис регрессии. Несмотря на гибкость в подборе среднего значения, BART был ограничен своей зависимостью от модели ошибки с постоянной дисперсией. Это гомоскедастическое предположение нереалистично во многих приложениях. Облегчая это ограничение, мы предлагаем HBART, непараметрическую гетероскедастическую разработку BART. В BART средняя функция моделируется суммой деревьев, каждое из которых определяет аддитивный вклад в среднее значение. В HBART функция дисперсии дополнительно моделируется произведением деревьев, каждое из которых определяет мультипликативный вклад в дисперсию. Подобно модели среднего значения, эта гибкая модель многомерной дисперсии является полностью непараметрической и не требует предварительной спецификации ограничивающего базиса. Более того, с этим усовершенствованием HBART может дать представление о потенциальных отношениях предикторов как со средним значением, так и с дисперсией. Демонстрируются практические реализации HBART с выявлением новых диагностических участков на смоделированных и реальных данных о ценах на подержанные автомобили, производстве улова и потреблении алкоголя.