- Распределительные машины повышения градиента (arXiv)
Автор : Александр Мярц, Томас Кнейб
Аннотация: Мы представляем единую систему повышения вероятностного градиента для задач регрессии, которая моделирует и прогнозирует все условное распределение одномерной переменной ответа как функцию ковариат. Наш подход, основанный на правдоподобии, позволяет нам либо моделировать все условные моменты параметрического распределения, либо аппроксимировать условную кумулятивную функцию распределения с помощью нормализующих потоков. В качестве базовой вычислительной основы наша структура основана на XGBoost и LightGBM. Моделирование и прогнозирование всего условного распределения значительно расширяют существующие реализации древовидного повышения градиента, поскольку позволяют создавать вероятностные прогнозы, из которых можно получить интересующие интервалы прогнозирования и квантили. Эмпирические результаты показывают, что наша система обеспечивает высочайшую точность прогнозов.
2. Машины повышения градиента и тщательная предварительная обработка работают лучше всего: извлеченные уроки ASHRAE Great Energy Predictor III (arXiv)
Автор: Клейтон Миллер, Лю Хао, Чун Фу
Аннотация : : Соревнования ASHRAE Great Energy Predictor III (GEPIII) были проведены в конце 2019 года как одно из крупнейших когда-либо проводившихся соревнований по машинному обучению, ориентированных на повышение производительности. Он проводился на платформе Kaggle, и в результате было подано 39 402 прогноза, причем пять лучших команд разделили между собой 25 000 долларов призовых. В этом документе излагаются уроки, извлеченные из участников, в основном из команд, вошедших в 5% лучших в соревновании. Различные идеи были получены на основе их опыта посредством онлайн-опроса, анализа общедоступных материалов и блокнотов, а также документации команд-победителей. В наиболее эффективных решениях в основном использовались ансамбли древовидных моделей Gradient Boosting Machine (GBM), причем наиболее популярным был пакет LightGBM. Участники опроса отметили, что этапы предварительной обработки и извлечения признаков являются наиболее важными аспектами создания наилучшего подхода к моделированию. Все респонденты опроса использовали Python в качестве основного инструмента моделирования, а в качестве среды разработки обычно использовались блокноты в стиле Jupyter. Эти выводы необходимы для управления исследованиями и практической реализацией прогнозов по счетчикам энергии в зданиях в будущем.