Начало работы со случайными лесами



  1. Ковариационная регрессия со случайными лесами (arXiv)

Автор:Cansu Alakus, Denis Larocque, Aurelie Labbe

Аннотация: Получение условных ковариаций или корреляций между элементами многомерного вектора ответа на основе ковариат важно для различных областей, включая неврологию, эпидемиологию и биомедицину. Мы предлагаем новый метод под названием «Ковариационная регрессия со случайными лесами» (CovRegRF) для оценки ковариационной матрицы многомерного отклика с учетом набора ковариат с использованием структуры случайного леса. Деревья случайного леса строятся с использованием правила разделения, специально разработанного для максимизации разницы между оценками выборочной ковариационной матрицы дочерних узлов. Мы также предлагаем тест значимости для частичного эффекта подмножества ковариат. Мы оцениваем эффективность предлагаемого метода и теста значимости с помощью моделирования, которое показывает, что предлагаемый метод обеспечивает точные оценки ковариационной матрицы и что ошибка типа 1 хорошо контролируется. Мы также демонстрируем применение предложенного метода с набором данных о заболеваниях щитовидной железы.

2. FLInt: использование целочисленной арифметики с плавающей запятой для эффективного случайного анализа леса(arXiv)

Автор: Кристиан Хакерт, Куан-Хсун Чен, Цзянь-Цзя Чен

Аннотация . Во многих приложениях машинного обучения, например в древовидных ансамблях, числа с плавающей запятой широко используются из-за их выразительности. В настоящее время становится доступным выполнение анализа данных на встроенных устройствах из массивов динамических данных, но в таких системах часто отсутствуют аппаратные возможности для обработки чисел с плавающей запятой, что приводит к большим накладным расходам на их обработку. Даже если такое оборудование присутствует в обычных вычислительных системах, использование операций с целыми числами вместо операций с плавающей запятой обещает сократить накладные расходы и повысить производительность. В этой статье мы предоставляем \mdname, сравнение с плавающей запятой полной точности для случайных лесов, используя только целочисленные и логические операции. Чтобы гарантировать сохранение той же функциональности, мы формально доказываем правильность этого сравнения. Поскольку случайные леса требуют только сравнения чисел с плавающей запятой во время вывода, мы реализуем \mdname~в низкоуровневых реализациях и, следовательно, полностью устраняем необходимость в оборудовании с плавающей запятой, сохраняя точность модели неизменной. Использование \mdname~ в основном сводится к замене условий одно за другим: например, оператор сравнения в C: if(pX[3]‹=(float)10.074347) становится if((*((( int*)(pX))+3))‹=((int)(0x41213087))). Экспериментальная оценка на настольных и серверных системах X86 и ARMv8 показывает, что время выполнения может быть сокращено до ≈30% с помощью нашего нового подхода.

3.MetaRF: дифференцируемый случайный лес для предсказания выхода реакции с несколькими следами(arXiv)

Автор: Кексин Чен, Гуанъюн Чен, Цзюнью Ли, Юаньшэн Хуан, Пхэн-Энн Хэн

Аннотация. Искусственный интеллект произвел глубокую революцию в области медицинской химии с множеством впечатляющих приложений, но для успеха этих приложений требуется огромное количество обучающих выборок с высококачественными аннотациями, что серьезно ограничивает широкое использование методы, управляемые данными. В этой статье мы сосредоточимся на проблеме прогнозирования выхода реакции, которая помогает химикам выбирать реакции с высоким выходом в новом химическом пространстве только после нескольких экспериментальных испытаний. Чтобы решить эту проблему, мы сначала представили MetaRF, основанную на внимании модель дифференцируемого случайного леса, специально разработанную для предсказания урожайности за несколько выстрелов, где вес случайного леса автоматически оптимизируется структурой метаобучения и может быть быстро изменен. адаптирован для прогнозирования эффективности новых реагентов при наличии нескольких дополнительных образцов. Чтобы улучшить эффективность обучения за несколько шагов, мы дополнительно вводим метод выборки на основе уменьшения размерности, чтобы определить ценные образцы для экспериментальной проверки, а затем для изучения. Наша методология оценивается по трем различным наборам данных и демонстрирует удовлетворительные результаты при прогнозировании с несколькими выстрелами. В наборах данных высокопроизводительных экспериментов (HTE) средний выход 10 лучших высокопродуктивных реакций нашей методологии относительно близок к результатам выбора идеального выхода.