1. BCD: эксперимент с базой данных для сравнения двоичных файлов между различными архитектурами с использованием алгоритмов хэширования с учетом местоположения (arXiv)

Автор: Хаокси Тан

Аннотация: Имея двоичный исполняемый файл без исходного кода, трудно определить, что делает каждая функция в двоичном файле путем обратного проектирования, и еще сложнее без предварительного опыта и контекста. В этой статье мы выполнили сравнение эффективности различных функций хеширования при обнаружении похожих расширенных фрагментов кода LLVM IR, а также представили разработку и реализацию платформы для кросс-архитектурной базы данных поиска подобия двоичного кода с использованием MinHash в качестве выбранного алгоритма хеширования. через SimHash, SSDEEP и TLSH. Мотивация состоит в том, чтобы помочь реинжинирингу быстро получить контекст функций в неизвестном двоичном файле, сравнив его с базой данных известных функций. Код для этого проекта с открытым исходным кодом, его можно найти по адресу https://github.com/h4sh5/bcddb.

2. Факторизация агрегированной нелинейной матрицы соседства с учетом местоположения для онлайн-анализа разреженных больших данных (arXiv)

Автор: Zixuan Li, Hao Li, Kenli Li, Fan Wu, Lydia Chen, Keqin Li.

Аннотация: матричная факторизация (MF) может извлекать признаки низкого ранга и интегрировать информацию о распределении многообразия данных из многомерных данных, которые могут учитывать информацию о нелинейной окрестности. Таким образом, MF привлекла широкое внимание к низкоранговому анализу разреженных больших данных, например, рекомендательных систем совместной фильтрации (CF), социальных сетей и качества обслуживания. Однако существуют следующие две проблемы: 1) огромные вычислительные затраты на построение матрицы сходства графов (GSM) и 2) огромные накладные расходы памяти для промежуточной GSM. Следовательно, MF на основе GSM, например, MF ядра, регуляризованный графом MF и т. д., не могут быть непосредственно применены к низкоранговому анализу разреженных больших данных на облачных и пограничных платформах. Чтобы решить эту трудноразрешимую проблему для анализа разреженных больших данных, мы предлагаем агрегированное MF с учетом местоположения (LSH) (LSH-MF), которое может решить следующие проблемы: 1) Предлагаемая вероятностная проекционная стратегия LSH-MF позволяет избежать построения GSM. Кроме того, LSH-MF может удовлетворить требования точной проекции разреженных больших данных. 2) Для запуска LSH-MF для тонкого распараллеливания и онлайн-обучения на графических процессорах мы также предлагаем CULSH-MF, который работает с распараллеливанием CUDA. Экспериментальные результаты показывают, что CULSH-MF может не только сократить время вычислений и объем памяти, но и получить более высокую точность. По сравнению с моделями глубокого обучения, CULSH-MF может не только сэкономить время обучения, но и добиться такой же точности.