1. Интеллектуальный анализ текста с использованием неотрицательной матричной факторизации и скрытого семантического анализа (arXiv)

Автор : : Али Хассани, Амир Иранманеш, Наджме Мансури.

Аннотация: Кластеризация текста, возможно, является одной из самых важных тем в современном анализе данных. Тем не менее, текстовые данные требуют токенизации, которая обычно дает очень большую и очень разреженную матрицу терминов-документов, которую обычно трудно обрабатывать с помощью обычных алгоритмов машинного обучения. Такие методы, как латентный семантический анализ, помогли смягчить эту проблему, но, тем не менее, на практике они не совсем стабильны. В результате мы предлагаем новый метод агломерации признаков, основанный на неотрицательной матричной факторизации, который используется для разделения терминов на группы, а затем векторы терминов каждой группы объединяются в новый вектор признаков. Вместе эти векторы признаков создают новое пространство признаков, гораздо более подходящее для кластеризации. Кроме того, мы предлагаем новую детерминированную инициализацию для сферических K-средних, которая оказывается очень полезной для этого конкретного типа данных. Чтобы оценить предлагаемый метод, мы сравниваем его с некоторыми из последних исследований, проведенных в этой области, а также с некоторыми из наиболее распространенных методов. В наших экспериментах мы пришли к выводу, что предложенный метод либо значительно повышает производительность кластеризации, либо поддерживает производительность других методов, при этом повышая стабильность результатов.

2. Квантовый латентный семантический анализ (arXiv)

Автор: Фабио А. Гонсалес, Хуан К. Кайседо.

Аннотация: Основная цель этой статьи — исследовать латентный тематический анализ (LTA) в контексте квантового поиска информации. LTA — ценный метод анализа и представления документов, который широко используется в поиске информации и машинном обучении. Были предложены различные методы LTA, некоторые из которых основаны на геометрическом моделировании (например, латентный семантический анализ, LSA), а другие основаны на прочной статистической основе. Однако эти два разных подхода обычно не смешивают. Квантовый поиск информации обладает замечательным достоинством сочетания геометрии и вероятности в общей принципиальной структуре. Мы построили эту квантовую структуру, чтобы предложить новый метод LTA, который имеет четкую геометрическую мотивацию, но также поддерживает хорошо обоснованную вероятностную интерпретацию. Первоначальное исследовательское экспериментирование было выполнено на трех стандартных наборах данных. Результаты показывают, что предлагаемый метод превосходит LSA на двух из трех наборов данных. Эти результаты позволяют предположить, что квантово-мотивированное представление является альтернативой геометрическому моделированию скрытой темы, заслуживающей дальнейшего изучения.