Дерево ключевых слов: графовый анализ семантических аттракторов

Домен приложения. По данным ВОЗ, депрессивное расстройство является ведущей причиной инвалидности во всем мире. Установлено, что порождающий механизм заключается в размышлениях: длительной стрессовой привязанности к проблеме и лежащей в основе Сверхценности опасности. Усилия по прогностическому распознаванию образов предпринимаются в нескольких областях, среди которых Машинное обучение.

Предыдущие исследования. Согласно Аль-Мосайви, отдельные слова-абсолютизмы могут использоваться в качестве предикторов когнитивных ошибок после размышлений. Однако признано, что анализа частоты отдельных слов недостаточно. Причина проста: случайное смешивание набора слов не влияет на относительную частоту, но удаляет информацию — эффект мешка слов. Это означает, что смысловой источник руминации, ценность, выходит за рамки. Кроме того, согласно Канеману и Тверски, любой человек может неосознанно включать индивидуальные иррациональные схемы для принятия более быстрых решений: увеличивать скорость, жертвуя рациональностью. Однако они признали, что этот эффект может быть сглажен в группе за счет декорреляции индивидуальных смещений. Исследователи из Массачусетского технологического института разработали и обучили нейронную сеть, которая предсказывает уровень депрессии в клинических интервью с точностью 71% и полнотой 83%. Однако они признают, что их модель обнаруживает и когнитивные нарушения, игнорируя структуру познания.

Предположения. Согласно Теории реляционных фреймов (RFT), разработанной психологом Стивеном С. Хейсом, двунаправленные связи сущностей являются элементами когнитивного построения. Эта психологическая теория человеческого языка утверждает, что реальность достигается в виде многомерного графа в процессе ассоциативного обучения. Язык — это ментальная проекция в пространство сущностей, а биграммы сущностей выражают ментальные схемы. Исследования подтвердили, что
ассоциативные схемы специфичны и устойчивы для каждого человека. Патологические состояния, такие как депрессия, соответствуют деструктивным ассоциативным схемам: специфическим графическим кластерам, которые запускают циклы размышлений. Мы предполагаем, что эти кластеры могут обладать высокой промежуточной центральностью (ПЦ), свойством кластеризации. Сущности со сверхвысоким БК можно рассматривать как информационные узлы, речевые аттракторы, в высокой степени влияющие на семантику. Большое количество руминативных кластеров может повысить интегральную промежуточную центральность графа. Распознавание руминативных кластеров, их центров и неотъемлемых ценностей является одной из целей этого исследования. Декорреляция предубеждений, отмеченная Канеманом и Тверски, предполагает, что различия в ВС могут быть связаны с интенсивностью общения и групповыми ценностями. Эти гипотезы были проверены с помощью модели, основанной на экземплярах.

Подготовка данных. По данным ВОЗ, Россия занимает третье место в стандартизированном по возрасту списке показателей самоубийств. Мы изучили самую популярную русскоязычную Стену Помощи: более 150 000 посещений в день. Трафик распределяется между Россией, Германией и Великобританией. Топ-3 поисковых запросов: #депрессия, #смысл жизни и #самоубийство. Отвечают психотерапевты, волонтеры благотворительных организаций и простые люди.

Проанализированы коллекции ответов/запросов: 25 000 записей в 2018 году. Очистка текста включает стандартизацию возраста, пола, длины текста и абстрактный анализ (первые 100 слов). Анализ метрик и очистка текста были реализованы с использованием экосистемы Python, включая библиотеки NetworkX и NLTK. Стандартизация пола была достигнута с использованием имени — определение пола. Морфологическая очистка и токенизация позволили получить существительные в стандартной форме. Стемминг также применялся для уменьшения размерности. Был составлен словарь биграмм с соответствующими частотами. Наборы биграмм упорядочены по частоте и нормализованы к равному объему по критерию отсечки. Каждая группа Запрос/Ответ характеризуется уникальной матрицей биграмм. Показано увеличение информации как обратное энтропии Шеннона после перехода от одиночных слов к биграммам: 30% приращения. Дальнейшее увеличение длины n-грамм не дало существенного прироста: I(3)-I(2)=6% для 3-грамм, [H(4)-H(3)]=2% и менее 1% для 3-грамм. N›4. Кажется, что подходят двунаправленные ассоциации, предложенные RFT в качестве блоков семантики.

Сжатие данных. Конверсия реализована по алгоритму принудительной компоновки Open Ord — программа Gephi интегрирована с ядром Python. Матрица биграмм использовалась как генератор взвешенного неориентированного графа для интерпретации больших данных психологами с первого взгляда. Open Ord выполняет преобразование из 2D-матрицы в граф топологии дерева. Вес каждого узла в матрице соответствует частоте одного слова, а длина ребра является обратной функцией частоты биграммы. Узлы ранжируются по между центральности и отмечаются на преобразованном графике. Ближайшие соседи основаны на анализе частоты совпадений. Узел с высоким BC и его соседи образуют кластер.

Результаты. Отклонение BC по графику D=|BC(max)-BC(mean)| рассматривалась как интегральная метрика кластеризации. В обеих группах было использовано 43% упорядоченных биграмм. Каждый график основан на 10 000 наиболее часто встречающихся биграмм. Сравнение графиков Запрос/Ответ показало существенную разницу в централизации: D(Запрос)/D(Ответ)=1,7. Относительно высокая BC-кластеризация в тестовой группе подтверждается коэффициентом закона Zip: 47 в Request Group против 25 в Responce Group, в 1,9 раза выше. Закон Зипа применялся к неупорядоченным биграммам. Интеграл под кривой Зипа в 1,5 раза выше в тестовой группе. Кажется, что руминативные кластеры и биграммы в образце запроса дают значительный вклад, как и ожидалось.

Стандартное отклонение длины предложения выше в 1,7 раза, что свидетельствует о большей эмоциональной нестабильности тестовых сообщений. Топ-5 сущностей, составленных BC: #Год, #Жизнь, #Мужчина, #Работа, #Семья/Дети. Теги в цифрах переведены на английский язык. Тег #Year подтверждает длительное стрессовое состояние, но не интерпретируется как Ценность. #Человек, #Работа, #Семья/Потомство рассматриваются в связи с Коренной Ценностью: #Жизнь. Применяется техника ближайших соседей: извлечение ключевых слов по заданной тематике.

Значение #Man почти слилось с корневым аттрактором #Life в группе запросов. Отмечается вероятная субъективная/объективная изоляция и высокая потребность в качественных социальных контактах. По мнению Канемана и Тверски, фактор изоляции усиливает когнитивные ошибки и снижает гибкость в общении. Вредные последствия изоляции уже наблюдают психотерапевты. Однако неясно, играет ли он ключевую роль в суицидальных наклонностях. Метод иррациональной лексики сравнивался с методом графа. На основе исследования Mosaiwi были сформированы два списка однословных абсолютизмов и следует. Однако оказалось, что частота иррациональности всего в 1,1 раза выше в группе запроса, чем в группе ответа. Доля сообщений, содержащих хотя бы одно слово из иррациональной лексики, составляет 84% против 78%. Похоже, что показатели D(Запрос)/D(Ответ) и Zip более чувствительны и ближе к триггеру: размышлениям.

Выводы и интерпретация. Двунаправленные языковые ассоциации, биграммы, являются оптимальными блоками семантики и подтверждают предположения RFT. Они обеспечивают 30% прироста информации по сравнению с анализом отдельных слов. Руминативные аттракторы обеспечивают достаточное увеличение метрики централизации: межцентральность. Он более чувствителен, чем частота иррациональности, несмотря на предвзятость темы в группе респондентов. Анализ экземпляров текста / речи и нормализованного BC может дать представление о суицидальных рисках без применения более сложных методов, таких как нейронные сети (NN). Анализ значений может быть подтвержден быстрой визуальной интерпретацией по сравнению с правилами «черного ящика» нейронных сетей. Руминативные кластеры могут быть обнаружены непосредственно: они формируются на основе Групповых Ценностей (#Человек) больше, чем Индивидуальных Ценностей (#Работа). Значение коммуникации может быть недооценено в стандартных протоколах лечения депрессии. Его терапевтический эффект можно объяснить сглаживанием смещения. Следует отметить, что межцентральность также является мерой «диверсификации». Это означает, что чрезмерное внимание может быть столь же рискованным для психики, как и инвестиционный портфель «одного капитала» для вашего пенсионного плана.

Масштабирование приложения. Данный алгоритм может использоваться для анализа основных сущностей в рамках относительного ранжирования. Это обеспечивало стабильность масштабирования в условиях зашумленного эталонного текста. Инструмент может иметь приложения для оценки HR и извлечения ключевых слов речи: проблемы с искусственным интеллектом. Авторы проводят соответствующие исследования и ищут возможности для сотрудничества. Полная версия исследования ожидает публикации в рецензируемом журнале. Однако вы можете запросить драфт по личному просьбе.

Я хотел бы поблагодарить доктора Анну Бутковскую за психологическую интерпретацию результатов и соавторство в полной версии статьи.