Тематическое моделирование для понимания информационных тем и ролей пользователей в сообществах Twitter

Важное примечание: Загрузите этот файл записной книжки и откройте его в своем браузере.

Это поможет вам следить за своими действиями, поскольку многие диаграммы ИНТЕРАКТИВНЫ. (Это означает, что вы можете поиграть с ними, увеличивать, уменьшать панораму, сохранять, более четко видеть надписи и т. Д.)

На первом этапе этого проекта я начал с мотивации лучше понять мир твиттера пользователя. Имея дело со сложностью социальной сети, на начальном этапе от нас требовалось объединить влияния пользователя - друзей твиттера - в сообщества на основе анализа потока информации. Мы попытались объединить группы пользователей в кластеры. где информация сохранялась - указывая на циркуляцию идей, мыслей и т. д. вокруг некоторой фокусной точки, за которой последовал эго-пользователь (то есть я в данном случае). Этот подход подчеркивал свойство социальных сетей обмениваться информацией, рассматривая каждого пользователя как узел, который переносит и генерирует информацию другим узлам. К концу упражнения мы выполнили относительное пространственное отображение, которое помогло визуализировать для нас информационную сеть, скрытую в нашем Twitter-мире [Рисунок 0.0]. Так сказать, мы проследили где - подошли к реализации секретных встреч (скрытых за огромным объемом потока), которые пользователи, за которыми мы следим, проводят у всех на виду. Такое открытие разведывательной сети неизбежно приводит к следующему любопытству: что именно течет? Другими словами, какая информация течет и сохраняется в этих сообществах?

Информационные системы и наука о данных часто идут рука об руку в области Аналитики социальных сетей. Их объединение позволяет объединить область Обработки естественного языка (НЛП) , а язык обработки обычно требует некоторой формы количественной оценки, чтобы мы могли смоделировать информацию, прежде чем пытаться ее математически. В этом проекте я рассмотрю некоторые стандартные методы НЛП для количественной оценки и "наблюдения" текстовой информации (твитов). После этого будет проведен некоторый анализ и построение различных взаимосвязей, которые мы можем использовать, чтобы сделать некоторые описательные выводы о профиле сообщества.

Перед этим постом ставятся двоякие цели:

  1. Познакомить всех людей (как технических, так и нетехнических) с некоторыми основами работы с текстовой информацией социальных сетей в качестве данных - возможно, помочь им понять, как их данные могут (или используются) и классифицируются. Может быть, даже внесем некоторые соображения по поводу конфиденциальности…
  2. Чтобы изучить качество результатов, которые мы можем получить от обработки естественного языка, особенно в контексте информационных сообществ Twitter.
  3. Для достижения ориентированного на данные представления о том, что это сообщество в целом, а также отдельные пользователи предоставляют пользователю root (в данном случае мне)

Что мы обсудим

1. Количественная оценка информации (частота сроков и именованные объекты)

2. Обнаружение тем в твитах

3. Создание профилей пользователей (на основе содержания их твитов и роли в общем информационном потоке).

Объем и данные

Я сфокусируюсь на этом посте на анализе собственности внутри сообщества, не вдаваясь в подробности, полученные в результате анализа внутри сообщества. Это означает, что мы будем рассматривать только одно сообщество за раз. Чтобы показать весь поток, я буду использовать свою общину № 6 с первого этапа, сообщество, состоящее из молодых мусульман, разбросанных по разным сферам и интересам [Рисунок 1.0]. Напомним, что это «субъективный» анализ - группа пользователей, составляющих это сообщество, - это только подмножество пользователей, за которыми я следую из более широкого сообщества. В этом смысле это сообщество является образцом более крупного сообщества, а это означает, что идеи могут быть хорошо переведены, но не обязательно будут полностью точными.

Side Note: I have actually begun to follow more people that I would say are from the 'Muslim Community' since I collected this data... but they will (unfortunately ?) not be included in this analysis as this is building off my algorithmically-found ego-community.

Более того, поскольку мы снова озабочены информационным «потоком», мы будем рассматривать только твиты, которые «текли» в сообществе, которые я приблизительно назвал твитами, которые ретвитировались в сообществе более одного раза. Эти твиты делятся на 2 группы:

В потоке сообщества - твиты, созданные (изначально твитированные) кем-то из сообщества, а затем распространенные (ретвитированные) кем-то из сообщества.

Вне сообщества - твиты, созданные пользователем, не входящим в сообщество, а затем распространенные кем-то в сообществе.

Рисунок 1.1 показывает распределение коэффициента потока еженедельно, показывая, что каждую неделю твиты, распространяемые внутри сообщества, состоят в 10–25 раз больше твитов, созданных за пределами этого сообщества, по сравнению с твитами, созданными внутри сообщества. сообщество. Это можно рассматривать как социальную собственность сообщества.

Flow Ratio: #ofRTsGeneratedOutside/#ofRTsGeneratedWithin

На Рис. 1.2 ниже показан поток информации за несколько недель, который будет рассматриваться в ходе этого анализа. Имейте в виду, что максимальное количество твитов, которые могут быть извлечены из твиттера для любого данного пользователя, составляет ~ 3200. Следовательно, если пользователь написал (включая цитируемый и ретвит) более 3200 твитов за год, у нас не будет всех их твитов за 2018 год, поэтому распределение будет немного искажено, но, тем не менее, разница между внешним и внутренним потоком очевидна.

Эта категоризация потока приводит к дальнейшей категоризации пользователей, выполняющих одновременно 3 роли в сообществе:

Генератор - как кто-то, кто публикует в Твиттере информацию, передаваемую внутри сообщества. (создает информацию)

Внутренний распространитель - как лицо, которое распространяет (ретвитирует / цитирует) информацию, созданную одним из членов сообщества, другим пользователям в сообществе. (распространяет информацию внутри сообщества)

Внешний распространитель - как лицо, распространяющее информацию, созданную кем-либо, не членом сообщества, среди пользователей внутри сообщества. (приносит в сообщество внешнюю информацию)

Конечно, пользователь может выполнять несколько ролей в разном количестве, и мы проанализируем это позже.

Наконец, твиты также классифицируются, но в более сложной манере. Каждый твит был предварительно обработан для удаления упоминаний пользователей, хэштегов, URL-адресов, медиаданных и т. Д., Пока у нас не был их исходный текст, и мы могли использовать известные библиотеки обработки текста (в данном случае spacy) для токенизации и пометки твитов. . Рисунок 1.3 представляет собой образец данных, которые мы можем получить в результате такой предварительной обработки текста.

Tweet = "Happiness is a category of slaves"

Извлечение информации

Слова не просто слова ... а числа

Слова никогда не бывают «только словами», они имеют значение, потому что определяют контуры того, что мы можем сделать. - Славой Жижек

Чтобы начать наше расследование, важно вернуться к основам, к тем самым единицам, которые несут информацию: словам. Обращаясь к упомянутой цитате Жижека, обнаружение `` слов '' означает определение `` контуров '': поверхностной границы формы, которая ограничивает сообщество как есть (я признаюсь, что полностью присвоил его утверждение для собственной выгоды, ради чего я можно только поверить, что он гордился бы). Это может показаться очень очевидным в одной области (слова несут информацию ... да), но становится более значимым в области информационных систем, поскольку помогает ответить на критический вопрос: как количественно определить «информацию»? Ответ почти детский: «подсчитывая» слова.

Важное примечание: имейте в виду, что весь наш анализ и идеи зависят от времени и показывают только поведение сообщества в те временные рамки, для которых у нас есть история их твитов (грубо говоря, 2018 год).

Давайте посмотрим на частоты и наметим некоторые из наиболее важных терминов [Рисунок 2.1]. Давайте также специально рассмотрим «Named Entities» (NE) [Рисунок 2.2]. Как смотреть на эти графики:

  • Частота употребления терминов в «внутри потока» красным
  • Частота употребления терминов в «Outside-Flow» синего цвета
  • Ось X - частота (т.е. 0,1 = 10%)
  • Нумерованные ярлыки - это рейтинг термина в соответствующем потоке (т. е. 1 = наиболее часто встречающийся термин в конкретном потоке).
  • Диаграммы упорядочены по "разнице в рейтингах", что подразумевает:
  1. Слова в верхней части - это наиболее часто встречающиеся термины во внешнем потоке и не столь значимые во внутреннем потоке
  2. Слова в середине имеют одинаковое значение в обоих потоках
  3. Слова в нижнем углу чаще встречаются во внутреннем потоке, чем во внешнем

Значение чисел

Как нам сделать выводы из приведенных выше цифр? Я укажу на некоторые из них, а остальные оставлю вам на заметку.

Примеры показаний:

  • [мусульманин, ислам, мусульмане, ислам] - часто встречающиеся НЭ в обоих потоках, а также одни из самых часто встречающихся слов в целом - могут указывать на основную тему обсуждения или идентичность этого сообщества.
  • [Либерализм, идеология, феминизм, капитализм, природа…] - вот некоторые из основных терминов, которые можно найти в нижней части рис. 2.1. они более значимы в WithinFlow, чем в OutsideFlow, подразумевая, что сообщество склонно генерировать информацию внутри себя на основе этих терминов, а не импортировать информацию извне.
  • [Козырь, Студент, Школа, Атака…] - это некоторые из терминов, которые встречаются в верхней части рис. 2.1 и 2.2 - информации это сообщество распространяется вокруг этих терминов, скорее создается извне (скорее всего, связано с обменом новостями)
  • [Шариат, Одиннадцатые утверждения, Священный Коран, Достоевский…] - это некоторые термины, которые находятся в нижней части Рис. 2.2 - важная информация вокруг этих сущностей зародился внутри сообщества и распространился. Интересно, что Достоевский может показаться странным в этом списке, но его отслеживание подчеркнет создание и распространение определенной статьи в WithinFlow сообщества:
"On the heels of the horrific Pittsburgh synagogue massacre guest contributor examines Dostoevsky's predictions about ideological radicalization and asks what shapes the psychology of the modern terrorist" - @TraversingTrad
https://traversingtradition.com/2018/10/29/dostoevskys-strange-ideas-and-the-modern-terrorist/

Другой способ взглянуть на эти данные (если точек мало и метки прозрачны) - это диаграмма рассеяния, где по оси отложены относительные частоты (в логарифмическом масштабе) для разных потоков [рисунок 2.3] . График ниже предназначен для Именованных сущностей и отражает некоторые результаты анализа, который мы сделали выше (например, обратите внимание на термины [мусульмане, мусульмане, ислам, ислам] в правом верхнем углу диаграмму, показывающую значимость как для OutsideFlow, так и для WithinFlow)

В том же духе, что и выше, мы можем продолжить извлечение дополнительных сравнительных свойств, которые помогают определить сообщество. Тем не менее, хотя это упражнение может оказаться полезным, наш дух в конечном итоге ослабнет, когда мы осознаем утомительность этой задачи. Мы также начнем распознавать некоторые неточности и задавать вопросы вроде «Подождите, действительно ли этот термин значим или он просто появляется, потому что он связан с этим другим термином, а другой термин действительно является значимым?». Это ведет нас глубже - нам не просто нужна связка слов, мы действительно хотим понять суть того, что представляют собой все эти слова. Если слова определяли контур этого сообщества, мы хотим теперь перейти к «скрытым источникам» контура - что «заставляет» появляться эти термины? Это мотивация, лежащая в основе техник НЛП по тематическому моделированию.

Тематическое моделирование и анализ

Профиль темы-срока

Проще говоря, тематическое моделирование берет набор «документов» (в нашем случае твиты), которые состоят из различных «терминов» (слов в твитах), и находит N (количество тем) уникальных стратегий взвешивания, которые можно применить к таким терминам. что каждый «документ» разделен на смесь из N тем. Вы можете найти множество руководств и подробностей об этом, поэтому я не буду вдаваться в подробности. В частности, я векторизовал (в основном количественно) твиты с помощью TF-IDF, а затем использовал LDA для поиска «Тем». На рис. 3.1 показаны наши последние темы в WithinFlow. Такой подход не дает нам четкого представления о «точке зрения» сообщества на эту тему, а только о том, что это за тема - мы знаем, «о чем» они говорят, не обязательно их мнение по этому поводу. (Хотя более сложный анализ, безусловно, позволяет оценить и мнение - мы увидим небольшой пример этого позже, когда будем обсуждать полярность и субъективность.)

There are many other terms that have a weight associated to them from one or more of the topics but I have only included some of the more significant ones for readers to get an idea of what the topic 'means'.

Размеры пузырька на рис. 3.1 указывают на «вес» термина (по оси Y) по отношению к теме (т. Е. В теме 1 в WithinFlow указано «Article. 'как наиболее значимый термин). Если мы возьмем 7 наиболее значимых терминов в каждой теме, мы получим своего рода сводку терминов для каждой темы [Рисунок 3.2]. Затем мы можем взять ту же модель темы и применить ее к OutsideFlow, чтобы увидеть, как соотносятся веса тем в информационном потоке, исходящем из-за пределов сообщества. Рисунок 3.3 визуализировал сравнение весов тем по двум потокам.

Roughly speaking, I can vaguely see some specific topics popping out: 
Philosophy (#6), 
Feminism / Women Studies (#4), 
Ramadan (#5), 
Statehood / Muslim-Related Politics (#3), 
Prophetic Sayings (Hadith) + Religious anecdotes (#2), 
Article Sharing (#1)
The others still make sense but seem to be a mix of things.

Хотя мы сгруппировали термины по темам, нам нужно подняться на один уровень выше и посмотреть, как эти темы моделируют целые твиты.

Тема-твит Профиль

Каждому твиту назначается вес для каждой темы, составляющей topicVector. Затем мы можем пространственно отобразить твиты после некоторого сокращения функций в topicVector, чтобы перенести их в двумерное пространство. Мы можем видеть кластеры, которые формируются, а также твиты, которые не так сильно связаны с какой-либо конкретной темой, но находятся где-то между ними в относительном пространстве. Рисунок 3.4 визуализирует твиты и кластеры для WithinFlow (если вы загрузите файл записной книжки, вы можете навести указатель мыши (и увеличить) каждую точку и изучить, какому твиту соответствует каждая точка - наведение в разных кластерах покажет вам, какие виды твитов способствуют развитию наших тем!)

Note that the size of the circles (each circle = a tweet) represent the tweet's  weight for their respective topic — the larger circles are on the outskirts, meaning those tweets are more closely related to their respective topics. It's as if the ‘latent’ topic sources surround the overall information flow.

Мы можем видеть изолированные кластеры как твиты, которые тесно связаны с соответствующими темами, но другие, которые распределены по другим темам (т. Е. Твит может составлять 10% темы 1, 40% темы 2, 50% темы 3 и т. Д.). Твиты в середине «кольца» представляют собой смесь нескольких тем с меньшим весом и поэтому не изолированы в кластер. Эти твиты можно интерпретировать как не относящиеся к какой-либо теме или как их трудно классифицировать - тем не менее, они являются выбросами.

Мы также можем применить наши тематические модели к OutsideFlow, показанному на рис. 3.5. Мы видим больше смешанных и менее определенных границ в кластерах твитов OutsideFlow - это ожидается, поскольку обычно информация, поступающая извне, не будет так четко определена, как внутреннее распространение. И снова вам предлагается открыть файл записной книжки и навести указатель мыши на различные кластеры, чтобы понять, что представляют собой кластеры и какие твиты вызывают смешивание кластеров.

Прибыльность темы

Используя веса тем, мы можем отнести каждый твит к определенной теме, выбрав ту тему, которая имеет наибольший вес для твита. Затем мы можем визуализировать распределение количества ретвитов (сколько раз твит был ретвитирован) для каждой темы в каждом потоке отдельно - таким образом мы можем измерить свойство «прибыльности» наших тем. Каждая диаграмма на рис. 3.6 показывает распределение количества ретвитов для каждого типа информационного потока (синий = WithinFlow, оранжевый = OutsideFlow). Эти распределения дают нам вероятностное представление о том, сколько ретвитов получает твит по этой теме.

Note that the x-axis is log10 scaled (i.e. 2 = 100 retweets, 3 = 1000 retweets, etc.). This means even slight differences between the distributions in the charts can indicate large profit (#ofRetweets) increases/declines.

Образец чтения:

  • Твиты в теме №3 (Государственность), которые находятся в WithinFlow, скорее всего, получат ~ 10–100 ретвитов.
  • Твиты в теме № 2 (хадисы, пророческие изречения) получают одинаковое количество ретвитов (~ 10–100) независимо от того, созданы ли они внутри сообщества или принесены извне.
  • Твиты в теме №1 (публикация статей) получают в среднем больше ретвитов в WithinFlow, чем OutsideFlow, но только твиты OutsideFlow получают более ~ 100 ретвитов.

Полярность и субъективность темы

Еще один интересный показатель, который можно изучить, - это полярность (насколько «эмоции» выражены в тексте в диапазоне от -1,0 до 1,0 - насколько он «поляризован») и его субъективность (насколько «личное» выражение находится в диапазоне от 0 до 1). Я использовал довольно слабый метод расчета этих показателей (просто агрегирование полярности и субъективности каждого слова в твите, которое можно получить из предопределенных библиотек и сопоставлений), но, тем не менее, мы можем создать несколько крутых, инопланетных графиков! Это совместные графики плотности, которые в основном моделируют двумерное (2 переменные) распределения - они хорошо наглядно показывают нам, где находится большинство твитов по шкале полярности-субъективности. Цвет указывает на «плотность», поэтому, например, диаграмма maxTopic = 3 для WithinFlow (красный) показывает темно-красный круг с центром (полярность = ~ 0,1, субъективность = ~ 0,25), что указывает на то, что большинство твитов в теме 3 имеют такие значения полярности / субъективности.

Примеры показаний:

  • Твиты в теме № 4 (Женщина-Мусульманин-Мужчина-Аборт-Хиджаб-Феминистка-Хочу) более субъективны в WithinFlow (генерируются внутри сообщество), чем твиты, поступившие в поток извне.
  • Твиты в теме №3 (Государственность) более разбросаны по шкале полярности / субъективности в WithinFlow по сравнению с твитами в OutsideFlow, которые более плотно упакованы.

Это общие тенденции, и я еще раз напомню читателям, что наш анализ является как субъективным (на основе моих личных наблюдений), так и временным (поток информации в 2018 году).

Перейдем к пользователям, потому что все знают ... настоящие сплетни не об идеях ... их о людях! Поскольку мы знаем, какой твит от какого пользователя в сообществе, мы можем снова подняться на уровень выше и исследовать его на уровне пользователя.

Тема - Профиль пользователя

К вашему сведению: все эти профили пользователей были общедоступными (в то время, когда я собирал эти данные, так что с юридической точки зрения я крутой). Если у пользователя более 1000 подписчиков (в значительной степени произвольное число, которое я «интуитивно» решил…), я как бы предположил, что они открыто общедоступны и должны быть в порядке с профилированием своего твита. Для

Если вы хотите, чтобы ваше имя было удалено по какой-либо причине, дайте мне знать!

Прежде чем смешивать профили пользователей с нашими сгенерированными темами, давайте начнем с профилирования каждого пользователя по отдельности ... существуют алгоритмы, которые могут помочь нам найти наиболее разборчивые термины в подмножестве документов (т. Е. Твиты конкретного пользователя) по сравнению со всем набором документы (все твиты в информационном потоке). Рисунок 3.8 показывает наиболее отличительные термины в твитах, созданных пользователем (genDiscTerms), и в твитах, которые они распространяют (propDiscTerms), которые «выделяют их». от остального информационного потока. Это не значит, что это их самые важные термины!

"N/A" means there weren't enough tweets to really discriminate any terms.. sorry!
*For those of you who know '@dimashqee', his account has been deactivated so we don't know which tweets he has retweeted, even though he tends to be a major player in this community around certain topics.

Это уже дает нам представление о пользователе! Но мы хотим иметь возможность профилировать пользователей на основе их вклада в темы, которые мы нашли в нашем информационном потоке. Для этого мы можем агрегировать наши веса тематических твитов из предыдущего раздела по Пользователю, который твитнул, и Пользователю, который написал ретвит. Это позволяет нам профилировать пользователей в сообществе с учетом их трех ролей, которые мы выделили ранее (генератор, внутренний распространитель, внешний распространитель). На рисунках 3.9, 3.10 и 3.11 показаны процентные отношения занятости для пользователей по темам - чтобы их прочитать:

  • Процент занятости: размер круга указывает на процент конкретного информационного потока (WithinFlow или OutsideFlow) по этой теме, который занимает конкретный пользователь (что может означать, сколько информации он генерирует или сколько размножаются в зависимости от диаграммы)
  • Сумма всех столбцов составляет 100%
  • В последнем столбце «TopicSum» указывается общий процент информационного потока, который пользователь «занимает» в соответствующей роли диаграммы.
Some of the numbers are hard to see here, I once again point the readers to the linked notebook in which you can hover over the points and see the complete topic Name as well as a clearer Occupation %.
Occupation sounds a little.. harsh, but it is meant to be indifferent here.. :)

Мы также можем использовать точечные диаграммы, чтобы увидеть высокоуровневый ролевой профиль пользовательского пространства. Рисунки 3.12, 3.13 и 3.14 показывают высокоуровневые отношения между различными ролями пользователей в сообществе (т. е. рисунок 3.12 представляет собой сравнение общего процента внутренней занятости пользователя в% в сообщество (по всем темам) и общий процент занятости пользователя в сообществе).

GEN = Generator, IPROP = Internal Propagator, OPROP = Outer/External Propagator
Note: those with very low occupation % are excluded.

Рисунки 3.9–3.14 в совокупности, на мой взгляд, являются одним из наиболее ценных показателей, которые могут фиксировать поведение пользователей не только по их содержанию, но и по их типу деятельности. Вот несколько примеров высокоуровневых показаний, которые можно получить из шести приведенных выше цифр.

Примеры показаний:

  • «@TraversingTradition» является основным генератором внутреннего информационного потока этого сообщества, генерируя более 24% внутреннего материала в этом году, но распространяет только 7% внутреннего материала для остальной части сообщества. Это только кажется, что эффективно взаимодействует с 6/9 основными темами внутри сообщества.
  • «@AndrewStodghill» и «@SeekingErudite» являются крупными пропагаторами обоих видов информационных потоков, но очень низкими генераторами. Этих пользователей можно рассматривать как важные узлы для непрерывности информационного потока, даже если они не обязательно создают материал.
  • TheSalafiFeminist (‘@AnonyMousey’) вносит наибольшую долю внешней информации в информационный поток по теме № 2 (феминизм / женские исследования)
  • Кажется, существует своего рода правило 30–70 для каждой темы… 30% пользователей (~ 5) генерируют и распространяют ~ 70% информации в каждой теме.
  • Поколения по теме №4 (связанные с феминизмом, хиджабом и т. Д.) Гораздо более распределены, чем, скажем, по поколениям в теме №2 (связанные с высказываниями пророков (хадисами), религиозными анекдотами и цитатами и т. Д.) который на 50% монополизирован одним пользователем. Такая тенденция может побудить к дальнейшим исследованиям, поскольку может намекнуть на то, что тема № 4 имеет меньшую «эхо-камеру», чем тема № 2.

Конечно, есть гораздо больше идей, которые полностью зависят от того, на какие вопросы вы хотите ответить, пытаетесь ли вы определить поведение отдельного пользователя и т. Д.

… Но подождите, это еще не все! Мы также можем разбить различные роли пользователей по темам и изучить межтематические корреляции. Чтобы избавить вас от шквала графиков, я включил анализ в Приложение A для всех, кто интересуется.

Заключительные замечания

  • Наш анализ помог нам успешно сформировать профиль информационного потока на уровне терминов, твитов и пользователей, окружающего выбранное эго-сообщество.
  • В целом результаты были вполне удовлетворительными! Вместо того, чтобы слепо моделировать темы на основе набора твитов, первоначальная разбивка на сообщества пользователей помогла ограничить проблему и найти темы, которые действительно актуальны и проницательны. Это дополнительно подтверждается основными участниками информационного потока, такими как «@TraversingTradition», выделенным на этапе профилирования пользователей.
  • Напоминаем, что после программирования такие виды анализа (и гораздо более подробные, расширенные процессы) требуют минут для выполнения - это означает, что когда вы соглашаетесь использовать Twitter в качестве общедоступной платформы, вы также делаете свои данные общедоступными для инструментов. и алгоритмы, которые более эффективны и действенны, чем вы думаете. Конечно, моя цель не была «злой» (обещаю!), Но более вредоносная цель будет иметь такой же доступ ...
  • Поскольку я лично слежу за этими пользователями, характеристики, контент и поведение этих пользователей, извлеченные из этого анализа, не были слишком большим сюрпризом и, кажется, согласны с интуитивным пониманием, которое я качественно приобрел в сообществе с течением времени. Однако, поскольку этот анализ может быть проведен для любой заданной группы пользователей, такого рода анализ тематического моделирования может заранее дать нам представление об общем объеме информации (и / или о конкретных пользователях), которую может предоставить это сообщество . Очевидный вариант использования такого понимания в современных моделях социальных сетей указывает на целевой маркетинг и рекламу, но можно также представить себе способы получения социологической информации для исследований, исследований, разработки политики и т. Д., Которые менее «корпоративны».
  • Высоко взвешенные термины как в WithinFlow, так и в OutsideFlow нашего анализа, такие как [ислам, мусульмане и т. Д.], помогают нам обратно проверять обнаружение сообщества - чтобы чувствовать себя хорошо в отношении нашей алгоритмической группировки пользователей.
  • Хотя мы ограничили наш анализ только одним сообществом - безусловно, есть место для сравнений между сообществами, возможно, даже для построения базовых показателей, которые определяют информационный поток сообщества, и обнаружения того, что сообщества на практике состоят из предсказуемых форм? (т.е. с точки зрения распределения их пользовательских ролей)
  • Анализ здесь был в основном описательным, но эту информацию определенно можно использовать для построения прогнозных моделей и помочь нам увидеть эффекты и влияния, которые могут развиться в будущем.

Основная цель этого поста заключалась в том, чтобы классифицировать сущность информационного потока, поэтому я стеснялся добавлять интерпретацию к нашим наблюдениям и извлекать прогностические выводы. Это связано с тем, что при интерпретации мы сталкиваемся с мягким пределом технократических подходов: наблюдения, какими бы хорошо продуманными и интересными они ни были, могут означать все и вся. Для решения этой проблемы (я считаю) специалисты по данным должны предпринять смелую попытку использовать область социологии, чтобы предоставить нам одну или две теории для интерпретации того, что мы обнаружили, - подчеркнув философский взгляд, который я очень разделяю: необходимость о поддержке аналитических процессов, связанных с наукой о данных, с помощью «Теории». Хотя обнаружение сообщества также следовало из концепции «социологической» эго-сети, это все же было очень поверхностным отсылкой к социологической сфере. Для дальнейшего анализа содержания информационного потока нам потребуется нечто гораздо более глубокое. (подсказка: Гоффман? Бурдье? Сартр? .. Хайдеггер?)

Обнаружение сообщества (этап 1) помогло нам найти куда поступает информация, тематическое моделирование (этап 2) помогло нам определить, какая информация поступает - следующий этап (3) - это почему. В будущем я планирую завершить этот проект, представив связи между аналитикой науки о данных и социологическими теориями (в области аналитики социальных сетей), а также то, как они могут помочь нам интерпретировать и ограничивать значение наших результатов. Будьте на связи…

Приложение А - Межтематические корреляции между ролями

Теперь я знаю, что это похоже на множество диаграмм, точек и линий, но не пугайтесь! На рисунках A.1 и A.2 показаны отношения между внешними и внутренними ролями пользователей (внешний распространитель и внутренний распространитель / генератор) по темам (например, верхняя левая диаграмма на рисунке A.1. соотносит% занятости внешнего распространения для темы 0 с% занятости поколения для темы 0, а верхняя правая диаграмма соотносит% занятости внешнего распространения для темы 0 и% занятости поколения для темы 8). В нашем случае у нас довольно небольшой размер выборки (~ 22 пользователя), и поэтому эти диаграммы следует брать с некоторой долей скептицизма, но в принципе мы можем использовать эти визуализации, чтобы получить еще более глубокое понимание взаимосвязей конкретных тем. .

Чтобы прочитать графики ниже, лучше всего искать странности, просматривая слева направо или сверху вниз. То, что мы ищем, - это своеобразное поведение - то есть, если процент занятости внутреннего распространения темы X коррелирует иным образом с процентом занятости поколения темы Y, чем с другими темами, это может указывать на то, что темы влияют друг на друга. .

GEN = Generator, IPROP = Internal Propagator, OPROP = Outer/External Propagator

Пример показаний для рисунка A.1

Существует более сильная тенденция, показывающая, что пользователи, распространяющие внешнюю информацию по теме № 0, как правило, генерируют меньше информации по темам 4, 5, 6, 7, 8.

Обычно, глядя на диагонали, пользователи, которые генерируют больше информации по определенной теме, склонны распространять меньше внешней информации.

Пример показаний для рисунка A.2

Особо сильная положительная корреляция между темой №2, распространяющейся изнутри, и темой №2, распространяемой извне.

Глядя на диагональ, кажется, что, как правило, пользователи, которые распространяют какую-либо тему внутри компании, также имеют тенденцию распространять ту же тему за пределами организации.

Спасибо за чтение!

Моя основная цель в этих сообщениях - это практический подход к изучению концепций, которые мне лично интересны - поэтому, независимо от вашей области, если у вас есть какие-либо интересные идеи, которые вы хотите обсудить или сотрудничать, в которых, по вашему мнению, наука о данных может принести пользу, напишите мне, и мы поговорим.