ВВЕДЕНИЕ:

Twitter в настоящее время является домом для 22,1 миллиона пользователей в Индии. Это считается ценной платформой для компаний, чтобы рекламировать свои продукты и информировать пользователей о своем бренде. Кроме того, некоторые компании используют Twitter как средство поддержки своих клиентов и получения ценных отзывов и предложений от потребителей по улучшению своих услуг. Он также служит отличным источником новостей. Он не только действует как мощное средство коммуникации, но и формирует мышление человека. Это гибкая, открытая и многофункциональная платформа, которая привлекает внимание людей по всему миру. Тем не менее, Твиттер служит местом для злоупотреблений в Интернете, враждебного общения, клеветы и фальшивых новостей. Это вызывает озабоченность, требующую особого внимания. Таким образом, крайне необходимо остановить оскорбительные, оскорбительные, клеветнические и поддельные твиты в Твиттере. Крайне важно идентифицировать все такие твиты, потому что не все негативные твиты являются враждебными, резкими или нежелательными. Итак, теперь мы собираемся обсудить классификацию твитов на хинди, которая является потенциальным решением для обработки такого сценария, а также различные модели, которые маркируют твиты на хинди как оскорбительные, ненавистнические, клеветнические, невраждебные или фальшивые (классификация с несколькими ярлыками) в для достижения основной цели контроля оскорбительных твитов и фейковых новостей в Твиттере (Индия).

МОТИВАЦИЯ:

В недавней ситуации с пандемией Covid-19 люди были ограничены в своих домах. Различные платформы социальных сетей были для них единственной надеждой на общение друг с другом и обмен информацией. Во время блокировки Twitter служил одной из виртуальных платформ для получения информации о Covid-19. Но ложная и вводящая в заблуждение информация в различных социальных сетях часто приводила к ложным убеждениям и панике среди аудитории. Кроме того, в 2018 году правозащитная организация Amnesty International назвала Твиттер «токсичным местом для женщин» на основании анализа почти 15 миллионов твитов. Согласно выводам Amnesty International, оказалось, что женщины, использующие Twitter, часто становятся объектом онлайн-насилий. Онлайн-злоупотребления во враждебных твитах, троллинговые сообщения, угрозы смерти и изнасилования в первую очередь влияют на психическое здоровье женщин, делая Твиттер небезопасным и токсичным местом для женщин. В результате это также влияет на участие женщин в поддержании своих взглядов в Твиттере. Это также приводит к повышению уровня стресса и беспокойства среди женщин, которые сталкиваются с насилием в Интернете. Твиттер терпит неудачу, когда дело доходит до расистских оскорблений. Часто чернокожие страдают от расистских оскорблений в Твиттере. Когда чернокожие английские футболисты проиграли Италии на чемпионате Европы по футболу УЕФА, против игроков было сделано много расистских твитов. Нет сомнений в том, что социальная диффамация может разрушить личные и профессиональные отношения. Удивительно, но Twitter является одной из таких социальных сетей, где можно ожидать множество дел о диффамации. Случаи клеветы и ложные заявления о бизнесе или человеке не только наносят ущерб репутации, но и негативно сказываются на трудовой жизни. Это может привести к тому, что люди потеряют работу и душевный покой. Все эти пункты подчеркивают необходимость выявления таких твитов, чтобы можно было предпринять необходимые действия, чтобы избежать каких-либо плохих последствий или результатов. Хинди является наиболее распространенным языком в Индии. Ранее над классификацией твитов на хинди не проводилось много работы. Следовательно, это побудило нас создать некоторые модели, которые помогут достичь основной цели — контролировать оскорбительные твиты и фейковые новости в Твиттере (Индия).

ИНФОРМАЦИЯ О НАБОРЕ ДАННЫХ:

Набор данных, используемый для этого проекта, взят из конкурса CONSTRAINT 2021. Набор для обучения, набор для проверки и набор для тестирования взяты из CONSTRAINT 2021. Данный набор данных состоял из твитов и многоклассовых меток, указывающих на то, является ли твит фальшивым, разжигающим ненависть, оскорбительным, клеветническим или невраждебным. Из общего числа 8192 твитов 4358 относятся к невраждебному классу, а остальные 3834 твита относятся к одному из враждебных измерений. Что касается враждебных измерений, 1136 твитов относятся к ненависти, 1064 — к оскорбительным, 810 — к диффамации и 1638 твитов — к фейковому классу. При анализе набора данных мы заметили, что выборки были равномерно распределены между классами и не было дисбаланса классов. Краткая статистика набора данных показана на рисунке 1. Кроме того, было замечено, что твиты, помеченные как «настоящие», были длиннее, чем твиты, помеченные как «фальшивые». Средняя длина настоящих твитов составляет около 215 символов, а средняя длина поддельных твитов — около 144 символов. Это графически представлено на рисунке 2. Было обнаружено, что во всех метках классов есть много похожих слов. В большинстве твитов используются такие слова, как «देश», «भारत», «मोदी», «सरकार». Наиболее часто встречающиеся слова во враждебных и не враждебных твитах показаны на Рисунке 3 и Рисунке 4 соответственно.

Вот значения ярлыков, присвоенных твиту:

Оскорбительные.Оскорбительные твиты — это те, которые пытаются оскорбить человека или компанию, используя неуважительные, обидные и грубые слова.

Ненависть. Твиты с ненавистью — это те твиты, которые демонстрируют ненависть к человеку или определенной группе людей по признаку их расы, религиозных убеждений и т. д.

Клевета. Клеветнические твиты — это твиты, которые пытаются публично разрушить/навредить репутации человека или группы.

Подделка.Поддельные твиты — это ложные или ненастоящие твиты.

Не враждебные.Не враждебные твиты — это те, которые не несут никакой враждебности.

ИСПОЛЬЗУЕМАЯ МЕТОДОЛОГИЯ:

ПРЕДВАРИТЕЛЬНАЯ ОБРАБОТКА НАБОРА ДАННЫХ:

Предварительная обработка данных выполняется до обучения моделей. Это важный шаг, потому что он очищает данные, чтобы сделать их полезными. Также производительность моделей на чистых данных хорошая. Этапы предварительной обработки твитов показаны на рисунке 6.

Все URL-ссылки, начинающиеся с https или www. и все упоминания с использованием @ были удалены из твитов, поскольку они не играют никакой роли в определении характера твитов. Все символы, кроме символов деванагари, были удалены, поскольку они не являются частью языка хинди. Кроме того, все специальные символы были удалены, потому что они не важны для определения характера твита. Все смайлы были удалены, потому что они не являются текстом. Кроме того, все часто используемые слова, известные как стоп-слова языка хинди, были удалены. Была выполнена токенизация, при которой каждый твит на хинди был разбит на содержащиеся в нем слова, также известные как токены. Наиболее часто встречающиеся слова в наборе данных были удалены, поскольку они не влияют на классификацию твитов. Мы нарисовали облако слов для невраждебных и враждебных твитов для графического представления наиболее часто встречающихся слов. Это представление можно увидеть на рис. 5. Выделение основы было выполнено для приведения каждой лексемы к ее базовой форме или форме основы. Была проведена стратификация, чтобы создать отдельный столбец для каждой уникальной метки. Для каждого твита на хинди один был вставлен под теми столбцами, которые соответствовали ярлыкам соответствующего твита.

ИЗВЛЕЧЕНИЕ ФУНКЦИЙ:

Извлечение признаков — это процесс извлечения числовых признаков из текстовых данных, которые в нашем случае являются твитами на хинди. Он состоит из нескольких шагов. Первый шаг известен как токенизация. Второй шаг — подсчет, при котором вычисляется количество для каждого токена в наборе данных. Третий шаг — это нормализация, при которой не делается упор на токены с очень высоким или очень низким количеством, поскольку такие слова могут повлиять на точность модели.

Текстовые данные в числовые векторы:

Векторизатор счета – это метод нормализации, при котором сначала создается список словарного запаса или признаков на основе всего набора данных. Теперь он сохраняет частоту каждой функции для каждого экземпляра независимо от важности функций.

TF-IDF(Частота термина — обратная частота документа используется для определения важности функций. Сначала он создает список словаря, применяя определенные правила, а затем находит значения TF-IDF для каждого слов в словаре каждого из экземпляров в наборе данных.TF означает частоту терминов.TF для токена вычисляется как отношение его количества в документе к общему количеству токенов в документе.Чем выше частота термина для токена выше его вес.Обратите внимание, что частота термина дает равный вес каждому токену в документе, но есть токены, имеющие очень большое количество в документе, но не имеющие большого значения.IDF означает обратную частоту документа и используется для уменьшения веса токенов с большим количеством при одновременном увеличении веса токенов с низким количеством. IDF для токена вычисляется как отношение общего количества документов к общему количеству документов, в которых присутствует токен. Таким образом, IDF имеет низкий уровень для маркера с высоким значением счетчика и высокий уровень для маркера с низким значением счетчика.

Встраивание Word2Vec: каждый твит в наборе данных разбивается на токены (слова), используя пробел между ними в качестве разделителя. Создается список всех токенов. Класс Word2Vec получает список всех твитов и создает модель. Созданная модель Word2Vec теперь обучается на всех твитах за несколько эпох (10). Теперь обученная модель используется для получения вектора слов каждого слова в каждом твите. Вычисляется среднее значение всех векторов слов всех слов, присутствующих в твите, и оно действует как единое векторное представление этого твита. Одно векторное представление находится для каждого твита в наборе данных таким же образом.

RNN — это модель нейронной сети, в которой несколько слоев наряду со скрытыми слоями выполняют анализ настроений в нашем случае. Мы использовали вложение Keras для преобразования предложений в группу векторов, а после этого мы обучили эту группу векторов модели RNN, в которой мы использовали «сигмоид» в качестве функции активации. Мы также использовали разные модели классификации с подходом «один против остальных» для классификации твитов с несколькими метками в одном и том же встраивании.

Многоязычный Bert (M-Bert) расширяет модель Bert, разработанную Google. Он обеспечивает встраивание слов для 104 различных языков; Хинди — один из них. Это дает предварительно обученную модель для встраивания слов для создания векторов для слов. Мы использовали модель Hindi Electra, которая представляет собой небольшую модель и дает сопоставимые результаты с моделью M-Bert. Мы доработали модель и скорректировали скорость обучения, чтобы получить лучшие результаты. Получив вложение для твитов, мы использовали несколько моделей классификации в этой матрице встраивания и использовали классификацию «один против остальных».

ИСПОЛЬЗУЕМЫЕ БАЗОВЫЕ МОДЕЛИ:

Производительность вышеупомянутых методов оценивалась по сравнению с некоторыми стандартными моделями машинного обучения, такими как деревья решений, логистическая регрессия, SVM. Модели классификации были обучены с использованием признаков, извлеченных TF-IDF и Count-Vectorizer. Модели оценивались с использованием взвешенного балла F1.

Классификатор дерева решений

Мы использовали такие гиперпараметры, как: Max_depth=20, критерий=’gini’, class_weight=’balanced’.

Оценка F1 с использованием классификатора дерева решений в тестовом наборе с использованием встраивания RNN: 0,724

Оценка F1 с использованием классификатора дерева решений в тестовом наборе с использованием Word2Vec: 0,794

Оценка F1 с использованием классификатора дерева решений на тестовом наборе с использованием M-Bert: 0,776

Классификатор SVM

Мы использовали такие гиперпараметры, как: kernel=rbf, C=0,01, gamma=1, class_weight='balanced'.

Оценка F1 с использованием классификатора SVM в тестовом наборе с использованием встраивания RNN: 0,57

Оценка F1 с использованием классификатора SVM в тестовом наборе с использованием Word2Vec: 0,698

Оценка F1 с использованием классификатора SVM на тестовом наборе с использованием M-Bert: 0,688

Классификатор логистической регрессии

Мы использовали такие гиперпараметры, как: Penal=L2, Solver=lib-linear, class_weight='balanced'.

Оценка F1 с использованием классификатора логистической регрессии на тестовом наборе с использованием встраивания RNN: 0,572

Оценка F1 с использованием классификатора логистической регрессии в тестовом наборе с использованием Word2Vec: 0,760

Оценка F1 с использованием классификатора логистической регрессии на тестовом наборе с использованием M-Bert: 0,696

Классификатор случайного леса

Мы использовали такие гиперпараметры, как: n-estimator=400, class_weight='balanced'.

Оценка F1 с использованием классификатора случайного леса в тестовом наборе с использованием встраивания RNN: 0,718

Оценка F1 с использованием классификатора случайного леса в тестовом наборе с использованием Word2Vec: 0,820

Оценка F1 с использованием классификатора случайного леса в тестовом наборе с использованием M-Bert: 0,884

LSTM

Мы использовали LSTM и двунаправленный LSTM с функцией активации в виде сигмоиды и получили следующие результаты с точки зрения точности:

LSTM: - Точность = 77,8%

Двунаправленный LSTM: - Точность = 85,6%

РЕЗУЛЬТАТЫ:

Несколько моделей, которые мы использовали для классификации, обсуждаются ниже. Метрика оценки, используемая для расчета производительности модели, представляет собой взвешенную оценку F1.

ЗАКЛЮЧЕНИЕ:

В этой статье делается вывод, что M-Bert с классификатором случайного леса превзошел RNN, Word2vec и LSTM с другими моделями. С помощью M-Bert и классификатора случайного леса мы получили наивысшую взвешенную оценку F1 = 0,884. Для M-Bert мы использовали «модель Hindi Electra», она очень легкая, предварительно обучена на обширном массиве данных и хорошо работает с небольшим объемом памяти. Однако модели Word2Vec и LSTM также показали хорошие результаты.

БУДУЩАЯ РАБОТА:

Анализ твитов на невраждебные и враждебные, такие как обнаружение фальшивых, клеветнических, ненавистнических и оскорбительных новостей, имеет множество областей применения и становится все более распространенным в наши дни. В более широком масштабе идея этой статьи может быть использована для классификации комментариев с несколькими ярлыками на различных платформах социальных сетей, таких как Instagram, Twitter, Facebook и т. д., особенно для языка хинди, поскольку он становится все более распространенным.

ВКЛАД:

• Akash Rawat: Исследовательский анализ данных, предварительная обработка данных и внедрение LSTM.

• Parul Sikri: Parul Sikri: базовая модель, реализация RNN и Word2vec.

• Shubham Rana: обзор литературы, базовая модель и реализация M-Bert.