Простота создания алгоритма обнаружения подделок — точность % 97

Каждый день нас бомбардируют тонны электронных писем от рекламодателей, компаний, государственных органов, коллег, подписанных веб-сайтов и мошенников.

В этой мини-статье я хочу показать вам, как построить алгоритм машинного обучения, который обнаруживает фальшивое/спамовое содержимое электронной почты. Все, что вам нужно, это немного знаний Python и набор данных для подачи в алгоритм.

Здесьу нас есть хороший набор данных, включающий более 5 000 электронных писем, которые мы можем использовать для обучения нашей модели машинного обучения.

Сначала я загружаю его в локальное хранилище и читаю, используя функциональность pandas read_csv в Jupyter Notebook.

Логика модели такова; алгоритм делает свои прогнозы на основе типа слова в содержании. Если содержимое содержит большое количество слов, которые часто встречаются в спам-сообщениях, оно будет помечено как спам.

После чтения данных я использую инструмент под названием «CountVectorizer», который позволяет мне преобразовывать слова в столбцы с двоичными значениями. Теперь у меня столько столбцов, сколько отдельных слов в наборе данных. Каждое слово имеет свой столбец. Если текст сообщения электронной почты в строке содержит слово, принадлежащее столбцу, значение перехвата становится равным 1. В противном случае оно остается равным 0.

Это все, что вам нужно сделать перед вставкой данных в модель.

Я обучаю модель с данными и делаю прогнозы, используя тестовые данные. Результат необыкновенный.

Он достиг 97% точности.

Моя модель готова делать прогнозы сейчас. Теперь я захожу в свой почтовый ящик и выбираю пару писем. Я копирую и вставляю их в свою модель. Вот предсказания модели, проверьте, согласны ли вы;

Как всегда, добавляю ссылку на код Python здесь. Я надеюсь, что эта статья будет полезна для вас.

смотрите также:

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…

Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей

В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT

BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Startup Data Visualization Neural Networks Tutorial Statistics Productivity Reactjs Learning