WedX - журнал о программировании и компьютерных науках

Публикации по теме 'text-mining'


Как лексически обрабатывать текстовые данные?
Мы все разговариваем. С момента пробуждения до момента, когда мы снова засыпаем, мы используем речь для передачи своих мыслей и идей. Сейчас, в современном мире цифровой связи, каждое мгновение мы генерируем огромный объем текстовых данных. Twitter, Facebook и другие платформы социальных сетей, а также сайты онлайн-покупок генерируют огромное количество релевантных данных. Эти данные являются золотыми приисками для правительств, корпораций и деловых домов, которые могут использовать..

Базовая классификация текста за 4 минуты
Прогнозируйте настроение отзывов с помощью Python. Классификация текста относится к обучению модели машинного обучения для прогнозирования категории некоторого открытого текста (документа). Например: Прогнозирование того, будет ли настроение (эмоции) отзыва положительным/отрицательным. Прогнозирование того, является ли электронное письмо спамом или обычным Прогнозирование того, является ли файл pdf годовым отчетом/брошюрой и т. д. В этой статье мы будем использовать набор..

Руководство по встраиванию слов в НЛП
Введение Обработка естественного языка (NLP) — это междисциплинарная область компьютерных наук, искусственного интеллекта и лингвистики, связанная со способностью компьютеров понимать человеческий язык. Word Embeddings  – это усовершенствование НЛП, которое резко увеличило способность компьютеров лучше понимать текстовый контент. Это подход к представлению слов и документов в виде числовых векторов, позволяющий похожим словам иметь аналогичные векторные представления. Разве это не..

Обработка патентного языка
Применение обработки естественного языка в патентных пространствах Вы прогнозируете цены на акции, запуск новых продуктов или ниши на рынке труда? Патенты содержат текст, который может помочь понять, что, как и куда новые идеи будут двигать рынки в будущем. В этом посте рассматриваются прикладные исследования приложений обработки естественного языка (NLP) в патентной области. Чтобы получить более подробную информацию о патентах как данных, Всемирная организация интеллектуальной..

Строки, регулярные выражения и анализ текстовых данных
Предположим, вы хотите создать набор данных, состоящий из кратких определений и фактов, взятых из большого массива текстов, такого как набор рефератов всех статей, найденных в англоязычной версии Википедии. Вы также хотели бы, чтобы рабочий процесс, который вы собираете, был многоразовым и гибким, позволяя вам быстро обновлять набор данных и/или расширять его возможности. Какие функции и библиотеки Python, как встроенные, так и предоставленные более широким сообществом, вы можете..

Новые материалы

Объяснение документов 02: BERT
BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..


Для любых предложений по сайту: [email protected]