WedX - журнал о программировании и компьютерных науках

Публикации по теме 'text-mining'


Как лексически обрабатывать текстовые данные?
Мы все разговариваем. С момента пробуждения до момента, когда мы снова засыпаем, мы используем речь для передачи своих мыслей и идей. Сейчас, в современном мире цифровой связи, каждое мгновение мы генерируем огромный объем текстовых данных. Twitter, Facebook и другие платформы социальных сетей, а также сайты онлайн-покупок генерируют огромное количество релевантных данных. Эти данные являются золотыми приисками для правительств, корпораций и деловых домов, которые могут использовать..

Базовая классификация текста за 4 минуты
Прогнозируйте настроение отзывов с помощью Python. Классификация текста относится к обучению модели машинного обучения для прогнозирования категории некоторого открытого текста (документа). Например: Прогнозирование того, будет ли настроение (эмоции) отзыва положительным/отрицательным. Прогнозирование того, является ли электронное письмо спамом или обычным Прогнозирование того, является ли файл pdf годовым отчетом/брошюрой и т. д. В этой статье мы будем использовать набор..

Руководство по встраиванию слов в НЛП
Введение Обработка естественного языка (NLP) — это междисциплинарная область компьютерных наук, искусственного интеллекта и лингвистики, связанная со способностью компьютеров понимать человеческий язык. Word Embeddings  – это усовершенствование НЛП, которое резко увеличило способность компьютеров лучше понимать текстовый контент. Это подход к представлению слов и документов в виде числовых векторов, позволяющий похожим словам иметь аналогичные векторные представления. Разве это не..

Обработка патентного языка
Применение обработки естественного языка в патентных пространствах Вы прогнозируете цены на акции, запуск новых продуктов или ниши на рынке труда? Патенты содержат текст, который может помочь понять, что, как и куда новые идеи будут двигать рынки в будущем. В этом посте рассматриваются прикладные исследования приложений обработки естественного языка (NLP) в патентной области. Чтобы получить более подробную информацию о патентах как данных, Всемирная организация интеллектуальной..

Строки, регулярные выражения и анализ текстовых данных
Предположим, вы хотите создать набор данных, состоящий из кратких определений и фактов, взятых из большого массива текстов, такого как набор рефератов всех статей, найденных в англоязычной версии Википедии. Вы также хотели бы, чтобы рабочий процесс, который вы собираете, был многоразовым и гибким, позволяя вам быстро обновлять набор данных и/или расширять его возможности. Какие функции и библиотеки Python, как встроенные, так и предоставленные более широким сообществом, вы можете..

Новые материалы

Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…
Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

Лицензии с открытым исходным кодом: руководство для разработчиков и создателей
В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

Объяснение документов 02: BERT
BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..


Для любых предложений по сайту: [email protected]