#30DaysOfNLP

НЛП-день 4: нормализация словарного запаса может быть плохой идеей

Что такое сворачивание регистра, стемминг и лемматизация?

Вчера мы улучшили наш словарный запас, улучшив наш токенизатор.

Мы извлекли более значимые токены, учитывая знаки препинания, сокращения и даже небрежную лексику.