#30DaysOfNLP
НЛП-день 4: нормализация словарного запаса может быть плохой идеей
Что такое сворачивание регистра, стемминг и лемматизация?
Вчера мы улучшили наш словарный запас, улучшив наш токенизатор.
Мы извлекли более значимые токены, учитывая знаки препинания, сокращения и даже небрежную лексику.