WedX - журнал о программировании и компьютерных науках

Как улучшить поиск по близости в solr

Когда я ищу компанию в solr, результат должен содержать похожие результаты, такие как компания, компания-любая и компания. Как получить это с помощью solr.

13.10.2017

  • что ты уже пробовал? 13.10.2017
  • Каковы именно правила того, что вы считаете похожим результатом? 13.10.2017
  • Если я ищу Walmart, результат должен отображать wal mart, wal-mart и walmart и наоборот. Как этого добиться 16.10.2017

Ответы:


1

Для предоставленного вами варианта использования вы можете использовать n-граммы.

<analyzer>
  <tokenizer class="solr.StandardTokenizerFactory"/>
  <filter class="solr.NGramFilterFactory" minGramSize="3" maxGramSize="7"/>
</analyzer>

Этот фильтр разбивает токены на части заданных размеров, например, для слова "компания" выдаст следующие токены: "com", "omp", "mpa", "pan", "any", "comp" , "ompa", "mpan", "pany", "compa", "ompan", "mpany", "compan", "company", "company"

ВНИМАНИЕ Этот фильтр может снизить производительность и привести к экспоненциальному росту вашего индекса и, возможно, приведет к нехватке памяти Solr в зависимости от размера полей, которые вы используете (например, если вы используете его для извлечения контента). . Так что выбирайте с умом поле для его использования :)

Вот некоторая полезная информация с примерами: https://lucene.apache.org/solr/guide/6_6/filter-descriptions.html#FilterDescriptions-N-GramFilter

17.10.2017
Новые материалы

Объяснение документов 02: BERT
BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

Как проанализировать работу вашего классификатора?
Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)
Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter
Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js
Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!
Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..


Для любых предложений по сайту: [email protected]