WedX - журнал о программировании и компьютерных науках

Улучшение показателя релевантности MySQL с помощью Sphinx для полнотекстового поиска

Я работаю над системой поиска информации, используя MySQL с режимом естественного языка. Имеющиеся у меня данные аннотированы для рассмотрения различных категорий. Например. Обезьяна, кошка, собака будут помечены как «животные», а утка, воробей — как «птицы». Проблема в том, что я извлекаю документы на основе вхождений этих тегов.

Теперь у MySQL есть ограничение: если определенный термин встречается более чем на 50% во всех данных, этот термин не учитывается. Учитывая мое требование, я хочу, чтобы он оценивал все совпадающие термины, даже если конкретный термин встречается более чем на 50% во всех данных.

Я читал несколько вещей о сочетании Sphinx с MySQL для повышения эффективности поиска, но я не уверен, можно ли это применить в моей ситуации.

Пожалуйста, предоставьте решение этой проблемы

07.05.2012

Ответы:


1

Sphinx очень хорош в очень быстром полнотекстовом поиске. В нем нет правила 50%, которое есть в mySQL, но вам нужно будет использовать его вместо полнотекстового поиска mySQL. По сути, вы устанавливаете Sphinx и настраиваете импорт для копирования всех ваших данных mySQL в Sphinx. Затем вы можете собрать SphinxSE или запросить Sphinx напрямую через библиотеку, чтобы получить свои результаты. Затем вы можете получить подробную информацию о своих результатах, запросив mySQL.

Я использую SphinxSE, потому что вы можете запрашивать Sphinx через mySQL и присоединять свою таблицу mySQL к результатам в одном запросе. Это довольно мило.

07.05.2012
  • Спасибо, я установил sphinx на свой компьютер с Windows, но я не знаю, как копировать данные из MySQL в sphinx. Я хотел бы использовать SphinxSE, поскольку я хотел использовать MySql без 50%, которые у него есть. Также не могли бы вы сказать мне, как установить SphinxSE? 08.05.2012
  • Вам необходимо проверить документацию по созданию индекса. Все это делается в конфигурационном файле sphinx. Я не знаю, как настроить SphinxSE в Windows, но обычно я компилирую его в mySQL. 08.05.2012
  • Спасибо за вашу помощь! Разберусь с установкой и индексами. У меня есть еще один вопрос после установки плагина sphinx SE, я смогу запрашивать базу данных MySQL, но правило 50%, что MySQL не будет применяться, и я получу соответствующую оценку для извлеченных документов 08.05.2012
  • Вы больше не будете запрашивать полнотекстовый индекс mySQL. Вы будете запрашивать Sphinx с совершенно другим набором правил. Вам придется найти хороший баланс актуальности и веса. 08.05.2012
  • Новые материалы

    Как создать диаграмму градиентной кисти с помощью D3.js
    Резюме: Из этого туториала Вы узнаете, как добавить градиентную кисть к диаграмме с областями в D3.js. Мы добавим градиент к значениям SVG и применим градиент в качестве заливки к диаграмме с..

    Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что это выглядит сложно…
    Просто начните и учитесь самостоятельно Я хотел выучить язык программирования MVC4, но не мог выучить его раньше, потому что он кажется мне сложным, и я бросил его. Это в основном инструмент..

    Лицензии с открытым исходным кодом: руководство для разработчиков и создателей
    В динамичном мире разработки программного обеспечения открытый исходный код стал мощной парадигмой, способствующей сотрудничеству, инновациям и прогрессу, движимому сообществом. В основе..

    Объяснение документов 02: BERT
    BERT представил двухступенчатую структуру обучения: предварительное обучение и тонкая настройка. Во время предварительного обучения модель обучается на неразмеченных данных с помощью..

    Как проанализировать работу вашего классификатора?
    Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

    Работа с цепями Маркова, часть 4 (Машинное обучение)
    Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

    Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]
    Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..


    Для любых предложений по сайту: [email protected]