Создание семантического поиска с помощью Elasticsearch с использованием Spring Boot

Введение

Семантический поиск — это расширенный метод поиска, который направлен на понимание цели и контекста запроса, а не просто на сопоставление ключевых слов. Он направлен на предоставление более точных и релевантных результатов за счет учета взаимосвязей между словами и фразами. Elasticsearch, мощная, масштабируемая поисковая и аналитическая система, работающая в режиме реального времени, может использоваться для создания эффективной системы семантического поиска.

В этой статье мы познакомим вас с процессом создания системы семантического поиска с использованием Elasticsearch, Java и Spring Boot вместе с примерами кода и диаграммами Mermaid, иллюстрирующими ключевые концепции.

Предпосылки

Знакомство с Elasticsearch и его Query DSL (Domain Specific Language)
Базовые знания программирования на Java и Spring Boot
Elasticsearch и Kibana установлены на вашем локальном компьютере

Обзор

Предварительная обработка и индексация документов
Поиск по ключевым словам против семантического поиска
Реализация семантического поиска
Оценка и оптимизация релевантности поиска

1. Предварительная обработка и индексация документов

Первым шагом в построении системы семантического поиска является предварительная обработка и индексация документов. Для этого мы создадим простое приложение Spring Boot, взаимодействующее с Elasticsearch.

Настройка приложения Spring Boot

Создайте новый проект Spring Boot со следующими зависимостями:

Весенняя сеть
Эластичный поиск

Добавьте следующую зависимость в файл pom.xml:

<dependency>
    <groupId>org.springframework.boot</groupId>
    <artifactId>spring-boot-starter-data-elasticsearch</artifactId>
</dependency>

Настройка эластичного поиска

Создайте класс @Configuration и настройте Elasticsearch, указав необходимые параметры:

@Configuration
public class ElasticsearchConfig extends AbstractElasticsearchConfiguration {
    @Value("${elasticsearch.host}")
    private String host;
    @Value("${elasticsearch.port}")
    private int port;
    @Override
    @Bean
    public RestHighLevelClient elasticsearchClient() {
        return new RestHighLevelClient(
                RestClient.builder(new HttpHost(host, port, "http")));
    }
}

Индексирование документов

Создайте простой класс документа и аннотируйте его с помощью @Document:

@Document(indexName = "documents")
public class Document {
    @Id
    private String id;
    private String title;
    private String content;
}

Создайте интерфейс DocumentRepository, расширяющий ElasticsearchRepository:

public interface DocumentRepository extends ElasticsearchRepository<Document, String> {
}

Реализовать сервис для индексации документов:

@Service
public class DocumentService {
    private final DocumentRepository documentRepository;
    public DocumentService(DocumentRepository documentRepository) {
        this.documentRepository = documentRepository;
    }
    public void indexDocuments(List<Document> documents) {
        documentRepository.saveAll(documents);
    }
}

Теперь вы можете использовать DocumentService для индексации документов в Elasticsearch.

2. Поиск по ключевым словам против семантического поиска

Поиск по ключевым словам сопоставляет документы на основе встречаемости определенных слов или фраз. Он прост в реализации, но может не дать наиболее релевантных результатов. С другой стороны, семантический поиск учитывает значение и контекст слов, обеспечивая более точные и релевантные результаты.

3. Реализация семантического поиска

Для реализации семантического поиска мы будем использовать встроенные функции Elasticsearch, такие как синонимы, анализ текста и многое другое.

3.1 Синонимы

Создайте анализатор синонимов в настройках индекса Elasticsearch:

{
  "settings": {
    "analysis": {
      "filter": {
        "synonym_filter": {
          "type": "synonym",
          "synonyms_path": "analysis/synonym.txt"
        }
      },
      "analyzer": {
        "synonym_analyzer": {
          "tokenizer": "standard",
          "filter": [
            "lowercase",
            "synonym_filter"
          ]
        }
      }
    }
  }
}

synonyms_path должен указывать на файл, содержащий синонимы для вашего домена. Каждая строка в файле представляет собой группу синонимов, разделенных запятыми.

3.2 Текстовый анализ

Затем обновите сопоставление вашего индекса, чтобы использовать анализатор синонимов:

{
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "synonym_analyzer"
      },
      "content": {
        "type": "text",
        "analyzer": "synonym_analyzer"
      }
    }
  }
}

Это гарантирует, что Elasticsearch будет использовать анализатор синонимов при индексировании и поиске документов.

3.3 Расширение запроса

Чтобы расширить запросы для охвата синонимов, вы можете использовать запрос match с расширением synonym_analyzer. Создайте метод поиска в своем классе DocumentService:

public List<Document> search(String query) {
    MatchQueryBuilder matchQuery = QueryBuilders.matchQuery("content", query)
            .analyzer("synonym_analyzer");

    SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
    searchSourceBuilder.query(matchQuery);

    SearchRequest searchRequest = new SearchRequest("documents");
    searchRequest.source(searchSourceBuilder);

    try {
        SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);
        return Arrays.stream(searchResponse.getHits().getHits())
                .map(hit -> objectMapper.convertValue(hit.getSourceAsMap(), Document.class))
                .collect(Collectors.toList());
    } catch (IOException e) {
        throw new RuntimeException("Failed to execute search", e);
    }
}

4. Оценка и оптимизация релевантности поиска

Чтобы оценить релевантность вашего семантического поиска, вы можете использовать встроенный механизм оценки Elasticsearch, поле _score. Вы также можете настроить оценку, используя запросы оценки функции или другие передовые методы. Постоянный мониторинг и оценка результатов поиска помогут вам оптимизировать процесс поиска.

Влияние семантического поиска на производительность и ресурсы на Elasticsearch

Реализация семантического поиска с использованием Elasticsearch может иметь некоторые последствия для производительности и ресурсов. Очень важно знать об этих последствиях и тщательно учитывать их при планировании и оптимизации вашей поисковой системы.

Увеличение времени индексирования. Использование анализатора синонимов во время индексирования увеличивает время, необходимое для индексирования документов. Сложность списка синонимов и размер индексируемых документов могут существенно повлиять на производительность индексирования. Чтобы избежать этого, рассмотрите возможность использования меньшего списка синонимов и оптимизации процесса индексации.
Увеличенный размер индекса. Использование синонимов может привести к увеличению размера индекса, поскольку в индексе будет храниться несколько терминов, представляющих одно и то же понятие. Это может привести к более высокому использованию хранилища и памяти. Чтобы оптимизировать хранилище, рассмотрите возможность использования более выборочного списка синонимов или изучения параметров сжатия индекса.
Увеличение времени запроса. Поиск с помощью анализатора синонимов может увеличить время запроса, особенно для сложных списков синонимов и больших наборов данных. Чтобы повысить производительность запросов, вы можете использовать стратегии кэширования или оптимизировать список синонимов.
Более высокая загрузка памяти и ЦП: обработка синонимов требует дополнительной памяти и ресурсов ЦП как во время индексирования, так и при выполнении запросов. Это может привести к увеличению общего потребления ресурсов. Чтобы оптимизировать использование ресурсов, следите за своим кластером Elasticsearch и соответствующим образом корректируйте параметры оборудования и конфигурации.
Настройка релевантности. Внедрение семантического поиска иногда может усложнить процесс настройки релевантности поиска. Использование синонимов и других методов анализа текста может повлиять на оценку документов. Постоянная оценка и оптимизация релевантности поиска имеет решающее значение для поддержания удобного поиска.

Следовательно, хотя семантический поиск может обеспечить более точные и релевантные результаты поиска, он также может повлиять на производительность Elasticsearch и использование ресурсов. Тщательное планирование, мониторинг и оптимизация могут помочь вам сбалансировать преимущества семантического поиска с требованиями к производительности и ресурсам вашего кластера Elasticsearch.

Заключение

В этой статье мы рассмотрели процесс создания системы семантического поиска с использованием Elasticsearch, Java и Spring Boot. Мы обсудили предварительную обработку и индексирование документов, разницу между поиском по ключевым словам и семантическим поиском, а также реализацию семантического поиска с использованием синонимов, анализа текста и расширения запроса. Оценивая и оптимизируя релевантность поиска, вы можете создать мощный и удобный поиск для своих пользователей.

Для более продвинутых методов рассмотрите возможность изучения функций Elasticsearch, таких как запросы phrase и span, а также использование моделей машинного обучения для улучшения результатов поиска.

смотрите также:

Новые материалы

Как проанализировать работу вашего классификатора?

Не всегда просто знать, какие показатели использовать С развитием глубокого обучения все больше и больше людей учатся обучать свой первый классификатор. Но как только вы закончите..

Работа с цепями Маркова, часть 4 (Машинное обучение)

Нелинейные цепи Маркова с агрегатором и их приложения (arXiv) Автор : Бар Лайт Аннотация: Изучаются свойства подкласса случайных процессов, называемых дискретными нелинейными цепями Маркова..

Crazy Laravel Livewire упростил мне создание электронной коммерции (панель администратора и API) [Часть 3]

Как вы сегодня, ребята? В этой части мы создадим CRUD для данных о продукте. Думаю, в этой части я не буду слишком много делиться теорией, но чаще буду делиться своим кодом. Потому что..

Использование машинного обучения и Python для классификации 1000 сезонов новичков MLB Hitter

Чему может научиться машина, глядя на сезоны новичков 1000 игроков MLB? Это то, что исследует это приложение. В этом процессе мы будем использовать неконтролируемое обучение, чтобы..

Учебные заметки: создание моего первого пакета Node.js

Это мои обучающие заметки, когда я научился создавать свой самый первый пакет Node.js, распространяемый через npm. Оглавление Глоссарий I. Новый пакет 1.1 советы по инициализации..

Забудьте о Matplotlib: улучшите визуализацию данных с помощью умопомрачительных функций Seaborn!

Примечание. Эта запись в блоге предполагает базовое знакомство с Python и концепциями анализа данных. Привет, энтузиасты данных! Добро пожаловать в мой блог, где я расскажу о невероятных..

ИИ в аэрокосмической отрасли

Каждый полет – это шаг вперед к великой мечте. Чтобы это происходило в их собственном темпе, необходима команда астронавтов для погони за космосом и команда технического обслуживания..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Python Web Development Coding Deep Learning AI React Software Engineering Nodejs Java Front End Development Typescript Computer Science Data Algorithms Development NLP Tech Programming Languages CSS ChatGPT HTML Python Programming Javascript Tips Angular Computer Vision Data Visualization Neural Networks Startup Tutorial Statistics Productivity Reactjs Learning