Моя задача заключается в извлечении изображения обложки в текстовом документе. Я следую эвристике: «Если первая страница документа содержит только изображение, то это изображение обложки, в противном случае изображение обложки отсутствует». Поэтому мне нужно получить только содержимое первой страницы и проверьте, есть ли на нем только изображение. Как я могу это сделать?
Я пробовал кучу API для обработки текстов, таких как POI, docx4j и т. Д. Но этот API не имеет никаких средств для идентификации содержимого конкретной страницы. Я также пытался написать свой собственный анализ XML. Я понимаю, что текстовый документ можно перекомпоновывать, а openxml файла docx не имеет никакого представления о неявных разрывах страниц. Я опубликовал [вопрос по этому поводу]: «>Поиск неявного разрыва страницы в документе Word с помощью синтаксического анализа xml, и не было полезного ответа. Итак, если это невозможно сделать с помощью XML-анализа openxml документа Word, как лучше всего это сделать? Есть ли полезный API в Java для этой задачи?