1. PMC-VQA: настройка визуальных инструкций для визуальных ответов на медицинские вопросы (arXiv)

Автор: Сяомань Чжан, Чаойи Ву, Цзыхэн Чжао, Вэйсюн Линь, Я Чжан, Яньфэн Ван, Вэйди Се.

Резюме: В этой статье мы сосредоточимся на проблеме медицинских визуальных ответов на вопросы (MedVQA), которая имеет решающее значение для эффективной интерпретации медицинских изображений с жизненно важной клинической информацией. Во-первых, мы переформулируем проблему MedVQA как задачу генерации, которая естественным образом следует за взаимодействием человека и машины. Мы предлагаем генеративную модель для медицинского визуального понимания путем согласования визуальной информации от предварительно обученного кодировщика зрения с большой языковой моделью. Во-вторых, мы создаем масштабируемый конвейер для создания крупномасштабного медицинского визуального набора данных для ответов на вопросы, названного PMC-VQA, который содержит 227 000 пар VQA из 149 000 изображений, охватывающих различные модальности или заболевания. В-третьих, мы предварительно обучаем нашу предложенную модель на PMC-VQA, а затем настраиваем ее на нескольких общедоступных тестах, например, VQA-RAD и SLAKE, значительно превосходя существующую работу. Кроме того, мы предлагаем тестовый набор, прошедший ручную проверку, что значительно сложнее, даже самые лучшие модели с трудом решаются.

2. Открытые медицинские визуальные ответы на вопросы с помощью префиксной настройки языковых моделей (arXiv)

Автор: Том ван Сонсбик, Мохаммад Махди Дерахшани, Ивона Найденкоска, Сис Г. М. Снук, Марсель Ворринг.

Резюме: Медицинские визуальные ответы на вопросы (VQA) являются важной задачей, поскольку они могут привести к более быстрой и точной диагностике и принятию решений о лечении. Большинство существующих методов подходят к этому как к проблеме классификации нескольких классов, которая ограничивает результат предопределенным закрытым набором кураторских ответов. Мы фокусируемся на открытом VQA и, руководствуясь последними достижениями в области языковых моделей, рассматриваем его как генеративную задачу. Используя предварительно обученные языковые модели, мы представляем новый метод, особенно подходящий для небольших наборов медицинских данных, специфичных для предметной области. Чтобы правильно передать медицинские изображения языковой модели, мы разрабатываем сеть, которая сопоставляет извлеченные визуальные признаки с набором обучаемых токенов. Затем, наряду с вопросом, эти обучаемые токены напрямую подсказывают языковую модель. Мы исследуем последние стратегии точной настройки с эффективным использованием параметров для языковых моделей, которые позволяют выполнять точную настройку с эффективным использованием ресурсов и данных. Мы оцениваем наш подход на основных медицинских тестах VQA, а именно Slake, OVQA и PathVQA. Результаты показывают, что наш подход превосходит существующие методы в различных условиях обучения, а также является эффективным с точки зрения вычислений.