1. Проверьте свои факты и попробуйте еще раз: улучшение моделей больших языков с помощью внешних знаний и автоматизированной обратной связи (arXiv)

Автор: Баолинь Пэн, Мишель Галлей, Пэнчэн Хэ, Хао Чэн, Юцзя Се, Ю Ху, Цююань Хуан, Ларс Лиден, Чжоу Ю, Вэйчжу Чен. », Цзяньфэн Гао

Аннотация: Большие языковые модели (LLM), такие как ChatGPT, способны генерировать человекоподобные, беглые ответы для многих последующих задач, например, ориентированный на задачу диалог и ответы на вопросы. Тем не менее, применение LLM в реальных критически важных приложениях остается сложной задачей, главным образом из-за их склонности генерировать галлюцинации и неспособности использовать внешние знания. модули plug-and-play. Наша система заставляет LLM генерировать ответы, основанные на консолидированных внешних знаниях, например, хранящихся в базах данных для конкретных задач. Он также итеративно пересматривает подсказки LLM для улучшения ответов модели, используя обратную связь, генерируемую функциями полезности, например, оценку фактической достоверности ответа, сгенерированного LLM. Эффективность LLM-Augmenter подтверждена эмпирически на двух типах критически важных сценариев: диалоге, ориентированном на задачу, и ответах на открытые вопросы. LLM-Augmenter значительно уменьшает галлюцинации ChatGPT, не жертвуя беглостью и информативностью его ответов. Мы делаем исходный код и модели общедоступными

2. CHiLL: Извлечение пользовательских интерпретируемых функций Zero-shot из клинических заметок с помощью больших языковых моделей (arXiv)

Автор: Денис Джеред Макинерни, Джеффри Янг, Ян-Виллем ван де Меент, Байрон С. Уоллес.

Аннотация: Большие языковые модели (LLM) привели к быстрому и значительному прогрессу в НЛП и теперь предлагают мощные возможности с небольшими или нулевыми шагами для новых задач, уменьшая потребность в аннотациях. Это особенно интересно для медицинской сферы, в которой надзор часто скуден и дорог. В то же время прогнозы моделей редко бывают настолько точными, чтобы им можно было слепо доверять. Поэтому клиницисты склонны отдавать предпочтение «интерпретируемым» классификаторам, а не непрозрачным LLM. Например, инструменты прогнозирования рисков часто представляют собой линейные модели, определяемые на основе созданных вручную предикторов, которые необходимо с большим трудом извлекать из электронных медицинских карт. Мы предлагаем CHiLL (Создание латентных данных высокого уровня), который использует LLM, чтобы разрешить спецификацию высокоуровневых функций линейных моделей на естественном языке посредством извлечения нулевых функций с использованием запросов, составленных экспертами. Этот подход обещает дать врачам возможность использовать свой опыт в предметной области для создания характеристик, которые клинически значимы для интересующей последующей задачи, без необходимости вручную извлекать их из необработанных EHR (как это часто делается сейчас). Нас мотивирует задача прогнозирования риска в реальном мире, но в качестве воспроизводимого прокси мы используем данные MIMIC-III и MIMIC-CXR, а также стандартные прогностические задачи (например, 30-дневную повторную госпитализацию) для оценки нашего подхода. Мы обнаружили, что линейные модели, использующие автоматически извлекаемые функции, сравнимы по производительности с моделями, использующими эталонные функции, и обеспечивают большую интерпретируемость, чем линейные модели, использующие функции «мешка слов». Мы проверяем, соответствуют ли изученные веса признаков клиническим ожиданиям.