Новый инструмент ПРООН может помочь экспертам лучше понять свои данные

Может ли такая организация, как Программа развития ООН (ПРООН), иметь слишком много данных? Вероятно, нет, но эксперты из Независимого отдела оценки (НОО) UNP, группы, которой поручено проводить объективную оценку проектов, быстро поняли, что чем больше отчетов они имели доступ, тем труднее было просто извлечь своевременную и актуальную информацию. из-за работы, необходимой для обработки информации.

Их решение? AIDA, что является сокращением от Искусственный интеллект для аналитики развития. Этот инструмент, разработанный в сотрудничестве с Международным коммутационным центром ООН и AWS, использует машинное обучение для обеспечения упорядоченного доступа к подробной информации из тысяч неструктурированных документов.

Первоначально мы упомянули эту технологию в нашем обзоре инноваций на Всемирном форуме данных ООН. В следующей статье мы подробно разберем этот инструмент, объяснив, откуда он взялся, что он делает, как вы можете его использовать и чего ожидать от него в будущем.

Больше данных может означать больше проблем

Организация Объединенных Наций с ее более чем 30 дочерними организациями и десятками тысяч сотрудников, включая экспертов во всех мыслимых областях, известна своей продуктивной способностью создавать документы. Ресурсный центр оценки (ERC) ПРООН, который отслеживает прогресс и реализацию проектов развития по всему миру, содержит более 6000 документов в различных форматах файлов и структурах отчетов. Сотни тысяч страниц анализа доступны только для небольшого сегмента работы ООН, поэтому регулярно требуются дни исследований только для того, чтобы понять успехи и неудачи в предыдущих подобных проектах.

Знания, содержащиеся в бесчисленных технических документах, многие из которых состоят из сотен страниц и требуют недель исследований для их создания, полезны только в том случае, если к ним обращаются. Согласно исследованию Всемирного банка собственных документов, 31% отчетов о политике никогда не загружаются, а 87% никогда не цитируются.

Почему все эти знания остаются неиспользованными? Короткий ответ: анализ неструктурированных данных занимает слишком много времени. Нередко наиболее важные выводы документа прячутся глубоко в тексте PDF-файла. Это требует подробного ручного поиска и часто может упустить важные результаты, найденные в косвенно связанных отчетах.

Признавая ценность доступной информации, а также трудности работы с данными в различных текстовых документах, сотрудники IEO приступили к разработке нового инструмента, облегчающего анализ. Для этого они использовали возможности машинного обучения для извлечения, классификации и маркировки данных, содержащихся в тысячах официальных документов.

Что действительно является революционным в AIDA, так это ее способность интеллектуально искать и анализировать неструктурированные данные из более чем 6000 отчетов об оценке. AIDA может анализировать это огромное количество информации вплоть до уровня абзаца, извлекая именно то, что нужно, из огромных массивов информации за считанные секунды.
-Оскар А. Гарсия, ПРООН/НОО

Как работает АИДА?

В то время как специфика довольно техническая, концепции, лежащие в основе AIDA, просты.

Во-первых, отчеты импортируются и конвертируются из PDF или DOC в обычный текст. Эти текстовые источники далее разбиваются на более мелкие компоненты, такие как абзацы и предложения. Используя различные алгоритмы машинного обучения, эти более мелкие элементы классифицируются, чтобы конкретно определить, содержат ли они какие-либо выводы, выводы или рекомендации. Им также присваиваются тематические метки, чтобы облегчить дальнейший поиск. На протяжении всего этого процесса используется подход «человек в цикле», при котором обученный человек проверяет прогресс и дает обратную связь для дальнейшего уточнения и улучшения результатов.

После того, как эти тысячи неструктурированных документов будут обработаны, проанализированы и помечены, их можно будет искать более эффективными способами. ПРООН разработала веб-портал, чтобы упростить эту задачу. Вместо того, чтобы просматривать сотни документов, которые исследователь может счесть потенциально полезными на основе названия, пользователь может просто искать ключевые темы, возвращая конкретную релевантную информацию, которую можно экспортировать, а затем проанализировать.

На практике AIDA выглядит как простая поисковая система. Но под капотом он обеспечивает доступ к гораздо более сложной и мощной системе определения важных тем. Его сила заключается не в его способности находить фразы, а скорее в его способности определять темы и, что более важно, обобщающие утверждения.

Тем, кто хочет углубиться в технические основы этого инструмента, мы настоятельно рекомендуем следующую статью от AWS, одного из партнеров ПРООН по этому проекту:



Как я могу использовать AIDA?

Простой. Перейдите на целевую страницу AIDA и попробуйте сами:

AIDA: искусственный интеллект для аналитики развития

ПРООН создала краткое руководство, которое вы можете просмотреть, чтобы быстро освоить интерфейс:

Следует отметить, что AIDA по-прежнему является преимущественно текстовым инструментом. Он разработан, чтобы помочь исследователям найти соответствующую информацию из письменных отчетов. Он не предназначен для создания табличных данных, которые можно было бы использовать для отслеживания тенденций заражения ВИЧ с течением времени. Для таких данных мы рекомендуем такие ресурсы, как Глобальные базы данных SDG.

Эффективно находя соответствующую информацию, пользователи могут быстро делать выводы о ранее выполненной работе.

AIDA уже доказала свою эффективность в использовании как индуктивного, так и дедуктивного методов анализа. Благодаря индуктивному подходу система упростила выявление новых идей из доказательной базы. Благодаря дедуктивному подходу система упростила выявление доказательств, подтверждающих предыдущие заявления.
-IOE

Что дальше в развитии AIDA?

Описанные до сих пор функции AIDA — это всего лишь реализация Фазы 1 в соответствии с IOE. В настоящее время идет разработка Фазы 2, и мы можем ожидать несколько улучшений в ближайшем будущем.

Расширенная база знаний

Команда AIDA планирует выйти за пределы текущего корпуса только материалов ERC, чтобы включить информацию из других источников. В связи с необходимостью проверки поступающих отчетов это, скорее всего, начнется с других документов ПРООН, а затем будет распространено на другие аффилированные учреждения ООН.

Алгоритмические улучшения

В ближайшие месяцы мы можем ожидать улучшения конвейера данных от приема документов до извлечения и маркировки информации. Эти дополнительные улучшения будут продолжать повышать полезность инструмента и результатов.

Добавление анализа настроений

Может быть полезно быстро извлечь все выводы и рекомендации, связанные с такой программой, как прямые денежные переводы, но как мы можем быстро узнать, были ли эти подходы эффективными? Автоматически классифицируя эти текстовые заключения как положительные, нейтральные или отрицательные, исследователи могут сразу почувствовать результаты.

Перевод

В настоящее время 20% документов ООН не на английском языке. В настоящее время ПРООН работает над добавлением инструментов перевода в AIDA, чтобы можно было искать и использовать документы не на английском языке.

Обобщение и генерация идей

На данный момент AIDA сосредоточилась на идентификации информации. Исследователи все еще должны интерпретировать данные и делать свои собственные выводы. Команда разработчиков изучает варианты автоматического суммирования возвращенных результатов, выявления ранее неизвестных тематических связей и получения ключевых идей. Учитывая недавние впечатляющие результаты, которые мы получили от таких инструментов, как ChatGPT, это кажется естественным следующим шагом. Однако это подводит нас к следующему пункту.

Продолжение этических соображений

Хотя такие инструменты, как ChatGPT, показали, что они хорошо справляются с такими задачами, как обобщение документов, они не лишены недостатков. Например, когда алгоритм определяет, что важно из списка выводов, нельзя упускать из виду риски предвзятости (известные или неизвестные). Точно так же эти инструменты, как известно, приводят к галлюцинациям. Это может не иметь большого значения, если вы используете ChatGPT, чтобы написать стихотворение о доказательствах геометрии, но когда дело доходит до международного развития, это риск, который нельзя игнорировать.

По этой причине разработчики AIDA продолжают инвестировать время и ресурсы в этичное использование любых инструментов ИИ.

Реализация API

Последним техническим инструментом, который может находиться в процессе разработки, является разработка API, который позволит пользователям создавать свои собственные инструменты на основе этой технологии.

Узнать больше

Все упомянутые выше улучшения Этапа 2 обсуждались на Всемирном форуме данных ООН 2023 года. Если вы хотите узнать больше об AIDA и ее разработке, мы настоятельно рекомендуем вам посмотреть трансляцию сессии:

Заключение

AIDA представляет собой инновационный шаг вперед в управлении огромными объемами информации, генерируемой ООН. Используя алгоритмы машинного обучения для эффективного анализа, классификации и маркировки данных в тысячах разнообразных документов, AIDA способна значительно упростить процесс извлечения значимой информации из этого обширного хранилища знаний.

Несмотря на то, что AIDA уже является мощным инструментом в его нынешнем виде, будущие разработки обещают еще большую полезность в будущем. Наша команда с нетерпением ждет возможности следить за прогрессом и поощрять разработку других подобных инструментов, которые помогут использовать возможности данных для продвижения международного развития.

Источники

При создании этой статьи использовались следующие ресурсы. Мы включили их, чтобы вы могли глубже погрузиться в эту новую технологию.

Официальные ссылки

Статьи

Мультимедиа

SDGCounting — это программа StartingUpGood, которая отслеживает ход подсчета и измерения успеха ЦУР. Следите за нами в Твиттере.