В недалеком будущем существует мир, в котором книги, которые мы читаем, электронные письма, которые мы получаем, и даже песни, под которые мы поем, будут продуктом генерации естественного языка (NLG), способности технологий создавать человекоподобные тексты. контента с использованием искусственного интеллекта.

Примирение с такой реальностью является ключом к более плавной ассимиляции в современном мире. Фактически, несколько отраслей уже приближаются к этому будущему, интегрируя эту технологию в части своего бизнеса. Так что будущее в каком-то смысле уже наступило.

В 2017 году газета The Washington Post объявила, что будет расширять освещение футбольных матчей старших классов с помощью Heliograph (своего собственного генератора контента на основе ИИ), чтобы попытаться дать своим редакторам возможность сосредоточиться на более подробных сведениях. составление отчетов.

В 2018 году компания Google сделала важный шаг в развитии компьютерного контента, выпустив новую методику обучения обработке естественного языка с открытым исходным кодом под названием BERT (представления двунаправленного кодировщика от трансформеров). Двунаправленность относится к его способности понимать двусмысленность языка (например, различать время и дату и есть финик). Он также отличается от других моделей обучения тем, что изучает взаимосвязь между предложениями и точно применяет их для предварительной подготовки глубоких нейронных сетей.

В 2019 году (апрель) компания Springer опубликовала свою первую книгу, сгенерированную компьютером. В духе Washington Post эта технология описывалась как помогающая исследователям эффективно справляться с информационной перегрузкой в ​​этой дисциплине. Введение в книгу, оглавление и ссылки были созданы самостоятельно.

Эти примеры представляют собой выборку последних изменений в NLG. Несмотря на то, что это приложение применяется в более функциональных пространствах (обычно наслоенных с взаимодействием с человеком), включая чаты колл-центра, интеллектуальный текст и электронная почта получили широкое распространение. Граница между пониманием того, когда контент, который вы читаете, создан человеком, компьютером или смесью того и другого, уже размыта.

Текущий хоум-ран в генерации естественного языка (NLG) с помощью искусственного интеллекта (ИИ) — это создание основного удобочитаемого контента из структурированного источника данных. Чтобы помочь алгоритму улучшить естественность чтения создаваемого им контента, необходима петля обратной связи — хотя, основываясь на количестве исследований и скорости развития в этой области, реалистично предположить, что высококачественный творческий контент не за горами. .

В 2011 году Google начал экспериментировать со структурированными данными и в сотрудничестве с Microsoft и Yahoo, а позже объявил о schema.org — совместной работе с открытым исходным кодом для структурирования информации в Интернете и за его пределами. Это позволило Google лучше понимать и извлекать релевантный контент. Эта концепция претерпела существенные изменения за последние девять лет и продолжает изменять то, как люди просматривают результаты поиска в Интернете. Google называет представление этих данных расширенными результатами. Может ли сочетание исследований и разработок в области ИИ и NLG вместе с более структурированной версией крупнейшего в мире источника данных стать идеальным катализатором для перехода машинно-генерируемого контента на новый уровень? И как мы будем защищаться от опасностей?

Когда дело доходит до законодательства об использовании ИИ, основное внимание по-прежнему уделяется военному вооружению, и даже в этом случае — по крайней мере, в США — ни одна из сторон не стремится издавать законы; основное внимание по-прежнему уделяется исследованиям. Военное использование ИИ в настоящее время рассматривается скорее как вспомогательное средство, чем как самостоятельное оружие. Лидеры науки и техники, включая Стивена Хокинга, Илона Маска и Шейна Легга, публично заявили о своей уверенности в том, что ИИ представляет реальную угрозу для существования человечества. Хотя это может быть спекулятивным, стоит подумать, может ли NLG представлять более непосредственную угрозу.

Поддерживаемый Маском OpenAI недавно отказался выпустить свою технологию дипфейков, которая может создавать поддельный текст из ограниченного ввода — поскольку она уже обучена на более чем 40 миллионах веб-страниц — из-за опасений злоупотребления, пока они исследуют ее потенциальное применение. Если этот тип NLG находится в стадии разработки, сколько времени пройдет, прежде чем он станет массовым и доступным в массовом порядке, и как нам убедиться, что мы к этому готовы?

• Должны ли мы узаконить маркировку контента, созданного ИИ?

• В чем отличие искусственного интеллекта от создания контента с помощью человека?

• Как NLG повлияет на работу с контентом?

• Как мы защищаемся от предвзятости в NLG?

И постепенно:

• Можем ли мы использовать NLG для лучшего обобщения и понимания сложных вопросов?

• Можем ли мы помочь в обучении, упростив учебный материал и сделав его более точным?

• Можем ли мы уменьшить предвзятость, анализируя человеческий контент с помощью NLG?

Эмоциональный фактор реален. Что вы почувствуете, прочитав книгу, написанную без участия человека, которая станет классикой, бестселлером или даже вашей любимой? Ведь это неизбежность? Если ИИ может создавать контент, более привлекательный для аудитории, будь то фактическая точность или эмоциональная креативность, в чем польза человеческой альтернативы?

NLG как тема, не говоря уже о ее всеохватывающей матери ИИ, является сложной, захватывающей и далеко идущей, и она станет гораздо более распространенной. Нам необходимо продумать определение, маркировку и управление NLG, чтобы убедиться, что мы можем использовать его для улучшения нашего общества и гармоничного сосуществования с ним.

Перспектива будущего с NLG, безусловно, захватывающая, и предприятия и частные лица, работающие с контентом, должны убедиться, что они готовы к возможным грядущим изменениям. Как и в случае с любой новой технологией, если вы не будете в курсе достижений и преимуществ (изучая, как она работает и как ее использовать), она может быстро стать подавляющей, и вы можете остаться позади.

Если вы управляете бизнесом, и особенно если этот бизнес зависит от создания контента, было бы неплохо попытаться повысить осведомленность ваших соответствующих команд (редакционных, технических и продуктовых). Начните с того, что выделите время для обсуждения того, как другие компании используют NLG, и подумайте, как ваши могут извлечь выгоду из этих достижений. Затем вы можете согласовать свои дорожные карты для тестирования реалистичных приложений. Гораздо лучше стать первопроходцем (часто новые инструменты бесплатны) и понять преимущества и ограничения, чем опаздывать и играть в догонялки.

Наша компания Proofed изучает NLG, BERT и его применение в индустрии корректуры и редактирования, а также взвешивает преимущества включения ИИ в процесс корректуры и редактирования. Это поможет нам анализировать текст, который мы редактируем, и изменения, которые мы вносим, ​​чтобы улучшить наши человеческие процессы редактирования и позволить редакторам быть более последовательными и продуктивными. И хотя мы не пытаемся использовать NLG для написания романа в ближайшее время, мы пытаемся использовать его, чтобы сделать работу наших редакторов более тщательной. Есть ли способ использовать NLG в своем бизнесе для повышения качества предоставляемых вами услуг?