Умозрительный инструмент машинного обучения для выразительного текста
Я разочарованный каллиграф. Я увлекся возрождением курсивного почерка, когда был школьником в Англии, но не мог заставить ручку идти туда, куда я хотел. Пришлось прибегнуть к более трудоемким способам изготовления букв.
— Мэттью Картер
Скорость и краткость онлайн-текста усугубляют непонимание в современном общении. При написании сообщения на клавиатуре мы можем упустить некоторые тонкости, такие как сарказм и гнев. Мне интересно поразмышлять над созданием инструмента для письма, поддерживающего плавный и выразительный текст. Я начал с вопроса: можем ли мы представить форму письма, которая не делается ни от руки, ни с помощью клавиатуры? При общении с текстом могут ли буквы меняться во время письма и чтения? Это, в дополнение к другим, лишь некоторые из вопросов, которые будут рассмотрены в этой статье.
Активация экрана
Поскольку мы проводим большую часть нашего времени, сидя перед экраном, мы также должны подумать о том, как можно ввести новые инструменты для активации различных жестов, а также движений тела. Идея состоит в том, чтобы создать перформативный инструмент, который переводит позы в буквы. Во время выступления перед экраном буквы предсказываются и отображаются. Интерфейс можно использовать как средство обмена сообщениями или как способ шифрования движения в настройках производительности. Live Letters — это моя попытка создать этот инструмент.
Инструменты видеосвязи были внедрены во все аспекты нашей жизни из-за ограничений самоизоляции, введенных в ответ на COVID-19. Язык тела сложно читать с экрана; речь прерывается, а смысл притупляется. Людям часто приходится уточнять реакцию, используя чат в дополнение к видео и голосу. Физические и объемные визуальные подсказки обычно помогают расшифровать сообщение, но теряются из-за плоского экрана. В проекте «Живые письма» я исследую способ интегрировать больше выразительности в письмо через тело, используя позы в качестве основы для надписи.
Сегодня пересечение тел и технологий широко распространено и органично. Эти эксперименты, а также работа, на которой я сосредоточился в течение последних двух лет, пытаются исследовать и разрушить эти отношения, реконтекстуализируя их через призму дизайна.
В письменной книге человеческие инициалы или буквицы обычно находятся в начале главы и могут отображать сцену или узнаваемого человека, связанного с текстом, внутри и вокруг формы буквы. Иногда иллюстрированные инициалы контрастируют с текстом: они могут изображать непочтительные или юмористические фигуры и сцены. Исторические инициалы, впервые встречающиеся в островных иллюминированных рукописях, были популярны в первой половине VIII века. Эти инициалы, образованные человеческими фигурами, вдохновили это исследование на изучение того, как тело может быть повторно представлено как неотъемлемая часть передачи сообщения.
В основе моего интереса к выразительной типографике лежит проект под названием «Глаза как инструмент», который я завершил во время третьего семестра Йельского университета в 2019 году. Цель состояла в том, чтобы использовать отслеживание взгляда как способ реализовать невидимое отслеживание взгляда. как способ вернуть человеческие черты в механический шрифт, такой как Helvetica.
Live Letters можно разбить на три области: выражение, интерполяция и предсказание.
Выражение
Индикация эмоций с помощью типографики — это то, что я имею в виду под выражением здесь. Исследуя как входные, так и выходные формы букв с помощью различных экспериментов, я пытаюсь исследовать их выразительные возможности. Как инструменты, которые мы используем, влияют на то, как мы читаем текст? Что, если акт записи будет более плавным?
Выходное выражение
Смайлики были изобретены, чтобы ответить на потребность выразить свое эмоциональное состояние и предложить другой диапазон «тона» и чувств через текстовые сообщения, которые отображают определенные эмоции, чтобы компенсировать недостаток исключительно текстовых сообщений. Однако смайлики помогают прояснить замысел автора. Первое поколение смайликов было сгенерировано с использованием текста ASCII. Несколько комбинаций символов использовались для создания разнообразных смайликов. Иногда пользователи пытаются выразить интенсивные смайлики, помещая несколько символов непосредственно друг за другом.
Другая форма самовыражения — это, конечно, наш собственный почерк. Десять лет назад типографу Гансу Эдуарду Мейеру было предложено придумать новый так называемый «базовый шрифт», обучающий письму в швейцарских школах. Вместо того, чтобы обучать курсиву или более современному шрифту без засечек, правительство решило, что должен быть один шрифт. Они хотели, чтобы это было очень читабельно и легко преподавалось. Неудивительно, что это вызвало бурную дискуссию о потере выразительного почерка и страхе, что компьютерная клавиатура заменит ручку и бумагу.
Входное выражение
Подобно человеческим инициалам в рукописях, ввод может быть связан с выражением тела, а вывод — буквой. Этот выразительный ввод может открыть новые возможности для создания более выразительного текста.
В то время как в 16 веке иллюстрированные инициалы в книгах были широко распространены и модны, йога и видеоинструкции могут быть сегодня эквивалентны. Я начал фантазировать: могут ли, например, видеоролики о йоге быть инструментом для отправки зашифрованных сообщений посредством движения тела? Что, если бы мы могли отправлять скрытые сообщения через коммерческие платформы?
Интерполяция
Интерполяция определяется как вычисление значения функции между уже известными значениями.
Интерполяция в 2D
Исторически сложилось так, что большие семейства шрифтов создавались путем ручного расчета толщины штриха между заданными сокращениями (например, для создания среднего сокращения использовались Обычный и Жирный), а затем вручную корректировались результаты, чтобы они выглядели правильно. Сегодня эти семейства создаются с помощью инструментов цифрового рисования, которые позволяют дизайнерам автоматизировать процесс интерполяции.
Изобретенные в 2016 году вариативные шрифты стали очень мощным инструментом в арсенале дизайнера. Это позволяет упаковывать практически бесконечное количество шрифтов в один файл шрифта. Переменные шрифты используют векторы и кривые Безье для создания непрерывного пути между двумя весами.
Адам Форбс и я создали интерактивный инструмент с использованием вариативных шрифтов, которые транскрибируют голос в текст и фиксируют громкость говорящего как вес; шепот тонкий, а крик настолько смелый, что почти неразборчив.
Однако эти инструменты исследовали только интерполяцию между буквами. Можете ли вы также показать, что находится между двумя разными буквами? Используя такой инструмент, как Adobe After Effects, можно переключаться между буквами и стилями.
Так чем же отличается интерполяция с использованием машинного обучения? Используя модель ML, обученную на помеченном человеком наборе данных букв, нам не нужно полагаться на механически определяемые интерполяции, но мы можем воссоздать человеческое понимание сущности «A», «B» и т. д.
В следующем эксперименте с GAN я показываю, как создается интерполяция с использованием программного обеспечения преобразования текста в изображение от Runway ML под названием AttnGan. Мой входной текст был «Буква А», «Буква Б» и т. д., чтобы увидеть, как будет выглядеть визуальная интерпретация. Выходные изображения, предлагающие формы букв, не зависят от интерпретации помеченных изображений в наборе данных.
Созданные изображения выявили некоторые сходства, такие как цветовая палитра, предполагаемое пространственное измерение, а также нерегулярный рисунок наложения на фоне. Интересно, что некоторые буквы действительно напоминали вводную букву, например, «А» или «Х». Артефакты на выходе загадочны, но напоминают интерьер дома, мебель или комнаты.
Интерполяция в 3D
Live Letters расширяет интерполяцию за счет трехмерного человеческого взаимодействия, основанного на времени.
Интерполяция, которая захватывается движением здесь, плавная и плавная.
В приведенном ниже прототипе ввод выражается через реальное движение тела, независимо от того, остается ли фиксированной выходная буква. При интерполяции выходных данных не достигается пространственного выражения.
Интерпретация или предсказание
Чтобы предсказать результат письма с помощью модели машинного обучения, освещение, фон и одежда могут исказить ожидаемые результаты и запутать интерпретацию. Например, при ношении маски для лица можно обмануть ИИ идентификатора разблокировки лица, чтобы получить доступ к телефону. Для Live Letters было бы еще интереснее использовать костюмы, материалы или различные ситуации освещения, чтобы нарушить работу программного обеспечения.
Доска духовного письма для спиритических сеансов демонстрирует аналогичные качества благодаря совершенно бессознательному процессу принятия решений. Доска для спиритических сеансов, также известная как доска духов или говорящая доска, представляет собой плоскую доску, на которой нанесены буквы алфавита, цифры 0–9, слова «да», «нет». К доске прилагается «планшетка» — устройство каплевидной формы, обычно с небольшим окошком в корпусе, используемое для маневрирования по доске. Идея заключалась в том, что два или более человека сидели вокруг доски, клали кончики пальцев на планшетку, задавали вопрос и ошеломленно смотрели, как планшетка перемещается от буквы к букве, излагая ответы, казалось бы, сама по себе. br /> Могут ли эти качества создания сообщения из бессознательного потока движений также привести к интересным результатам с моделью машинного обучения?
Методы
В пяти экспериментах, предшествовавших прототипу инструмента для создания надписей в реальном времени, я изучал Оценку позы, а также Обучаемую машину. Оба этих инструмента позволяют обучить вашу собственную модель распознавать позы. Я обучил свой собственный набор данных позам, которые я делал перед веб-камерой. Затем они позволили мне позировать, и машина предсказывала, какую букву я написал.
Еще один эксперимент, который я попытался провести, заключался в использовании классификатора поз и в p5.js, чтобы наложить предсказанную букву непосредственно на живое изображение.
Третий и самый сложный способ — создать модель обнаружения ключевых кадров с помощью Tensorflow и Google Collab. Этот метод повлечет за собой следующие шаги:
- Создайте набор данных с 26 буквами, сделав снимки + один набор без фиксированных поз букв.
- Пропустите изображения через модель, чтобы получить ключевые кадры.
- Обучите сеть получать выходные данные в виде букв.
- Загрузите изображения в Keras, чтобы изменить их размер до 28x28 пикселей.
- Разверните модель в реальном времени.
Существующую модель классификации изображений под названием Fashion MNIST можно использовать, отформатировав данные, чтобы заменить их существующим набором данных Fashion MNIST. В наборе данных Fashion MNIST прогнозируемым результатом является строковая метка; один персонаж. Однако для набора данных букв тела нам нужно было бы предсказать число (0,1,2,3, ….).
Результаты
Самые интересные результаты были там, где морфинг и интерполяция были видны и выражены, например, в примере After Effects, а также в тексте машинного обучения для изображения AttnGan, потому что выраженные формы были неожиданными и новыми. Кажется, что есть огромный потенциал при включении интерполяции в визуальный вывод, который также имеет пространственное измерение.
Вывод
В выражении, интерполяции и прогнозировании я описал каждый шаг, ведущий к прототипу Live Letter, который использует оценку позы в реальном времени для вывода текста. Подобные инструменты делают общение менее эмоциональным и оставляют место для более эмоционального вклада— что особенно важно, когда жизнь тратится на инструменты для видеочата.
В будущем прототипе я хотел бы, чтобы ввод и вывод были выразительными и пространственными; Инструмент для обмена сообщениями, столь же эмоциональный, как иллюминированные инициалы рукописи, и такой же плавный, как хореографическая танцевальная пьеса.
использованная литература
Классификация изображений TensorFlow Basic:
https://www.tensorflow.org/tutorials/keras/classification
Мода MNIST
https://github.com/zalandoresearch/fashion-mnist
Открыть оценку позы
https://nanonets.com/blog/human-pose-estimation-2d-guide/
https://medium.com/pixel-wise/real-time- оценка позы в веб-камере с использованием openpose-python-2-3-opencv-91af0372c31c
Откройте Pose
https://storage.googleapis.com/tfjs-models/demos/posenet/camera.html
https://ml5js.org/reference/api-PoseNet/< br /> https://medium.com/tensorflow/real-time-human-pose-estimation-in-the-browser-with-tensorflow-js-7dd0bc881cd5
Интерполяция в шрифтовом дизайне
https://www.underware.nl/case-studies/
https://www.eyemagazine.com/feature/article/from-punch-cutters-to -счетчики
Человеческий алфавит
https://www.slideshare.net/sotos1/human-alphabets-2/75
https://press.emcimprint.english.ucsb.edu/the-making- of-a-broadside-ballad/jeremy-chow-ballad-as-body
Исследование выражения эмоций с помощью клавиатуры
https://link.springer.com/article/10.1007/s11042-018-6753-3
Приложение
Спасибо
– Дана Карвас, директор Центра совместных искусств и медиа (CCAM) Йельского университета и критик Йельской школы архитектуры
– Дуглас Дюхайм, Full Stack Developer в Лаборатории цифровых гуманитарных наук Йельского университета для ваши советы и поддержка.
– Нина Штёссингер, старший дизайнер шрифтов в Frere-Jones Type и преподаватель шрифтового дизайна в Йельской школе искусств