- Анализ восстановления диалогов в виртуальных голосовых помощниках (arXiv)
Автор: Мэттью Карсон Гэлбрейт, Мирейя Гомес и Мартинес
Аннотация: Носители языка часто используют так называемые инициаторы восстановления, чтобы исправить фундаментальные разногласия, возникающие между ними во время речевого общения. Предыдущие исследования в этой области в основном были сосредоточены на использовании инициатора восстановления от человека к человеку. Мы предложили изучить структуру восстановления диалога, в которой инициатором диалога является человек, а стороной, которая инициирует восстановление или отвечает на него, является виртуальный помощник. В этом исследовании изучалось использование инициаторов восстановления на английском и испанском языках с двумя популярными помощниками: Google Assistant и Siri от Apple. Нашей целью было систематизировать различия, если таковые имеются, в ответах голосовых помощников на диалоги, нуждающиеся в ремонте, по сравнению с диалогами между людьми, также нуждающимися в ремонте. В конечном итоге данные показали, что существуют не только различия между стратегиями восстановления диалога между человеком-помощником и человеком-человеком, но также существуют различия между помощниками и изучаемыми языками.
2. Обращение к экранным текстам с помощью голосовых помощников (arXiv)
Автор: Шрути Бхаргава, Ананд Дхут, Инг-Мари Йонссон, Хоанг Лонг Нгуен, Алкеш Патель, Хонг Ю, Винсент Ренкенс.
Аннотация: Голосовые помощники помогают пользователям совершать телефонные звонки, отправлять сообщения, создавать события, перемещаться и делать многое другое. Однако ассистенты имеют ограниченную способность понимать контекст своих пользователей. В данной работе мы стремимся сделать шаг в этом направлении. Наша работа заключается в создании нового опыта, позволяющего пользователям ссылаться на номера телефонов, адреса, адреса электронной почты, URL-адреса и даты на экранах своих телефонов. Наше внимание сосредоточено на понимании ссылок, которое становится особенно интересным, когда на экране присутствует несколько похожих текстов, подобно визуальному заземлению. Мы собираем набор данных и предлагаем облегченную универсальную модель для этого нового опыта. Из-за высокой стоимости непосредственного использования пикселей наша система спроектирована так, чтобы полагаться на текст, извлеченный из пользовательского интерфейса. Наша модель является модульной, что обеспечивает гибкость, улучшенную интерпретируемость и эффективное использование памяти во время выполнения.