- Автоматизированная классификация нарушений звуков китайской речи на основе глубокого обучения (arXiv)
Автор:Яо-Мин Куо, Шанк-Джанг Руан, Ю-Чин Чен, Я-Вэнь Ту
Аннотация: в этой статье описывается система анализа акустических данных, которая помогает в диагностике и классификации нарушений речи у детей с помощью компьютера. Анализ был сосредоточен на выявлении и классификации четырех различных типов китайских искажений. В ходе исследования был собран и сгенерирован речевой корпус, содержащий 2540 стоппинговых, велярных, согласных-гласных и аффрикатных образцов от 90 детей в возрасте 3–6 лет с нормальными или патологическими артикуляционными особенностями. Каждая запись сопровождалась подробной аннотацией из области логопедии. Классификация образцов речи была выполнена с использованием трех хорошо зарекомендовавших себя моделей нейронных сетей для классификации изображений. Карты признаков создаются с использованием трех наборов параметров MFCC, извлеченных из звуков речи и объединенных в трехмерную структуру данных в качестве входных данных модели. Мы используем шесть методов для увеличения данных, чтобы увеличить доступный набор данных, избегая чрезмерного моделирования. В экспериментах исследуется удобство использования четырех различных категорий китайских фраз и иероглифов. Эксперименты с различными подмножествами данных демонстрируют способность системы точно обнаруживать анализируемые нарушения произношения.
2. Инструменты автоматизированной логопедии на основе искусственного интеллекта для людей с нарушениями речи: систематический обзор литературы (arXiv)
Автор:Чинмой Дека, Абхишек Шривастава, Саурабх Наутиал, Правин Чаухан
Аннотация: в этой статье представлен систематический обзор литературы по опубликованным исследованиям автоматизированных инструментов логопедии на основе ИИ для людей с нарушениями речи (SSD). Пандемия COVID-19 инициировала потребность в автоматизированных логопедических инструментах для людей с SSD, что делает логопедическую терапию доступной и доступной. Однако не существует рекомендаций по разработке таких автоматизированных инструментов и требуемой степени их автоматизации по сравнению с людьми-экспертами. В этом систематическом обзоре мы следовали схеме PRISMA, чтобы ответить на четыре исследовательских вопроса: 1) какие типы SSD используются автоматизированными инструментами логопедии на основе ИИ, 2) каков уровень автономии, достигаемый такими инструментами, 3) каковы различные способы вмешательства и 4) насколько эффективны такие инструменты по сравнению с людьми-экспертами. С 2007 по 2022 год в цифровых библиотеках был проведен обширный поиск научных работ, имеющих отношение к нашему исследованию. Результаты показывают, что автоматизированные инструменты логопедии для людей с СДС на основе ИИ привлекают все больше внимания исследователей. Расстройства артикуляции были наиболее часто рассматриваемыми SSD на основе рассмотренных статей. Кроме того, наш анализ показывает, что большинство исследователей предлагали полностью автоматизированные инструменты без учета роли других заинтересованных сторон. Наш обзор показывает, что мобильные и игровые приложения были наиболее частым способом вмешательства. Результаты также показывают, что только несколько исследований сравнивали эффективность таких инструментов с экспертами-логопедами (SLP). В нашей статье представлены последние достижения в этой области, сделан значительный вклад в понимание, основанное на вопросах исследования, и представлены предложения для будущих направлений исследований.
3. Инструменты автоматизированной логопедии на основе искусственного интеллекта для людей с нарушениями речи: систематический обзор литературы (arXiv)
Автор: Чинмой Дека, Абхишек Шривастава, Саурабх Наутиал, Правин Чаухан
Аннотация: в этой статье представлен систематический обзор литературы по опубликованным исследованиям автоматизированных инструментов логопедии на основе ИИ для людей с нарушениями речи (SSD). Пандемия COVID-19 инициировала потребность в автоматизированных логопедических инструментах для людей с SSD, что делает логопедическую терапию доступной и доступной. Однако не существует рекомендаций по разработке таких автоматизированных инструментов и требуемой степени их автоматизации по сравнению с людьми-экспертами. В этом систематическом обзоре мы следовали схеме PRISMA, чтобы ответить на четыре исследовательских вопроса: 1) какие типы SSD используются автоматизированными инструментами логопедии на основе ИИ, 2) каков уровень автономии, достигаемый такими инструментами, 3) каковы различные способы вмешательства и 4) насколько эффективны такие инструменты по сравнению с людьми-экспертами. С 2007 по 2022 год в цифровых библиотеках был проведен обширный поиск научных работ, имеющих отношение к нашему исследованию. Результаты показывают, что автоматизированные инструменты логопедии для людей с СДС на основе ИИ привлекают все больше внимания исследователей. Расстройства артикуляции были наиболее часто рассматриваемыми SSD на основе рассмотренных статей. Кроме того, наш анализ показывает, что большинство исследователей предлагали полностью автоматизированные инструменты без учета роли других заинтересованных сторон. Наш обзор показывает, что мобильные и игровые приложения были наиболее частым способом вмешательства. Результаты также показывают, что только несколько исследований сравнивали эффективность таких инструментов с экспертами-логопедами (SLP). В нашей статье представлены последние достижения в этой области, сделан значительный вклад в понимание, основанное на вопросах исследования, и представлены предложения для будущих направлений исследований.
4. Автоматическое обнаружение нарушения звучания речи в детской речи с использованием апостериорных представлений говорящего (arXiv)
Автор: Си-Иои Нг, Сайми Винг-Йи Нг, Джиаруи Ван, Тан Ли
Аннотация: в этой статье представлен макроскопический подход к автоматическому обнаружению нарушения речевого звука (SSD) в детской речи. Как правило, SSD проявляется стойкими артикуляционными и фонологическими ошибками на определенных фонемах в языке. Расстройство может быть обнаружено путем фокусированного анализа фонем или слов, произносимых ребенком. В настоящем исследовании вместо того, чтобы пытаться обнаруживать отдельные ошибки на уровне телефона и слова, мы предлагаем извлекать репрезентацию на уровне субъекта из длинного высказывания, построенного путем объединения нескольких тестовых слов. Подход проверки говорящего и апостериорные признаки, созданные моделями глубоких нейронных сетей, применяются для получения различных типов целостных представлений. Линейный классификатор обучен отличать неупорядоченную речь от нормальной. В задаче обнаружения SSD у детей, говорящих на кантонском диалекте, экспериментальные результаты показывают, что предложенный подход обеспечивает более высокую производительность обнаружения по сравнению с предыдущим методом, который требует объединения результатов обнаружения на уровне телефона. Использование артикуляционных апостериорных признаков для получения i-векторов из высказываний, состоящих из нескольких слов, обеспечивает невзвешенное среднее запоминание 78,2% и макропоказатель F1 78,0%.