Хороший инструмент транскрипции, который точно поймет, что вы говорите, и запишет это

Смотреть видео

Вы когда-нибудь мечтали о хорошем инструменте транскрипции, который точно понимал бы, что вы говорите, и записывал бы это? В отличие от инструментов автоматического перевода YouTube… Я имею в виду, что они хороши, но далеки от совершенства. Просто попробуйте и включите эту функцию для моего видео выше, и вы поймете, о чем я говорю. Что ж, OpenAI только что выпустила довольно мощную модель ИИ с открытым исходным кодом именно для этого: Whisper. Он понимает даже то, что я даже не могу понять, не являясь носителем английского языка (послушайте в видео)! И это работает и для языкового перевода!

Результаты и точность невероятны, но еще круче то, как это работает. Давайте углубимся в это.

Что касается самой модели, Whisper довольно классическая. Он построен на архитектуре преобразователя, объединяя блоки кодировщика и блоки декодера с механизмом внимания, распространяющим информацию между ними.

Он возьмет аудиозапись, разделит ее на 30-секундные фрагменты и обработает их один за другим. Для каждой 30-секундной записи он будет кодировать звук с помощью секции кодировщика и сохранять позицию каждого произнесенного слова, а также использовать эту закодированную информацию, чтобы найти то, что было сказано с помощью декодера.

Декодер будет предсказывать то, что мы называем токенами, исходя из всей этой информации, которая в основном представляет собой каждое произнесенное слово. Затем он повторит этот процесс для следующего слова, используя всю ту же информацию, а также предсказанное предыдущее слово, помогая ему угадать следующее, которое будет иметь больше смысла.

Общая архитектура представляет собой классический кодировщик-декодер, который я рассматривал в нескольких статьях, аналогичный GPT-3 и другим языковым моделям, которые я приглашаю вас проверить для получения дополнительных сведений об архитектуре.

Это работает, так как было обучено более 600 000 часов многоязычных и многозадачных контролируемых данных, собранных из Интернета. Это означает, что они обучили свою аудиомодель так же, как GPT-3, с данными, доступными в Интернете, что сделало ее большой и общей аудиомоделью. Это также делает модель более надежной, чем другие. Фактически, они упоминают, что Whisper приближается к надежности человеческого уровня из-за того, что он обучен на таком разнообразном наборе данных, начиная от клипов, выступлений TED, подкастов, интервью и т. Д., Которые все представляют реальные данные с некоторыми из них. расшифрованы с использованием моделей на основе машинного обучения, а не людей.

Использование таких несовершенных данных, безусловно, снижает возможную точность, но я бы сказал, что это помогает повысить надежность при редком использовании по сравнению с чистыми наборами аудиоданных, созданными людьми, с идеальными транскрипциями.

Наличие такой общей модели само по себе не очень эффективно, так как в большинстве задач она будет побеждена меньшими и более конкретными моделями, адаптированными к поставленной задаче. Но у него есть и другие преимущества. Вы можете использовать такие предварительно обученные модели и настраивать их под свою задачу. Это означает, что вы возьмете эту мощную модель и переобучите ее часть или все целиком с помощью ваших собственных данных. Было показано, что этот метод позволяет создавать гораздо лучшие модели, чем начинать обучение с нуля с вашими данными.

И что еще круче, OpenAI открыл свой код и все остальное вместо API, поэтому вы можете использовать Whisper в качестве предварительно обученной базовой архитектуры, чтобы создавать и создавать более мощные модели для себя.

Некоторые люди уже выпустили такие инструменты, как шепчущий YouTube на Huggingface, вводя jeffisty, беря ссылку на YouTube и создавая транскрипции.

Они также выпустили блокнот Google Colab, чтобы сразу же поиграть с ним.

В то время как некоторые считают, что конкуренция является ключевым фактором, я рад, что OpenAI публикует некоторые из своих разработок, так как я убежден, что такое сотрудничество — лучший способ продвинуться в нашей области. Дайте мне знать, что вы думаете, хотите ли вы видеть больше общедоступных выпусков OpenAI или если вы предпочитаете конечные продукты, которые они создают, такие как DALLE.

Как всегда, вы можете найти больше информации о Whisper в статье и коде, ссылка на который приведена ниже.

Надеюсь, вам понравилась эта статья, и увидимся на следующей неделе с другой замечательной статьей!

Рекомендации

► Рэдфорд, А., Ким, Дж. В., Сюй, Т., Брокман, Г., Макливи, К. и Суцкевер, И., Надежное распознавание речи с помощью крупномасштабного слабого контроля.
►Ссылка на проект: https://openai.com/blog/whisper/
►Код: https://github.com/openai/whisper
►Блокнот Google Colab : https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
►Приложение YouTube Whisperer: https://huggingface.co/spaces/ jeffistyping/Youtube-Whisperer
►Мой информационный бюллетень (Новое приложение AI, еженедельно объясняемое вашим электронным письмам!): https://www.louisbouchard.ai/newsletter/