У меня есть два аудиофайла, в которых предложение читается (как пение песни) двумя разными людьми. Поэтому они имеют разную длину. Это просто вокал, без инструментов.
A1: Аудиофайл 1
A2: Аудиофайл 2
Пример предложения: "Lorem ipsum dolor sit amet, ..."
Я знаю время, когда каждое слово начинается и заканчивается на A1. И мне нужно автоматически найти, во сколько каждое слово начинается и заканчивается в A2. (любой язык, предпочтительно Python или C#)
Время сохраняется в формате XML. Итак, я могу разделить файл A1 по словам. Итак, как найти звук слова в другом аудио с другой длительностью (слова) и другим голосом?