Amazon Transcribe — это полностью управляемый сервис автоматического распознавания речи (ASR), который упрощает добавление возможностей преобразования речи в текст в ваши приложения. Сегодня мы рады объявить о системе следующего поколения, основанной на модели речевого фундамента с многомиллиардным параметром, которая расширяет автоматическое распознавание речи до более чем 100 языков. В этом посте мы обсудим некоторые преимущества этой системы, то, как ее используют компании и с чего начать. Ниже мы также приводим пример вывода транскрипции.
Модель речевой основы Transcribe обучается с использованием лучших в своем классе алгоритмов с самоконтролем для изучения присущих универсальных моделей человеческой речи на разных языках и акцентах. Он обучен на миллионах часов неразмеченных аудиоданных на более чем 100 языках. Рецепты обучения оптимизируются посредством интеллектуальной выборки данных, чтобы сбалансировать данные обучения между языками, гарантируя, что традиционно недостаточно представленные языки также достигают высокого уровня точности.
Carbyne — компания-разработчик программного обеспечения, которая разрабатывает облачные критически важные решения для контакт-центров для служб экстренной помощи. Миссия Карбайна — помогать спасателям экстренных служб спасать жизни, и язык не может помешать достижению их целей. Вот как они используют Amazon Transcribe для выполнения своей миссии:
«Carbyne Live Audio Translation на базе искусственного интеллекта напрямую направлена на помощь в улучшении реагирования на чрезвычайные ситуации для 68 миллионов американцев, которые говорят дома на другом языке, кроме английского, в дополнение к 79 миллионам иностранных гостей, приезжающих в страну ежегодно. Используя новую многоязычную базовую модель Amazon Transcribe на основе ASR, Carbyne будет еще лучше подготовлена к демократизации служб экстренной помощи, спасающих жизни, потому что Every. Человек. Имеет значение.
– Алекс Дизенгоф, соучредитель и технический директор Carbyne.
Используя модель речевой основы, Amazon Transcribe обеспечивает значительное повышение точности на 20–50 % для большинства языков. В телефонной речи, которая представляет собой сложную область с дефицитом данных, повышение точности составляет от 30% до 70%. Помимо существенного повышения точности, эта большая модель ASR также обеспечивает улучшение читаемости за счет более точной пунктуации и использования заглавных букв. С появлением генеративного искусственного интеллекта тысячи предприятий используют Amazon Transcribe, чтобы получить ценную информацию из своего аудиоконтента. Благодаря значительному повышению точности и поддержке более 100 языков Amazon Transcribe окажет положительное влияние на все подобные варианты использования. Все существующие и новые клиенты, использующие Amazon Transcribe в пакетном режиме, могут получить доступ к распознаванию речи на основе модели речи без каких-либо изменений в конечной точке API или входных параметрах.
Новая система ASR предоставляет несколько ключевых функций на всех более чем 100 языках, связанных с простотой использования, настройкой, безопасностью пользователей и конфиденциальностью. К ним относятся такие функции, как автоматическая пунктуация, настраиваемый словарь, автоматическая идентификация языка, дневникирование говорящих, оценки достоверности на уровне слов и настраиваемый словарный фильтр. Расширенная поддержка системой различных акцентов, шумовой среды и акустических условий позволяет вам получать более точные выходные данные и тем самым помогает эффективно внедрять голосовые технологии в ваши приложения.
Благодаря высокой точности Amazon Transcribe при различных акцентах и условиях шума, поддержке большого количества языков и широкому набору дополнительных функций тысячи предприятий получат возможность получить ценную информацию из своего аудиоконтента, а также повысить доступность и возможность обнаружения своего аудио- и видеоконтента в различных доменах. Например, контакт-центры расшифровывают и анализируют звонки клиентов, чтобы выявить ценную информацию и впоследствии улучшить качество обслуживания клиентов и производительность агентов. Производители контента и распространители мультимедиа автоматически генерируют субтитры с помощью Amazon Transcribe, чтобы улучшить доступность контента.
Начните работу с Amazon Transcribe
Вы можете использовать интерфейс командной строки AWS (AWS CLI), консоль управления AWS и различные SDK AWS для пакетной транскрипции и продолжать использовать тот же код. StartTranscriptionJob
API, позволяющий получить преимущества в производительности от расширенной модели ASR без необходимости вносить какие-либо изменения в код или параметры с вашей стороны. Дополнительную информацию об использовании интерфейса командной строки AWS и консоли см. в разделах «Транскрибирование с помощью AWS CLI» и «Транскрибирование с помощью консоли управления AWS» соответственно.
Первым шагом является загрузка медиафайлов в корзину Amazon Simple Storage Service (Amazon S3), службу объектного хранилища, созданную для хранения и извлечения любого объема данных из любого места. Amazon S3 предлагает лучшие в отрасли надежность, доступность, производительность, безопасность и практически неограниченную масштабируемость по очень низкой цене. Вы можете сохранить расшифровку в собственной корзине S3 или позволить Amazon Transcribe использовать безопасную корзину по умолчанию. Дополнительные сведения об использовании корзин S3 см. в разделе Создание, настройка и работа с корзинами Amazon S3.
Выход транскрипции
Amazon Transcribe использует представление JSON для вывода. Он предоставляет результат транскрипции в двух разных форматах: текстовом формате и подробном формате. Ничего не меняется в отношении конечной точки API или входных параметров.
Текстовый формат предоставляет расшифровку в виде блока текста, тогда как подробный формат предоставляет расшифровку в виде своевременно упорядоченных расшифрованных элементов вместе с дополнительными метаданными для каждого элемента. Оба формата существуют параллельно в выходном файле.
В зависимости от функций, выбранных вами при создании задания на транскрипцию, Amazon Transcribe создает дополнительные и расширенные представления результата транскрипции. См. следующий пример кода:
Мнения следующие:
- Стенограммы – Представлено
transcripts
элемент, он содержит только текстовый формат стенограммы. В многоканальных сценариях с несколькими говорящими объединение всех расшифровок осуществляется в виде одного блока. - Динамики – Представлено
speaker_labels
элемент, он содержит текст и подробные форматы стенограммы, сгруппированные по докладчикам. Он доступен только в том случае, если включена функция нескольких динамиков. - каналы – Представлено
channel_labels
элемент, он содержит текст и детализированные форматы стенограммы, сгруппированные по каналам. Он доступен только в том случае, если включена функция многоканального просмотра. - Предметы – Представлено
items
элемент, он содержит только детализированный формат стенограммы. В многоканальных сценариях с несколькими динамиками элементы обогащаются дополнительными свойствами, указывающими динамик и канал. - Сегменты – Представлено
segments
элемент, он содержит текст и подробные форматы стенограммы, сгруппированные по альтернативной транскрипции. Он доступен только в том случае, если включена функция альтернативных результатов.
Заключение
В AWS мы постоянно внедряем инновации ради наших клиентов. Расширяя языковую поддержку Amazon Transcribe на более чем 100 языков, мы даем нашим клиентам возможность обслуживать пользователей с разным языковым опытом. Это не только повышает доступность, но и открывает новые возможности для общения и обмена информацией в глобальном масштабе. Чтобы узнать больше о функциях, обсуждаемых в этом посте, посетите страницу функций и пост «Что нового».
Об авторах
Сумит Кумар — главный менеджер по продукту и технический специалист в команде AWS AI Language Services. У него 10-летний опыт управления продуктами в различных областях, и он увлечен искусственным интеллектом и машинным обучением. Помимо работы Сумит любит путешествовать, играть в крикет и лаун-теннис.
Вивек Сингх — старший менеджер по управлению продуктами в команде AWS AI Language Services. Он возглавляет группу продуктов Amazon Transcribe. До прихода в AWS он занимал должности по управлению продуктами в различных других организациях Amazon, таких как отдел потребительских платежей и розничная торговля. Вивек живет в Сиэтле, штат Вашингтон, и любит бегать и ходить в походы.