Автор: AI Trends Staff
Достижения в области искусственного интеллекта, лежащие в основе распознавания речи, стимулируют рост рынка, привлекая венчурный капитал и финансирование стартапов, создавая проблемы для известных игроков.
Растущее признание и использование устройств распознавания речи стимулирует рынок, который, согласно оценке Meticulous Research, к 2025 году достигнет 26,8 миллиардов долларов во всем мире. Аналитика. Более высокая скорость и точность являются одними из преимуществ развивающейся технологии.
Одна компания, переживающая этот новый рост, AssemblyAI из Сан-Франциско, предлагает API для распознавания речи, способный расшифровывать видео, подкасты, телефонные звонки и удаленные встречи. Компания была основана генеральным директором Диланом Фоксом в 2017 году и получила поддержку Y Combinator, акселератора стартапов, а также NVIDIA.
У Фокса необычное прошлое для предпринимателя в сфере высоких технологий. Он выпускник Университета Джорджа Вашингтона со степенью в области делового администрирования, экономики бизнеса и государственной политики. Он устроился инженером-программистом по машинному обучению в лабораторию новых продуктов Cisco в Сан-Франциско, где занимался глубокими нейронными сетями и машинным обучением. Ему пришла в голову идея AssemblyAi, и он привлек капитал от Y Combinator, что позволило ему нанять специалистов по данным и инженеров по данным, чтобы запустить технологию.
Спросил в интервью с Тенденции ИИ о том, как он совершил этот переход от бакалавра делового администрирования и экономики к высокотехнологичному предпринимателю, Фокс сказал: «Я научился программировать, что привело меня к машинному обучению. Я искал более сложную программную задачу, которая привела меня к обработке естественного языка, что и привело меня в Cisco». В то время они работали над Siri для Enterprise для Apple.
Чтобы ускорить работу, Cisco искала программное обеспечение для распознавания речи; Фокс занял место кошачьей птицы в поисках. «Мы посмотрели на Nuance», например, признанного лидера рынка и обладателя большего количества программ для распознавания речи, чем его конкуренты. (Ожидается, что сделка по приобретению Nuance компанией Microsoft за 19,6 млрд долларов будет завершена к концу года.) Молодого подающего надежды предпринимателя это не впечатлило. «Было безумно, насколько плохи все варианты с точки зрения точности и с точки зрения разработчика», — заявил он.
Он был впечатлен Twilio, компанией из Сан-Франциско, основанной в 2008 году, которая в том же году выпустила голосовой API Twilio для совершения и приема телефонных звонков, размещенных в облаке. С тех пор компания привлекла 103 миллиона долларов венчурного капитала. «Они устанавливали новые стандарты хорошего API для разработчиков», — сказал Фокс.
Идея Fox заключалась в том, чтобы использовать искусственный интеллект и машинное обучение для достижения «сверхточных результатов и упростить разработчикам внедрение API в свои продукты». Одним из клиентов является CallRail, предлагающий программное обеспечение для отслеживания звонков и маркетинговой аналитики, которое планирует внедрить API AssembyAI, чтобы понять, почему люди звонят. Другие клиенты включают NBC и Wall Street Journal, которые используют продукт для расшифровки контента и интервью и предоставления скрытых субтитров.
«Мы работали над созданием максимально близкого к человеческому качеству распознавания речи. Это была большая работа», — сказал Фокс. Он рассчитывает достичь этого плато в 2022 году.
Он нацелен на компании, включающие распознавание речи в свои продукты, и делает их легкими для покупки. Клиенты платят за использование; за каждую секунду расшифрованного аудио AssemblyAI берет доли цента. Клиенты получают счета ежемесячно. Если клиент использует 10 часов в месяц, это стоит около девяти долларов. Если клиент использует миллион часов в месяц, это стоит около 900 000 долларов.
Распознавание голоса — популярный рынок. «Запускается много новых стартапов», — сказал Фокс, предоставив возможность. «Многие интересные новые предприятия строятся на голосовых данных».
Продукт AssemblyAI может обнаруживать деликатные темы, такие как разжигание ненависти и ненормативную лексику, поэтому клиенты могут сэкономить на модерации человеческого контента.
На просьбу описать, что отличает его технологию, Фокс сказал: «Мы — опытная команда исследователей глубокого обучения», имеющая опыт работы в таких компаниях, как BMW, Apple и Facebook. «Мы создаем очень большие и очень точные модели глубокого обучения, результаты распознавания которых намного точнее, чем при традиционном подходе машинного обучения. Мы строим действительно большие модели, используя передовые технологии нейронных сетей». Он сравнил подход с тем, что OpenAI использует для разработки своей большой языковой модели GPT-3.
Кроме того, они создают функции ИИ поверх транскрипций, чтобы предоставлять сводки аудио- и видеоконтента, которые можно искать и индексировать. «Это выходит за рамки простой транскрипции», — сказал Фокс.
В настоящее время в компании работает 25 сотрудников, и примерно через четыре месяца ожидается их удвоение. Бизнес был хорош. «Существует взрыв аудио- и видеоданных в Интернете, и клиенты хотят иметь возможность воспользоваться этим, поэтому мы видим большой спрос», — сказал Фокс.
Узнайте больше на СборкаAI.