Возможно, пройдет некоторое время, прежде чем мы это узнаем. Сегодняшнее объявление OpenAI о Sora является техническим дразнением, и компания заявляет, что в настоящее время у нее нет планов публиковать ее. Вместо этого сегодня OpenAI впервые начнет делиться моделью со сторонними тестировщиками безопасности.
В частности, фирма обеспокоена возможным злоупотреблением фальшивыми, но фотореалистичными видео. «Мы внимательно относимся к развертыванию здесь и проверяем, что все наши базы охвачены, прежде чем передать это в руки широкой публике», — говорит Адитья Рамеш, ученый из OpenAI, который создал фирменную модель преобразования текста в изображение. ДАЛЛ-Э.
Но OpenAI планирует запуск продукта когда-нибудь в будущем. Помимо тестировщиков безопасности, компания также делится моделью с избранной группой видеомейкеров и художников, чтобы получить отзывы о том, как сделать Sora максимально полезной для творческих профессионалов. «Другая цель — показать всем, что нас ждет на горизонте, дать представление о том, на что будут способны эти модели», — говорит Рамеш.
Для создания Sora команда адаптировала технологию DALL-E 3, последней версии флагманской модели преобразования текста в изображение OpenAI. Как и большинство моделей преобразования текста в изображение, DALL-E 3 использует так называемую модель диффузии. Они обучены превращать мешанину случайных пикселей в картинку.
Сора использует этот подход и применяет его к видео, а не к неподвижным изображениям. Но исследователи добавили к этому еще один метод. В отличие от DALL-E или большинства других генеративных видеомоделей, Sora сочетает свою модель диффузии с типом нейронной сети, называемой трансформатором.
Трансформаторы отлично справляются с обработкой длинных последовательностей данных, например слов. Это сделало их особым соусом в больших языковых моделях, таких как GPT-4 от OpenAI и Gemini от Google DeepMind. Но видео не состоят из слов. Вместо этого исследователям пришлось найти способ разрезать видео на куски, с которыми можно было бы обращаться так, как если бы они были. Подход, который они придумали, заключался в том, чтобы разбить видео на кусочки как в пространстве, так и во времени. «Это как если бы у вас была стопка всех видеокадров, и вы вырезали из нее маленькие кубики», — говорит Брукс.
Преобразователь внутри Sora может затем обрабатывать эти фрагменты видеоданных почти так же, как преобразователь внутри большой языковой модели обрабатывает слова в блоке текста. Исследователи говорят, что это позволило им обучить Сору гораздо большему количеству типов видео, чем другим моделям преобразования текста в видео, включая различные разрешения, продолжительность, соотношение сторон и ориентацию. «Это действительно помогает модели», — говорит Брукс. «Это то, о чем мы не знаем ни одной существующей работы».
OpenAI хорошо осознает риски, связанные с генеративной видеомоделью. Мы уже наблюдаем крупномасштабное злоупотребление дипфейковыми изображениями. Фотореалистичное видео выводит это на новый уровень.