NVIDIA чистая марка ммикросервисы теперь интегрируется с Amazon SageMaker, что позволяет развертывать ведущие в отрасли модели больших языков (LLM) и оптимизировать производительность и стоимость моделей. Вы можете развернуть самые современные LLM за считанные минуты, а не дни, используя такие технологии, как NVIDIA ТензорРТ, NVIDIA ТензорРТ-LLMи Сервер вывода NVIDIA Triton на инстансах с ускорением NVIDIA, размещенных на SageMaker.
НИМ, часть NVIDIA AI для предприятий Программная платформа, представленная на торговой площадке AWS, представляет собой набор микросервисов вывода, которые привносят в ваши приложения возможности современных LLM, обеспечивая обработку естественного языка (NLP) и возможности понимания, независимо от того, разрабатываете ли вы чат-ботов или суммируете документы. или реализации других приложений на базе НЛП. Вы можете использовать готовые контейнеры NVIDIA для размещения популярных LLM, оптимизированных для конкретных графических процессоров NVIDIA для быстрого развертывания, или использовать инструменты NIM для создания собственных контейнеров.
В этом посте мы даем общее представление о NIM и показываем, как его можно использовать с SageMaker.
Введение в NVIDIA NIM
NIM предоставляет оптимизированные и предварительно созданные механизмы для множества популярных моделей для вывода. Эти микросервисы поддерживают различные LLM, такие как Llama 2 (7B, 13B и 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona и Code Llama 70B, «из коробки», используя предварительно установленные созданы механизмы NVIDIA TensorRT, адаптированные для конкретных графических процессоров NVIDIA для максимальной производительности и использования. Эти модели подобраны с оптимальными гиперпараметрами для обеспечения производительности размещения моделей и простоты развертывания приложений.
Если ваша модель не входит в набор курируемых моделей NVIDIA, NIM предлагает необходимые утилиты, такие как Model Repo Generator, который упрощает создание механизма с ускорением TensorRT-LLM и каталога модели в формате NIM с помощью простого файла YAML. Кроме того, интегрированная серверная часть vLLM сообщества обеспечивает поддержку передовых моделей и новых функций, которые, возможно, не были полностью интегрированы в стек, оптимизированный для TensorRT-LLM.
Помимо создания оптимизированных LLM для вывода, NIM предоставляет передовые технологии хостинга, такие как оптимизированные методы планирования, такие как пакетная обработка в реальном времени, которые могут разбить общий процесс генерации текста для LLM на несколько итераций модели. При пакетной обработке в реальном времени вместо ожидания завершения всего пакета перед переходом к следующему набору запросов среда выполнения NIM немедленно удаляет готовые последовательности из пакета. Затем среда выполнения начинает выполнять новые запросы, в то время как другие запросы все еще выполняются, что позволяет максимально эффективно использовать ваши вычислительные экземпляры и графические процессоры.
Развертывание NIM в SageMaker
NIM интегрируется с SageMaker, что позволяет вам размещать ваши LLM с оптимизацией производительности и затрат, одновременно используя возможности SageMaker. При использовании NIM в SageMaker вы можете использовать такие возможности, как масштабирование количества экземпляров для размещения вашей модели, выполнение синих/зеленых развертываний и оценка рабочих нагрузок с помощью теневого тестирования — и все это с лучшими в своем классе возможностями наблюдения и мониторинга с помощью Amazon CloudWatch. .
Заключение
Использование NIM для развертывания оптимизированных LLM может стать отличным вариантом как с точки зрения производительности, так и с точки зрения затрат. Это также помогает упростить развертывание LLM. В будущем NIM также позволит использовать методы тонкой настройки параметров (PEFT), такие как LoRA и P-настройка. NIM также планирует обеспечить поддержку LLM, поддерживая серверы Triton Inference Server, TensorRT-LLM и vLLM.
Мы рекомендуем вам узнать больше о микросервисах NVIDIA и о том, как развернуть ваши LLM с помощью SageMaker, а также опробовать доступные вам преимущества. NIM доступен в качестве платного предложения в рамках подписки на программное обеспечение NVIDIA AI Enterprise, доступной на AWS Marketplace.
В ближайшем будущем мы опубликуем подробное руководство по NIM в SageMaker.
Об авторах
Джеймс Парк — архитектор решений в Amazon Web Services. Он работает с Amazon.com над проектированием, созданием и развертыванием технологических решений на AWS, а также проявляет особый интерес к искусственному интеллекту и машинному обучению. В свободное время он любит исследовать новые культуры, получать новый опыт и быть в курсе последних технологических тенденций. Вы можете найти его на LinkedIn.
Саураб Триканде — старший менеджер по продукту Amazon SageMaker Inference. Он увлечен работой с клиентами и его мотивирует цель демократизации машинного обучения. Он фокусируется на основных задачах, связанных с развертыванием сложных приложений машинного обучения, многопользовательскими моделями машинного обучения, оптимизацией затрат и повышением доступности развертывания моделей глубокого обучения. В свободное время Саураб любит ходить в походы, изучать инновационные технологии, следить за TechCrunch и проводить время со своей семьей.
Цин Лан — инженер-разработчик программного обеспечения в AWS. Он работал над несколькими сложными продуктами в Amazon, включая высокопроизводительные решения для вывода машинного обучения и высокопроизводительную систему журналирования. Команда Цина успешно запустила первую модель с миллиардом параметров в Amazon Advertising с очень низкой задержкой. Цин обладает глубокими знаниями в области оптимизации инфраструктуры и ускорения глубокого обучения.
Нихил Кулкарни — разработчик программного обеспечения для AWS Machine Learning, специализирующийся на повышении производительности рабочих нагрузок машинного обучения в облаке, а также соавтор контейнеров AWS Deep Learning для обучения и вывода. Он увлечен распределенными системами глубокого обучения. Вне работы он любит читать книги, играть на гитаре и готовить пиццу.
Хариш Туммалачерла — инженер-программист в команде Deep Learning Performance в SageMaker. Он занимается разработкой производительности для эффективного обслуживания больших языковых моделей в SageMaker. В свободное время он любит бег, езду на велосипеде и лыжный альпинизм.
Элиут Триана Исаза является менеджером по связям с разработчиками в NVIDIA, который помогает AI MLOps, DevOps, ученым и техническим экспертам AWS компании Amazon осваивать вычислительный стек NVIDIA для ускорения и оптимизации моделей Generative AI Foundation, включая курирование данных, обучение графических процессоров, вывод моделей и производственное развертывание на экземплярах графических процессоров AWS. . Кроме того, Элиут — страстный велосипедист, лыжник, теннисист и игрок в покер.
Цзяхонг Лю — архитектор решений в команде поставщиков облачных услуг в NVIDIA. Он помогает клиентам внедрять решения машинного обучения и искусственного интеллекта, которые используют ускоренные вычисления NVIDIA для решения задач обучения и вывода. В свободное время он увлекается оригами, проектами своими руками и игрой в баскетбол.
Кшитиз Гупта — архитектор решений в NVIDIA. Ему нравится знакомить заказчиков облачных технологий с технологиями искусственного интеллекта на базе графических процессоров, которые NVIDIA может предложить, и помогать им ускорять приложения машинного и глубокого обучения. Вне работы он любит бегать, ходить в походы и наблюдать за дикой природой.