Как только эти компоненты будут созданы, более сложные задачи LLM потребуют детальных подходов и соображений — от инфраструктуры до возможностей, снижения рисков и талантов.
Развертывание LLM в качестве бэкэнда
Вывод с использованием традиционных моделей машинного обучения обычно включает упаковку объекта модели в виде контейнера и его развертывание на сервере вывода. По мере того, как требования к модели возрастают (больше запросов и больше клиентов требуют большего количества решений во время выполнения (более высокий QPS в пределах задержки)), все, что нужно для масштабирования модели, — это добавить больше контейнеров и серверов. В большинстве корпоративных условий процессоры отлично подходят для традиционного вывода моделей. Но хостинг LLM — гораздо более сложный процесс, требующий дополнительных соображений.
LLM состоят из токенов — основных единиц слова, которые модель использует для создания человеческого языка. Обычно они делают прогнозы для каждого токена авторегрессионным способом на основе ранее сгенерированных токенов до тех пор, пока не будет достигнуто стоп-слово. Этот процесс может быстро стать обременительным: токенизация зависит от модели, задачи, языка и вычислительных ресурсов. Инженерам, развертывающим LLM, необходим не только опыт работы в инфраструктуре, например, развертывание контейнеров в облаке, но и знание новейших методов, позволяющих контролировать затраты на получение логических выводов и соблюдать соглашения об уровне обслуживания по производительности.
Векторные базы данных как хранилища знаний
Развертывание LLM в контексте предприятия означает векторные базы данных и другие базы знаний должны быть созданы, и они работают вместе в реальном времени с хранилищами документов и языковыми моделями для получения разумных, контекстуально релевантных и точных результатов. Например, розничный торговец может использовать LLM для общения с покупателем через интерфейс обмена сообщениями. Модели необходим доступ к базе данных с бизнес-данными в режиме реального времени, чтобы получать точную и актуальную информацию о недавних взаимодействиях, каталоге продуктов, истории разговоров, политике компании в отношении политики возврата, последних рекламных акциях и рекламе на рынке, сведениях о клиентах. рекомендации по обслуживанию и часто задаваемые вопросы. Эти хранилища знаний все чаще развиваются как векторные базы данных для быстрого поиска по запросам с помощью алгоритмов векторного поиска и индексирования.
Обучение и доводка с помощью аппаратных ускорителей
Перед LLM стоит дополнительная задача: точная настройка оптимальной производительности для конкретных корпоративных задач. Языковые модели крупных предприятий могут иметь миллиарды параметров. Это требует более сложных подходов, чем традиционные модели машинного обучения, включая постоянный вычислительный кластер с высокоскоростными сетевыми интерфейсами и аппаратными ускорителями, такими как графические процессоры (см. ниже), для обучения и тонкой настройки. После обучения этим большим моделям также потребуются узлы с несколькими графическими процессорами для вывода с оптимизацией памяти и включенными распределенными вычислениями.
Чтобы удовлетворить потребности в вычислениях, организациям придется делать более масштабные инвестиции в специализированные кластеры графических процессоров или другие аппаратные ускорители. Эти программируемые аппаратные устройства можно настроить для ускорения конкретных вычислений, таких как матрично-векторные операции. Инфраструктура публичного облака является важным фактором, способствующим развитию этих кластеров.
Новый подход к управлению и ограничениям
Снижение рисков имеет первостепенное значение на протяжении всего жизненного цикла модели. Наблюдение, ведение журнала и отслеживание — это основные компоненты процессов MLOps, которые помогают отслеживать модели на предмет точности, производительности, качества данных и отклонений после их выпуска. Это также имеет решающее значение для программ LLM, но необходимо учитывать дополнительные уровни инфраструктуры.
LLM могут «галлюцинировать», иногда выдавая ложные знания. Организациям нужны надлежащие ограждения — средства контроля, которые обеспечивают соблюдение определенного формата или политики — чтобы гарантировать, что LLM в производстве возвращают приемлемые ответы. Традиционные модели машинного обучения основаны на количественных статистических подходах для применения анализа первопричин для моделирования неточностей и отклонений в производстве. В случае с LLM это более субъективно: это может включать в себя качественную оценку результатов LLM, а затем ее сравнение с API с заранее установленными ограничениями для обеспечения приемлемого ответа.