Подробное руководство по языковой модели Meta LLaMa и LlaMa 2

Технологии

Подробное руководство по языковой модели Meta LLaMa и LlaMa 2 | DeepTech

DEEPTECH

July 24, 2023

По мере развития ИИ доступ исследовательского сообщества к генеративным инструментам на базе ИИ, таким как языковые модели, становится важным для создания инноваций. Однако сегодняшние модели ИИ часто находятся за закрытыми стенами, что препятствует инновациям. Выпуск LLaMA 2 компанией Meta призван демократизировать это пространство, позволяя исследователям и коммерческим пользователям во всем мире исследовать и расширять границы того, чего может достичь ИИ.

В этой статье мы объясняем модель Meta LLaMa и ее последнюю версию LLaMa 2.

Что такое ЛЛаМа?

В феврале 2023 года Meta анонсировала LLaMA, что означает метаискусственный интеллект большой языковой модели. Эта большая языковая модель (LLM) была обучена на моделях различных размеров, включающих от 7 до 65 миллиардов параметров. Модели LLaMa изменяются из-за размеров параметров¹:

Параметры 7B (обучено на 1 трлн токенов)
13В параметры
33B параметров (обучено на 1,4 трлн токенов)
65B параметров (обучено на 1,4 трлн токенов)

Meta AI утверждает, что LLaMa — это уменьшенная языковая модель, которая может быть более подходящей для переобучения и тонкой настройки. Это преимущество, поскольку точно настроенные модели больше подходят для коммерческих организаций и конкретных видов использования.

Для тонкой настройки LLM для корпоративных целей ознакомьтесь с нашим руководством.

В отличие от многих мощных крупноязыковых моделей, которые обычно доступны только через ограниченные API, Meta AI решил сделать веса моделей LLaMA доступными для исследовательского сообщества ИИ под некоммерческой лицензией. Первоначально доступ предоставлялся выборочно академическим исследователям, лицам, связанным с государственными учреждениями, организациями гражданского общества и академическими учреждениями по всему миру.

Как проходил обучение LLaMa?

Подобно другим большим языковым моделям, LLaMA работает, получая строку слов в качестве входных данных и предвосхищая следующее слово для итеративного создания текста.

При обучении этой языковой модели предпочтение отдавалось тексту из 20 основных языков с наибольшим количеством носителей, особенно тех, которые используют латиницу и кириллицу.

Тренировочные данные LLaMa в основном взяты с крупных общедоступных веб-сайтов и форумов, таких как²:

Веб-страницы, извлеченные CommonCrawl
Репозитории исходного кода с открытым исходным кодом из GitHub
Википедия на 20 разных языках
Книги общественного достояния из Project Gutenberg
Исходный код LaTeX для научных статей, загруженных в ArXiv
Вопросы и ответы с веб-сайтов Stack Exchange

Как LLaMa работает по сравнению с другими большими языковыми моделями?

По словам создателей LLaMA, модель с 13 миллиардами параметров превосходит GPT-3 (со 175 миллиардами параметров) в большинстве тестов обработки естественного языка (NLP).³ Кроме того, их самая большая модель эффективно конкурирует с моделями высшего уровня, такими как PaLM и Chinchilla.

5jpZ3DRkEJJJ3k0stXvFXDuD9IO4gNLpL OOcqKY XlW6HwGliu PSZbq3feEbg2LhnLdOpI3fuu ROBxCPm6vZ1hQxu7KuBZXQ5hqPvcbF9UP4W8XK4 — Рисунок 1. Сравнение LLaMa и других LLM в задаче на рассуждение (Источник: исследовательская работа LLaMa)

Правдивость и предвзятость

LLaMa работает лучше, чем GPT-3, в тесте на достоверность, используемом при измерении производительности обоих LLM. Однако, как показывают результаты, LLM все еще нуждаются в улучшении с точки зрения достоверности.

5dcdgwPPYn027zlgMPFEicYsbhaup3hUq2Of quE6bFsdqdBRN5NoDFhKfhMrJnIiW5M5VsG3xkUb HkOOHK7tGssnQUWy2 bSt5ZDDfE0y0XZKNbK AWnWtCyIn2ggAb42rSmG Dou332 ксФоСквт — Рисунок 2. Сравнение LLaMa и GPT-3 в тесте на достоверность (Источник: исследовательская работа LLaMa)

LLaMa с параметрами 65B выдает менее предвзятые подсказки по сравнению с другими крупными LLM, такими как GPT3.

xg136tCpq4bQEW3CrbypfLPgwKaitTQwa 9foNHKL4fsr LdBXRobSjN0cix0N7atFdkAhkUtbBY — Рисунок 3. LLaMa по сравнению с GPT-3 и OPT по систематической ошибке ответа (Источник: исследовательская работа LLaMa)

Что такое ЛЛаМа 2?

18 июля 2023 года Meta и Microsoft совместно объявили о своей поддержке семейства больших языковых моделей LLaMa 2 на платформах Azure и Windows.⁴ И Meta, и Microsoft едины в своей приверженности демократизации ИИ и обеспечению широкой доступности моделей ИИ, и Meta занимает открытую позицию с LlaMa 2. Впервые модель открыта для исследований и коммерческого использования.

Дизайн LLaMa 2 призван помочь разработчикам и организациям в создании генеративных инструментов и опыта ИИ. Они дают разработчикам свободу выбора типов моделей, которые они хотят разрабатывать, поддерживая как открытые, так и пограничные модели.

Кто может использовать LLaMa 2?

Клиенты платформы Microsoft Azure могут точно настроить и использовать модели LLaMa 2 с параметрами 7B, 13B и 70B.
Кроме того, он доступен через Amazon Web Services, Hugging Face и других поставщиков.⁵
LLaMa будет разработан для эффективной работы в локальной среде Windows. Разработчики, работающие с Windows, могут использовать LlaMa, направив его поставщику исполнения DirectML через среду выполнения ONNX.

Если у вас есть вопросы или вам нужна помощь в поиске поставщиков, не стесняйтесь обращаться к нам:

Найдите подходящих поставщиков

«Представляем LLaMA: базовую языковую модель с 65 миллиардами параметров». Мета ИИ, 24 февраля 2023 г., https://ai.facebook.com/blog/large-language-model-llama-meta-ai/. По состоянию на 24 июля 2023 г.

«ЛаМА». Википедия, https://en.wikipedia.org/wiki/LLaMA. По состоянию на 24 июля 2023 г.

«LLaMA: открытые и эффективные модели базовых языков». arXiv, 13 июня 2023 г., https://arxiv.org/pdf/2302.13971.pdf. По состоянию на 24 июля 2023 г.

«Microsoft и Meta расширяют свое партнерство в области ИИ с LLama 2 на Azure и Windows — официальный блог Microsoft». Официальный блог Майкрософт, 18 июля 2023 г., https://blogs.microsoft.com/blog/2023/07/18/microsoft-and-meta-expand-their-ai-partnership-with-llama-2-on-azure-and-windows/. По состоянию на 24 июля 2023 г.

«Мета и Microsoft представляют новое поколение Llama». Мета ИИ, 18 июля 2023 г., https://ai.meta.com/blog/llama-2/. По состоянию на 24 июля 2023 г.

Поделись LinkedIn

Джем является главным аналитиком AIMultiple с 2017 года. AIMultiple ежемесячно информирует сотни тысяч компаний (по данным SimilarWeb), включая 55% компаний из списка Fortune 500.

Работа Джема цитируется ведущими мировыми изданиями, в том числе Бизнес-инсайдерФорбс, Вашингтон постглобальные фирмы, такие как Делойт, HPE и НПО, такие как Всемирный Экономический Форум и наднациональные организации, такие как Европейская комиссия. Вы можете увидеть больше авторитетных компаний и ресурсов, которые ссылались на AIMultiple.

На протяжении всей своей карьеры Джем работал техническим консультантом, закупщиком технологий и предпринимателем в области технологий. Он консультировал предприятия по их технологическим решениям в McKinsey & Company и Altman Solon более десяти лет. Он также опубликовал отчет McKinsey по цифровизации.

Он руководил технологической стратегией и закупками телекоммуникационных компаний, подчиняясь генеральному директору. Он также руководил коммерческим ростом компании Hypatos, занимающейся глубокими технологиями, которая достигла 7-значного годового постоянного дохода и 9-значной оценки от 0 в течение 2 лет. Работа Джема в Hypatos освещалась ведущими технологическими изданиями, такими как TechCrunch нравиться Бизнес-инсайдер.

Джем регулярно выступает на международных технологических конференциях. Он окончил Университет Богазичи по специальности инженер-компьютерщик и имеет степень магистра делового администрирования Колумбийской школы бизнеса.