Компания Meta анонсировала самую большую модель искусственного интеллекта с открытым исходным кодом. Эта новая модель, названная Llama 3.1 405B, содержит 405 миллиардов параметров. Параметры примерно соответствуют возможностям модели по решению задач, и модели с большим количеством параметров обычно превосходят модели с меньшим количеством параметров.
Meta отмечает, что Llama 3.1 405B — это, конечно, не самая большая модель с открытым исходным кодом, но одна из самых больших за последние годы. Модель была обучена с помощью 16 000 графических процессоров Nvidia H100, и Meta утверждает, что эта модель, с некоторыми ограничениями, может конкурировать с ведущими собственными моделями, такими как GPT-4o от OpenAI и Claude 3.5 Sonnet от Anthropic.
Llama 3.1 405B, как и предыдущие модели Meta, может быть загружена или использована на облачных платформах, таких как AWS, Azure и Google Cloud. Она также используется для улучшения работы чатботов для американских пользователей в WhatsApp и Meta.ai.
Новые функции и усовершенствования
Как и другие модели генеративного ИИ с открытым и закрытым исходным кодом, Llama 3.1 405B может выполнять различные задачи, такие как кодирование и ответы на базовые математические вопросы. Она также способна обобщать документы на восьми языках, включая английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский. Эта модель ориентирована на работу с текстом, поэтому она не может отвечать на вопросы, например, о фотографии, но большинство текстовых задач — с учетом анализа таких файлов, как PDF и электронные таблицы, — ей вполне по силам.
Meta утверждает, что также экспериментирует с мультимодальностью. В опубликованной сегодня статье исследователи компании пишут, что они активно работают над моделями Llama, которые могут распознавать изображения и видео, а также понимать (и генерировать) речь. Однако эти модели еще не готовы к публичному выпуску.
Для обучения Llama 3.1 405B компания Meta использовала набор данных из 15 триллионов токенов, начиная с 2024 года. Токены — это фрагменты слов, которые модели воспринимают легче, чем слова, а 15 триллионов токенов соответствуют умопомрачительным 750 миллиардам слов. Meta утверждает, что при разработке этой модели были усовершенствованы конвейеры сбора данных и приняты более строгие подходы к обеспечению качества и фильтрации данных.
Новая модель ИИ от Meta признана важным шагом вперед для сообщества разработчиков с открытым исходным кодом и развития технологий ИИ. Большой набор параметров, предлагаемый Llama 3.1 405B, может открыть новые двери в исследованиях и приложениях ИИ, предлагая возможность выполнять более сложные и разнообразные задачи.



