Китайский стартап DeepSeek представил свою первую модель программирования с открытым исходным кодом под названием DeepSeek Coder V2, которая по производительности превзошла все существующие модели с открытым исходным кодом, включая GPT-4 Turbo, Claude 3 Opus и Gemini 1.5 Pro. Эта модель способна решать как программные, так и математические задачи, поддерживая более 300 языков программирования.
В тестах MBPP+, HumanEval и Aider, предназначенных для оценки генерации кода и решения проблем, DeepSeek Coder V2 набрал 76,2, 90,2 и 73,7 балла соответственно, опередив большинство моделей. Аналогичная производительность наблюдалась в тестах, предназначенных для оценки математических возможностей модели (MATH и GSM8K).
DeepSeek объясняет технологический прогресс, достигнутый с помощью своей архитектуры из смеси экспертов и дополнительного обучения модели на 6 триллионах токенов, включая программный код с GitHub и данные с CommonCrawl. Модель доступна по лицензии MIT и может использоваться как в исследовательских, так и в коммерческих целях без ограничений.
]]>
Свежие комментарии