На чем сэкономил DeepSeek (и о чем умолчал)
Как DeepSeek удалось снизить затраты на обучение модели? Во-первых, снизилось потребление вычислительных ресурсов, во‑вторых, использовались более дешевые чипы.
Одним из ключевых факторов снижения расходов стало применение технологии «вычислений во время вывода» (inference-time computing). Вместо того чтобы задействовать всю модель при каждом запросе, DeepSeek активирует лишь наиболее релевантные ее части, что существенно сокращает нагрузку на серверы и снижает затраты на обработку данных.
Кроме того, в отличие от многих конкурентов, DeepSeek использовал для обучения своей модели R1 метод «чистого» обучения с подкреплением (Reinforcement Learning, RL), а не традиционное обучение с учителем (Supervised Fine-Tuning, SFT). SFT требует заранее размеченных данных с известными правильными ответами, а RL позволяет модели учиться на собственном опыте, самостоятельно корректируя поведение посредством системы вознаграждений и штрафов. Этот метод не только снижает зависимость от объемных наборов данных, но и обходится дешевле.
DeepSeek утверждает, что обучил модель R1 с открытым исходным кодом, используя всего чуть более 2 тыс. графических процессоров Nvidia — это лишь небольшая доля вычислительных мощностей, которые задействуют крупные игроки индустрии. По оценкам экспертов, основатель компании сумел заранее накопить значительный запас чипов Nvidia A100, экспорт которых в Китай был запрещен с сентября 2022 года. Эксперты полагают также, что DeepSeek успешно комбинировал эти чипы с более дешевыми и менее мощными процессорами, добиваясь высокой эффективности работы системы.
Дополнительную экономию обеспечила оптимизация расхода памяти. В отличие от конкурентов, DeepSeek использует меньшие объемы оперативной памяти, что позволяет снизить издержки на выполнение запросов.
В то же время исследовательская компания SemiAnalysis, специализирующаяся на полупроводниковой промышленности и ИИ, провела собственный анализ экономической модели DeepSeek. Эксперты подчеркивают, что затраты на предобучение составляют лишь небольшую часть общей стоимости разработки модели.
Опубликованные данные о $ 6 млн затрат касаются исключительно графических процессоров, использованных в запуске предобучения, тогда как полная стоимость проекта включает значительно больше факторов. В расчетах не учитываются ключевые статьи расходов, такие как R&D, а также совокупная стоимость владения (Total Cost of Ownership, TCO) вычислительной инфраструктурой. Создание передовой ИИ-модели — это не только обучение, но и многомесячные эксперименты, разработка новых архитектурных решений, сбор и очистка данных, финансирование команды специалистов и другие операционные издержки.
Более того, разработка инновационных архитектур требует значительных вложений в тестирование гипотез, экспериментирование с новыми методами и анализ подходов. В частности, создание Multi-Head Latent Attention — ключевой технологии DeepSeek — заняло несколько месяцев и потребовало значительного количества человеко-часов и немалой вычислительной мощности, отмечают аналитики.
SemiAnalysis уверена, что DeepSeek разделяет человеческие и вычислительные ресурсы с High-Flyer. Исходя из собственных предположений о числе процессоров, эксплуатируемых китайским холдингом (косвенно их подтверждают описания вакансий в DeepSeek, упоминающие возможность доступа к десяткам тысяч графических процессоров), аналитики оценивают капитальные расходы на серверные мощности в $ 1,6 млрд и операционные затраты — еще почти в $ 950 млн. Эти мощности распределены географически и используются в широком спектре задач — от трейдинга и инференса (использования модели для предсказаний. — Прим. ред.) до обучения и научных исследований. Вишенка на торте умозаключений SemiAnalysis — информация о зарплатных предложениях в DeepSeek — более $ 1,3 млн в год для перспективных специалистов, что значительно выше уровней вознаграждения в крупнейших китайских технологических корпорациях и AI-лабораториях.