DeepSeek выходит на сцену

В МИРЕ / #2_2025
Текст: Екатерина ЧИСТОВА / Фото: Unsplash, DeepSeek, Nvidia

Релиз языковой модели ИИ китайского стартапа DeepSeek в конце января обвалил акции технологических и ряда энергетических компаний США. Например, ведущий производитель чипов для ИИ Nvidia потерял более $ 600 млрд капитализации за три дня, а его CEO Дженсен Хуанг до сих пор успокаивает инвесторов. Попробуем разобраться, что за этим стоит — ​эмоции или факты — ​и при чем тут парадокс Джевонса.

DeepSeek — ​это бесплатный чат-бот, работающий на базе искусственного интеллекта. Внешне, по функционалу и ощущениям пользователя он очень похож на ChatGPT. Разработал его китайский ИИ-стартап, выросший из основанного предпринимателем Ляном Вэньфэном хедж-фонда High-­Flyer. За последний год DeepSeek выпустил несколько больших языковых моделей, но настоящую сенсацию произвела DeepSeek-­R1, представленная в январе 2025 года. Эта «рассуждающая» модель строит логические цепочки на уровне GPT‑4 от OpenAI, и делает это не хуже, а иногда и лучше американского конкурента. Мобильное приложение DeepSeek сразу взлетело на первое место по скачиваниям в App Store в США (обогнав ChatGPT) и еще в 51 стране.
Как превратить ИИ в миллиарды
Лян Вэньфэн родился в 1985 году в Чжанцзяне, провинция Гуандун. С детства он увлекался математикой. В университете этот визионер из Китая занялся машинным зрением и в 2008 году, во время глобального кризиса, объединил вокруг себя студентов с целью сбора данных о финансовых рынках, чтобы в конечном счете использовать машинное обучение для трейдинга.

В 2015 году он основал хедж-фонд High-­Flyer, где применял ИИ для принятия инвестиционных решений и угадывания рыночных трендов. В 2019 году фонд, тогда уже управлявший капиталом в 100 млрд юаней, основал компанию для развития ИИ. 200 млн юаней было вложено в модель Yinghuo, а затем еще 1 млрд — ​в ее вторую версию, а также закуплено 10 тыс. видеокарт Nvidia.

В одном из интервью Лян отметил, что покупал видеокарты для обучения моделей скорее из любопытства, чем в рамках бизнес-­стратегии — ​ему было интересно изучить возможности искусственного интеллекта. В 2023 году предприниматель запустил DeepSeek для создания продвинутого ИИ. В 2024‑м вышли V2 и V3, а в 2025‑м — ​DeepSeek-­R1, способный решать задачи на уровне GPT‑4. Лян верит, что ИИ изменит мир, и, кажется, этот момент уже наступает. Власти КНР поддерживают DeepSeek: в январе бизнесмена заметили на встрече, организованной премьер-­министром Ли Цяном, а в феврале его вместе с основателями Alibaba, Xiaomi, BYD принимал Си Цзиньпин.
Рынок акций США (лидера в разработке ИИ и производстве чипов) отреагировал на запуск DeepSeek-­R1 почти мгновенно. Уже 27 января 2025 года, практически сразу после выхода модели, началась масштабная распродажа акций технологических компаний. Бумаги Nvidia (именно их чипы, но более слабые, использовались в R1) обвалились на 17,8 %. Снизились котировки таких гигантов, как Microsoft и Alphabet, подешевели производители микросхем и центры обработки данных. В результате индекс Nasdaq Composite упал на 3,5 %, а S&P 500 — ​на 1,5 %.

Первоочередным фактором стала информация о стоимости R1. DeepSeek заявил, что обучение R1 обошлось всего в $ 6 млн — ​это значительно меньше, чем потратили конкуренты, например OpenAI (эта компания не торгуется на бирже).

Успех DeepSeek поставил под сомнение убеждение в том, что развитие искусственного интеллекта возможно только за счет огромных бюджетов и передовых чипов. Все это породило неопределенность вокруг будущего рынка высокопроизводительных процессоров, поставило под вопрос конкурентные позиции американских технологических гигантов и эффективность их многомиллиардных вложений в ИИ. Инвесторы стали пересматривать свои стратегии, осознавая, что даже колоссальные инвестиции США в разработку ИИ не гарантируют лидерства в отрасли. Кроме того, успех китайской компании усилил геополитическую напряженность, подогрев конкуренцию между США и Китаем в сфере передовых технологий, что может привести к дополнительным экономическим и политическим рискам.
На чем сэкономил DeepSeek (и о чем умолчал)
Как DeepSeek удалось снизить затраты на обучение модели? Во-первых, снизилось потребление вычислительных ресурсов, во‑вторых, использовались более дешевые чипы.

Одним из ключевых факторов снижения расходов стало применение технологии «вычислений во время вывода» (inference-time computing). Вместо того чтобы задействовать всю модель при каждом запросе, DeepSeek активирует лишь наиболее релевантные ее части, что существенно сокращает нагрузку на серверы и снижает затраты на обработку данных.

Кроме того, в отличие от многих конкурентов, DeepSeek использовал для обучения своей модели R1 метод «чистого» обучения с подкреплением (Reinforcement Learning, RL), а не традиционное обучение с учителем (Supervised Fine-­Tuning, SFT). SFT требует заранее размеченных данных с известными правильными ответами, а RL позволяет модели учиться на собственном опыте, самостоятельно корректируя поведение посредством системы вознаграждений и штрафов. Этот метод не только снижает зависимость от объемных наборов данных, но и обходится дешевле.

DeepSeek утверждает, что обучил модель R1 с открытым исходным кодом, используя всего чуть более 2 тыс. графических процессоров Nvidia — ​это лишь небольшая доля вычислительных мощностей, которые задействуют крупные игроки индустрии. По оценкам экспертов, основатель компании сумел заранее накопить значительный запас чипов Nvidia A100, экспорт которых в Китай был запрещен с сентября 2022 года. Эксперты полагают также, что DeepSeek успешно комбинировал эти чипы с более дешевыми и менее мощными процессорами, добиваясь высокой эффективности работы системы.

Дополнительную экономию обеспечила оптимизация расхода памяти. В отличие от конкурентов, DeepSeek использует меньшие объемы оперативной памяти, что позволяет снизить издержки на выполнение запросов.

В то же время исследовательская компания SemiAnalysis, специализирующаяся на полупроводниковой промышленности и ИИ, провела собственный анализ экономической модели DeepSeek. Эксперты подчеркивают, что затраты на предобучение составляют лишь небольшую часть общей стоимости разработки модели.

Опубликованные данные о $ 6 млн затрат касаются исключительно графических процессоров, использованных в запуске предобучения, тогда как полная стоимость проекта включает значительно больше факторов. В расчетах не учитываются ключевые статьи расходов, такие как R&D, а также совокупная стоимость владения (Total Cost of Ownership, TCO) вычислительной инфраструктурой. Создание передовой ИИ-модели — ​это не только обучение, но и многомесячные эксперименты, разработка новых архитектурных решений, сбор и очистка данных, финансирование команды специалистов и другие операционные издержки.

Более того, разработка инновационных архитектур требует значительных вложений в тестирование гипотез, экспериментирование с новыми методами и анализ подходов. В частности, создание Multi-­Head Latent Attention — ​ключевой технологии DeepSeek — ​заняло несколько месяцев и потребовало значительного количества человеко-­часов и немалой вычислительной мощности, отмечают аналитики.

SemiAnalysis уверена, что DeepSeek разделяет человеческие и вычислительные ресурсы с High-­Flyer. Исходя из собственных предположений о числе процессоров, эксплуатируемых китайским холдингом (косвенно их подтверждают описания вакансий в DeepSeek, упоминающие возможность доступа к десяткам тысяч графических процессоров), аналитики оценивают капитальные расходы на серверные мощности в $ 1,6 млрд и операционные затраты — ​еще почти в $ 950 млн. Эти мощности распределены географически и используются в широком спектре задач — ​от трейдинга и инференса (использования модели для предсказаний. — ​Прим. ред.) до обучения и научных исследований. Вишенка на торте умозаключений SemiAnalysis — ​информация о зарплатных предложениях в DeepSeek — ​более $ 1,3 млн в год для перспективных специалистов, что значительно выше уровней вознаграждения в крупнейших китайских технологических корпорациях и AI-лабораториях.
Куда же без багов!
С тех пор как OpenAI выпустили ChatGPT в конце 2022 года, хакеры и исследователи безопасности пытались найти дыры в больших языковых моделях, чтобы обманом заставить их генерировать вредоносный контент, поощряющий опасную или незаконную деятельность. В ответ OpenAI и другие разработчики генеративного ИИ усовершенствовали защиту своих систем. Но R1 — ​совсем новая система и такой защитой, по всей видимости, пока не обладает. Исследователи безопасности ИИ из компании Robust Intelligence, подразделения Cisco, и Университета Пенсильвании провели тест DeepSeek-­R1 и выявили, что модель не смогла заблокировать ни одного из 50 вредоносных запросов, что свидетельствует о ее уязвимости к манипуляциям.

Компания по кибербезопасности KELA сообщила, что ей удалось взломать DeepSeek-­R1 в широком диапазоне сценариев и заставить модель генерировать вредоносные результаты, такие как разработка программ-­вымогателей, изготовление конфиденциального контента и подробные инструкции по созданию токсинов и взрывных устройств.

А исследовательская группа Wiz, оценивая внешнюю безопасность и потенциальные уязвимости R1, в течение нескольких минут обнаружила общедоступную базу данных, связанную с DeepSeek, полностью открытую и неаутентифицированную, раскрывающую конфиденциальные данные. Эта база данных содержала значительный объем истории чатов, внутренних данных и конфиденциальной информации.
Отправили в бан
Из-за опасений, связанных с защитой персональных данных и с несоответствием местным законам о конфиденциальности, некоторые страны вводят запрет на скачивание приложения DeepSeek. 17 февраля 2025 года Комиссия по защите персональных данных (PIPC) Южной Кореи временно приостановила загрузки DeepSeek в стране. Это решение было принято после того, как компания признала, что она не полностью соблюдает местные правила защиты личной информации. Работа сервиса будет возобновлена после внесения необходимых изменений в соответствии с законодательством о конфиденциальности. Примечательно, что веб-версия DeepSeek остается доступной для пользователей в Южной Корее.

В январе 2025 года итальянский регулятор по защите данных Garante распорядился заблокировать чат-бот DeepSeek на территории страны. Причиной стали опасения относительно политики конфиденциальности и обработки персональных данных, включая вопросы о том, где хранятся эти данные и передаются ли они в Китай. DeepSeek было дано 20 дней для предоставления подробной информации о сборе и хранении данных.

В Соединенных Штатах усиливаются меры по ограничению использования приложения DeepSeek из-за опасений, связанных с национальной безопасностью и конфиденциальностью данных. Ряд штатов и федеральных учреждений уже ввели запреты на использование DeepSeek на государственных устройствах.

Техас стал первым штатом США, запретившим использование DeepSeek, мотивируя это рисками для национальной безопасности и опасениями, что китайское правительство может получить доступ к конфиденциальной информации. Губернатор штата Нью-­Йорк Кэти Хокул объявила о запрете использования DeepSeek на всех правительственных сетях и устройствах штата, ссылаясь на возможность шпионажа со стороны иностранных государств. ВМС США запретили своим сотрудникам использовать DeepSeek, опасаясь «потенциальных проблем безопасности и этики, связанных с происхождением и использованием модели».

На федеральном уровне законодатели представили законопроект, направленный на запрет использования DeepSeek на устройствах, принадлежащих правительству США. Инициаторы — ​конгрессмены Джош Готтхаймер и Дарин Лахуд — ​выразили обеспокоенность возможностью передачи данных пользователей китайским компаниям. Учитывая эти инициативы и уже принятые меры, перспектива введения общенационального запрета на использование DeepSeek в США становится все более вероятной.

Австралия также заявила о планах запретить использование DeepSeek во всех государственных системах. Министерство цифровизации Японии призвало сотрудников всех ведомств воздержаться от использования нейросети. Аналогичные меры приняли регулирующие органы Ирландии и Канады. Управление по защите данных Нидерландов начало расследование в отношении методов сбора данных DeepSeek, что привело к временной блокировке приложения в стране.

Сейчас приложение DeepSeek находится на третьем месте в рейтинге скачиваний в AppStore; ChatGPT вернул себе лидерство.
Цифры
ИИ VS энергетика
Но при чем тут энергетические компании? Дело в том, что снижение вычислительной мощности, необходимой для обучения модели R1, неизбежно затрагивает энергопотребление центров обработки данных (ЦОДов), где размещены высокопроизводительные серверы и другие системы, поддерживающие работу искусственного интеллекта.

По данным Международного энергетического агентства, на ЦОДы уже приходится около 1 % мирового потребления электроэнергии, а к 2026 году этот показатель может удвоиться по сравнению с показателями 2022 года и приблизиться к годовому потреблению Японии.

В США, согласно отчету Минэнерго страны, в 2023 году на центры обработки данных пришлось около 4,4 % национального электропотребления, а к 2028 году этот показатель может достичь 12 %. На фоне таких амбициозных прогнозов (и стремления ограничить углеродный след) в прошлом году Amazon, Google и Microsoft достигли договоренностей с игроками атомной отрасли для гарантий поставок электроэнергии ЦОДам от новых малых модульных реакторов либо действующих ядерных мощностей. А Meta сделала ставку как на ВИЭ, договорившись с Engie, так и на атом, объявив о поиске разработчика энергоисточника для своих дата-центров.

Появление DeepSeek и возможность снизить энергозатраты на развитие ИИ внесли новый элемент неопределенности в прогнозы спроса на электроэнергию в США, заставив рынок пересмотреть ожидания относительно долгосрочной динамики отрасли. Инвесторы, похоже, восприняли это как сигнал к переоценке сектора: 27 января на фоне распродажи технологических акций обвалились бумаги ведущих энергетических игроков. Более чем на 20 % просели акции крупнейшего оператора АЭС в США — ​компании Constellation Energy. В конце 2024 года она объявила о планах вернуть в эксплуатацию к 2028 году реактор на АЭС «Три-Майл Айленд» в Пенсильвании, электроэнергию которого уже законтрактовал на 20 лет Microsoft для питания своих ЦОДов. Генерирующая и энергосбытовая компания Vistra Corp. упала на рекордные 28 %; GE Vernova, производящая ветровые и газовые турбины, — ​на 21 %.

Однако не все аналитики разделяют пессимизм по поводу будущего энергетических компаний. Некоторые эксперты с Уолл-стрит считают, что паническая распродажа в понедельник была чрезмерной, поскольку бурный рост спроса на ИИ продолжит поддерживать рынок инфраструктуры. «Обучение модели за меньшие деньги — ​это само собой, но для массового использования ИИ все равно потребуется гигантская инфраструктура», — ​отмечает Адам Криссафулли из VitalKnowledge.

Эксперты отрасли дружно вспомнили о парадоксе Джевонса — ​экономическом явлении, при котором повышение эффективности использования какого-либо ресурса ведет не к снижению, а, наоборот, к росту его потребления. Английский экономист Уильям Стэнли Джевонс описал этот феномен еще в 1865 году, проанализировав рост спроса на уголь после появления паровых машин. «Парадокс Джевонса снова с нами! — ​написал в соцсетях Сатья Наделла, CEO Microsoft. — ​Чем эффективнее и доступнее ИИ, тем быстрее будет расти его потребление». Того же мнения придерживается Сьюзан Су, инвестор в сектор чистой энергии и партнер Toba Capital. Она считает, что энергопотребление ИИ будет расти экспоненциально: «Я имею в виду рост на несколько порядков. Чем доступнее станет ИИ, тем шире будет его применение, а значит — ​тем выше спрос на вычислительные мощности».
Закон сохранения капитала
Пока стоимость технологических и энергетических компаний США остается под давлением, китайский bigtech-­сектор переживает стремительный рост на фоне оптимизма вокруг искусственного интеллекта. С середины января индекс Hang Seng Tech, отражающий динамику крупнейших IT-компаний Гонконга, прибавил 39 %, тогда как более широкий Hang Seng China Enterprises вырос на 27 %, достигнув трехлетнего максимума. Основным драйвером ралли стала уверенность инвесторов в технологическом потенциале Китая после выхода последней модели DeepSeek.

Лидерами роста стали Alibaba и Xiaomi, чьи акции с января подорожали на 78 % и 58 % соответственно. Alibaba недавно представила модель Qwen 2.5, заявив, что она превосходит конкурентов в ряде тестов. Доверие к ее технологиям подтвердилось решением Apple встроить модель в китайские iPhone. Xiaomi, по мнению экспертов HSBC, обладает одной из самых передовых платформ AIoT, и удешевление ИИ-решений может сыграть ей на руку. Тем временем Tencent и Baidu объявили о внедрении DeepSeek в свои сервисы, включая поиск WeChat. Технология активно распространяется по стране, включая госсектор и корпоративные системы.

По материалам СМИ
Гонка ИИ началась
Производители ИИ делают все возможное для того, чтобы именно этот сценарий воплотился в жизнь. В ответ на успешный релиз модели R1 от DeepSeek крупнейшие ИИ-компании одна за другой выпустили новые модели и ускорили разработку нейросетей следующего поколения. Более того, многие функции ИИ становятся бесплатными, что стимулирует рост его использования.

Так, OpenAI первой ответила на вызов, запустив o3‑mini — ​упрощенную версию будущей модели o3. Бесплатные пользователи ChatGPT теперь могут тестировать ее с ограничениями, а подписчики Pro и Plus получили расширенный доступ. Китайский поисковый гигант Baidu объявил о планах создания новейшей модели искусственного интеллекта Ernie с открытым исходным кодом к 30 июня 2025 года и уже в апреле сделает бесплатным доступ к чат-боту Ernie Bot.

Компания xAI Илона Маска в феврале представила новую продвинутую модель ИИ Grok‑3, обученную на суперкомпьютере. Anthropic, основанная бывшими сотрудниками OpenAI, выпустила Claude 3.7, первую гибридную модель, сочетающую генеративные и аналитические функции. Яндекс обновил свою флагманскую модель до YandexGPT 5 Pro и впервые выложил облегченную версию в открытый доступ.
Графический процессор NVIDIA A100 с тензорными ядрами обеспечивает ускорение для ИИ, анализа данных и HPC для решения сложных вычислительных задач
ДРУГИЕ МАТЕРИАЛЫ