Компания xAI, созданная Илоном Маском, заявила в январе 2026 года о новом мегакластере для обучения нейросети Grok, потребляющем 1 ГВт электроэнергии. Суперкомпьютер, получивший название Collosus 2, состоит из 550 тыс. графических процессоров. В ближайшее время создатели обещают расширить кластер и довести его мощность до 2 ГВт.
Правда, эксперты утверждают, что сегодня энергопотребление этого центра значительно ниже заявленной тысячи мегаватт. Мощность системы охлаждения объекта скептики из Epoch AI по спутниковым фотографиями оценили в 350 МВт. Этого недостаточно для охлаждения 550 тыс. процессоров даже в зимнее время. Аналитики Epoch AI ожидают, что мощности 1 ГВт кластер достигнет к маю 2026 года.
Первую версию Colossus построили в 2024 году за рекордные 122 дня. Это был кластер из 100 тыс. процессоров NVIDIA H100, расположенный в Мемфисе, штат Теннесси, США. Он стал самым большим дата-центром для ИИ в мире. Для сравнения, Google и Meta (признана в РФ экстремистской организацией и запрещена) насчитывали тогда 90 и 70 тыс. чипов соответственно. Исходя из оборудования, производительность Colossus была выше, чем у суперкомпьютера Aurora, принадлежащего министерству энергетики США и считавшегося вторым в мире по скорости вычислений.
Скорость введения кластера в эксплуатацию была удивительной. Обычно на планирование подобных суперкомпьютеров уходит два-три года, потом еще около года — на закупку компонентов и установку. Кроме того, интеграция 100 тыс. процессоров ранее никогда не проводилась. Плюс к этому строительство такого большого и сложного дата-центра потребовало создания новой структуры коммуникаций и систем охлаждения. Первая версия Colossus имела мощность около 150 МВт, ее охлаждающая система была рассчитана на 3,7 млн литров воды в день. Такие запросы уже в 2024 году обеспокоили жителей Мемфиса. Однако недостаток электричества от местных электросетей владельцы кластера восполнили с помощью газовых генераторов, подключенных к мобильным подстанциям. Судя по спутниковым снимкам, для начала работы Colossus завезли 14 мобильных генераторов, работающих на природном газе, каждый из которых мог давать 2,5 МВт. Помимо этого, компания пообещала построить новую электростанцию. В октябре 2024 года в кластер добавили еще 50 тыс. процессоров NVIDIA H200, обладающих мощностью вдвое большей, чем Н100. К середине 2025 года количество чипов различной мощности увеличилось до 230 тыс.
Новый этап масштабирования кластера для Collosus 2 предусматривает установку 550 тыс. чипов. Для энергетической безопасности компания разместила в дата-центре 168 аккумуляторов суммарной мощностью до 150 МВт. Полученная система хранения электроэнергии позволяет не бояться отключений от сети, перепадов и перегрузок. Все объекты дата-центра подключены к системе мониторинга, отслеживающей в режиме реального времени их работу, контролирующей потребление электроэнергии, температуру, загрузку процессоров и другие важные параметры. Благодаря этой системе можно не только быстро выявлять неисправности, но и равномерно распределять нагрузку на оборудование для стабильной работы кластера. В дата-центре используются уникальная система прямого охлаждения процессоров, а также дополнительные вентиляционные установки, отводящие тепло от оборудования.
Кластер не только работает на обучение нейросети Grok, он также используется компаниями SpaceX (для анализа космических программ) и Tesla. Создатели суперцентра говорят о возможности задействования его мощностей в изучении климата, а также физических, астрономических, биологических и медицинских исследованиях.
В ближайшие годы xAI собирается увеличить количество процессоров в кластере до миллиона. В перспективе планируется предоставлять доступ к Colossus через API сторонним пользователям. Это даст возможность стартапам из разных стран, не имеющим собственной инфраструктуры, запускать на базе дата-центра свои модели. Если эти планы реализуются, компания станет лидером на рынке облачных услуг и обладательницей самой мощной языковой модели в мире.