Научная ИИ-зация

НАУКА #7_2023
Текст: Наталия АНДРЕЕВА / Фото: РИА Новости / Иллюстрация: Кирилл ФИЛОНОВ

Хайп, связанный с ИИ и машинным обучением в науке, не стихает: начавшись с программы AlphaFold, предложившей решение эпохальной проблемы свертывания белков, он плавно перешел к генеративному ИИ и битве за следующее поколение ИИ-технологий. Попробуем понять, какой ИИ нужен дата-интенсивной науке, спасут ли нас фреймворки для машинного обучения, и заодно посмотрим, что по этому поводу думают и делают наши зарубежные партнеры и конкуренты.

Самая горячая цифровая тема 2023 года — ​это, конечно, искусственный интеллект. Консультанты и вендоры наперебой обещают человечеству бешеный рост продуктивности, решение глобальных проблем — и заодно невольно хоронят креативный класс. Дошло до того, что рядом с «цифровой трансформацией» начали упоминать об «ИИ-трансформации», имея в виду, что ИИ меняет отрасли, бизнесы и профессии до неузнаваемости.

Наука, конечно же, не исключение. Генеративный ИИ и большие языковые модели обсуждают все, кому не лень; кроме того, еще не забылись недавние успехи AlphaFold2 (Google DeepMind) на поприще фолдинга белков, периодически всплывают результаты работы глобальной системы обработки данных Большого адронного коллайдера, астрофизики напоминают о пользе ИИ для обработки и классификации изображений — ​в общем, тема более чем жива.

Сами исследователи — ​особенно имеющие опыт использования ИИ — ​считают, что в течение ближайших 10 лет ИИ будет критичным или, как минимум, очень полезным для научного процесса (если верить опросу журнала Nature, то к такому мнению склоняются две трети ученых, так или иначе соприкасавшихся с ИИ).

Налицо и более долгосрочные тенденции: за последние 10 лет заметно участилось использование ИИ в физике, социальных науках и науках о жизни; в среднем по миру количество научных статей с упоминанием применения ИИ росло на 15 % в год (общее количество статей — ​на 5 % в год).
Доля статей с упоминанием ИИ по направлению, %
Оценка текущей и потенциальной применимости ИИ в исследованиях; мнения ученых, уже использующих ИИ, % ответивших
Однако, как обычно, в светлых перспективах ИИ-революции, которой науке грозят Google, Microsoft, NVidia и прочие крупные ИИ-вендоры, есть нюансы. А хайп заслоняет как реальные практики использования технологий, так и их ограничения, и то, что́ ученым на самом деле нужно.

Самые популярные ИИ-темы этого года, за которые все по понятным причинам ухватились, — ​это большие языковые модели (LLM) и генеративный ИИ. Но исследователи, в отличие от копирайтеров и прочих креативщиков, не используют ChatGPT и аналоги для создания текстов: если верить уже упомянутому опросу Nature, топ‑3 применений генеративного ИИ среди ученых таков: развлечение, не связанное с исследованиями (41 %); помощь в создании [исследовательского] кода (33 %); и поиск идей (32 %).

К­то-то, конечно, пытается использовать LLM для написания статей, но приличные научные журналы, такие как Nature, Springer Nature и JAMA Network, или принуждают авторов сообщать об использовании ChatGPT, или, как группа журналов Science, вообще не публикуют статьи, созданные на пару с ИИ. Грантодателей тоже не радует использование ChatGPT, но они пока ограничиваются запретом на использование ИИ для подготовки рецензий / пир ревью.

При этом ИИ для науки, само собой, важен и нужен. Но не тот, о котором все говорят. И не для того.

Если вкратце, то счастье не в больших языковых моделях, а в массовизации применения решений в области ИИ и машинного обучения (MO), которые позволят сделать дата-интенсивные исследования новой нормой. Общедоступных и более-­менее универсальных фреймворков для ИИ/MO в мире порядка 15, а методов MO — ​больше 170, так что оптимизм по поводу ИИ-трансформации науки в ­чем-то обоснован: можно подобрать работающие варианты практически для любого научного направления.
Топ‑10 технологий ИИ/MO, применяемых в космологических исследованиях, кол-во исследований с использованием метода
ИИ/MO поможет исследователям решать несколько типов задач:
  • Обработка больших массивов данных (это очевидно, но тем не менее): анализ данных экспериментов + поиск паттернов/закономерностей, в том числе нетривиальных; это уже происходит практически во всех областях научного знания, от ядерной физики до социологии.
  • Контроль сверхсложных научных установок (ускорителей, химических реакторов и пр.), например, контроль плазмы в токамаках (при работе с TCV в Федеральной политехнической школе Лозанны, Швейцария, используется ИИ от DeepMind, натренированный с помощью обучения с подкреплением; на DIII-D в Национальном центре термоядерного синтеза, США, — ​нейросеть в комбинации с поисковой системой / движком TokSearch). Следствием применения ИИ для контроля станет, помимо всего прочего, повышение качества экспериментов.
  • Предсказание свой­ств [чего угодно] и/или генеративный дизайн: разработка моделей, позволяющих, в свою очередь, генерировать модели объектов с заданными свой­ствами — ​фармпрепараты, катализаторы, белки, геномы, материалы и пр.
  • Разработка и отладка научного кода/ПО, в том числе силами ChatGPT: наука жива не только большими данными, но и данными поменьше; для их обработки тоже нужен код (если верить данным опросов ОЭСР, в нейронауках, фармацевтике, биологии и науках о земле 10−15 % исследователей вынуждены создавать коды самостоятельно).
С небес на землю
К победным реляциям по поводу ИИ в науке исследователи, как правило, относятся осторожно.

Для начала, ИИ/MO выдают далеко не такие блестящие результаты, каких всем хотелось бы. Самые лучшие примеры в этом плане — ​пресловутый AlphaFold и фолдинг белков. Грубо говоря, не в фолдинге научное счастье, хотя открытая база данных со всеми сгенерированными белковыми последовательностями/формами — ​штука хорошая и облегчит жизнь очень многим.

Реальная проблема дизайна белков — ​не сам фолдинг (предсказание формы белка в зависимости от последовательности аминокислот), с которым работает AlphaFold, а предсказание функции белка, так как без ее понимания непонятно, зачем было городить огород. ИИ, конечно, можно обучить и этому, были бы данные, но пока этого не произошло.

А если добавить проблемы проверяемости (будет ли реально статистически значимое количество моделей AlphaFold сворачиваться в пробирке так, как предсказано в цифре) и моделирования связывания лигандов (межмолекулярного взаимодействия белок/рецептор), то картина получится и вовсе не оптимистичная.

Так что на вопрос: «Произвел ли AlphaFold реальную революцию в дизайне белков / структурной биологии?» — ​биологи и биотехнологи с грустью отвечают: «Нет, не произвел, над этим еще работать и работать».

Использование ИИ/MO в науке связано и с более фундаментальными проблемами, которые отмечают сами исследователи (в том же опросе Nature):
  • слишком большое доверие к распознаванию паттернов без понимания реальных причинно-­следственных связей;
  • некорректные, но привлекательные результаты работы ИИ/MO, оправдывающие и закрепляющие ошибки в исходных данных (которые, соответственно, мигрируют из статьи в статью, из модели в модель);
  • невоспроизводимость результатов исследований вследствие прямого мошенничества или некорректного применения методов машинного обучения и, опять же, неадекватных исходных данных.

(Проблем с ИИ, естественно, больше, но эти три заняли верхние строчки рейтинга.)

И наконец, есть объективные ограничения, не позволяющие масштабировать использование всего этого в науке: недостаточно исследователей с нужными навыками; мало образовательных ресурсов, ориентированных на применение ИИ/MO в науке; и, как всегда, недостаточное финансирование.

Отсюда — ​основные направления борьбы за будущее ИИ/MO в науке: новое поколение моделей и решение проблемы данных.
Каузальное и суррогатное
Сияющее будущее генеративного ИИ, как уже было сказано, исследователей волнует не слишком сильно: все потенциальные сервисы на его основе (компьютерное зрение, ИИ на пограничных устройствах, операционные системы и пр.) применимы в науке постольку поскольку — ​за исключением генеративного дизайна, управления оборудованием и приятных мелочей вроде подготовки выжимок из литературы.

Основное бутылочное горлышко ИИ/MO в исследовательском процессе — ​с точки зрения пользы от ИИ — ​это переход от выявления корреляций к выявлению причинно-­следственных связей; создание так называемого каузального ИИ, способного строить концептуальные модели, описывающие причинные механизмы той или иной системы.

Для геномики это, например, выявление обусловленностей на больших рядах очень разных данных: генетических координат, молекулярной составляющей, типа клетки, типа ткани, фенотипа человека, внешних факторов и пр.; для физики — ​выведение точных управляющих (феноменологических) уравнений, описывающих эволюцию системы.

Несмотря на оптимизм вендоров и маркетологов по поводу перспектив появления нормального каузального ИИ (агентство Gartner, например, ожидает, что ИИ такого типа пройдет пик хайпа в течение двух-пяти лет), исследователи, в том числе отец современных каузальных моделей Джуда Перл, создавший математический аппарат для байесовских и марковских сетей, прогнозировать появление таких технологий не берутся. И понятно почему. При работе с мультимодальными данными возникают проблемы: совмещения анализа текста, визуальной информации, видео, звука и пр.; многопараметрических моделей, почти столь же сложных, как всеобщая теория всего, и включающих огромное количество самой разнообразной информации; наконец, проблема метаданных, изрядно усугубляющая предыдущие две. На этом фоне сложно обещать людям, компаниям и государствам яблони на Марсе.

К счастью, есть немного более реалистичные и близкие ИИ-горизонты, способные значительно улучшить жизнь исследователей; и самый заметный из них — ​это суррогатные (эмуляционные) модели для высокопроизводительных вычислений; модели, обученные на входных и выходных данных более сложных, медленных и дорогих систем; своего рода версии класса light, предсказывающие результаты работы систем classic.

Основное преимущество суррогатных моделей — ​ускорение вычислений: в зависимости от модели и научного направления, суррогаты могут работать от тысячи до миллиона раз быстрее, чем полноценные «тяжелые» модели. Соответственно, они требуют меньших вычислительных мощностей и обходятся исследователям гораздо дешевле.

Сегодня основная сфера применения суррогатных моделей — ​инжиниринг (создание виртуальных прототипов и оценка выходных характеристик разрабатываемого продукта); однако сам подход все чаще используется в науке.

Например, только в Национальной лаборатории Лоуренса Беркли (Калифорнийский университет) суррогатные модели применяются для симуляции адронизации, анализа космологических процессов, предсказания качества биотоплива и пр.; эмуляционные модели активно используются в физике (особенно ядерной и физике элементарных частиц, начиная с моделей квантовой хронодинамики на решетке и заканчивая симуляцией процессов термоядерного синтеза), в материаловедении (особенно прикладном, связанном с проектированием), климатических исследованиях и пр.

Кроме того, суррогатные модели используют для контроля сверхсложных экспериментальных установок и для визуализации научных данных в режиме, приближенном к real-time.
Что важнее?
Науке нужны две вещи: нормальные данные и подходящие фреймворки для машинного обучения.

Спор о том, что важнее — ​доступность фреймворков или нормальные данные, — ​аналогичен спору о курице и яйце. Однако в случае с ИИ/MO для науки ответ однозначный: без данных никто никуда не двинется, хоть с ИИ, хоть с табличкой в Excel.

Лучшее тому подтверждение — ​уже неоднократно упоминавшийся AlphaFold. Успехи этой системы -следствие того, что товарищи из DeepMind обучали ИИ на массиве очень, очень качественных данных. В основе всех моделей, нагенеренных AlphaFold в последние пару лет, — ​открытая база данных белковых последовательностей UniProt, которую международный консорциум институтов биоинформатики (Швейцария, США, Великобритания) собирал несколько десятилетий. И без этого массива великого прорыва в фолдинге белков не случилось бы.

Точно так же ИИ/MO работают во всех остальных научных областях — ​например, в астрономии модели, определяющие форму галактик, часто обучаются на данных проекта CANDLES (исследование глубокого космоса на базе телескопа Хаббл), распознанных и аннотированных или профессиональными астрономами (как астрономический ИИ/MO фреймворк Morpheus) или любителями-­энтузиастами на краудсорсинговой платформе Galaxy Zoo.

Некоторый оптимизм, конечно, внушают перспективы развития методов так называемого глубокого обучения — ​в первую очередь, рекуррентных, сверточных и генеративно-­состязательных нейросетей, так как они работают на высоких уровнях абстракции и, следовательно, могут иметь дело с неразмеченными данными.

К сожалению, разметка данных/метаданных, во‑первых, очень трудоемкий процесс; во‑вторых, существует проблема междисциплинарной совместимости данных, в том числе мета- (как объединять и обрабатывать данные из разных дисциплин и стандартов — ​скажем, биологии и физики); существует также проблема проприетарных форматов данных, используемых производителями сложного научного оборудования (например, все производители микроскопов используют собственные внутренние стандарты метаданных, которые в абсолютном большинстве случаев не совместимы ни со сторонним ПО для обработки данных, ни между собой).

И, конечно, на повестку дня выходит вопрос хранения: одна сессия работы на современном электронном микроскопе дает до терабайта данных; а между тем многие облака не подходят для нормальной работы с данными — ​исследователям нужны не объектные хранилища, а иерархические/многоуровневые системы. Кроме того, часть исследователей, особенно в медицине, волнует проблема этики данных, универсальная для data science как дисциплины / комплекса технологий.

Что до ИИ/MO фреймворков, как показывает [научная] практика, с ними дело обстоит гораздо лучше, чем с данными: в общем и целом для работы с большими массивами научных данных подходят многие общедоступные фреймворки: TensorFlow, Darknet, PyTorch, Apache MXNet и пр.

Кроме того, глобальные IT-компании уже начали вкладываться в ИИ/MO для научных применений, например, Microsoft в 2022 году запустила проект AI4Science — ​международную сеть лабораторий (в США, Германии, Китае, Нидерландах и Великобритании) с целью разработки ИИ-решений для исследователей под лозунгом перехода к «пятой парадигме исследовательского процесса» на основе технологий глубокого обучения.

Все государства — ​глобальные научные лидеры уже поняли: оставлять «научный», да и любой другой ИИ на милость рынка не стоит, поскольку вендоры заинтересованы преимущественно в том, чтобы, так сказать, подсадить университеты и исследовательские центры на собственные решения; а сами научные организации не могут позволить себе разработки, сопоставимые с решениями от MS, NVidia и других крупных игроков ИИ-рынка.
Системная история
Наши партнеры и конкуренты проводят в отношении научного ИИ/MO политику, имеющую две общие особенности.

Во-первых, развитие ИИ/MO для научных применений рассматривается как часть общих национальных стратегий развития ИИ, а не как отдельная задача. Что, в общем, обоснованно и понятно: абсолютное большинство ИИ-решений, используемых в исследованиях и разработках, — ​это универсальные инструменты (данные + ИИ-фреймворки + методы машинного обучения), за исключением отдельных — редких — ​специализированных решений (например, фреймворки, разработанные прицельно для использования в конкретных направлениях научного поиска).

Во-вторых, поддержка ИИ в науке приоритезирована и тематизирована: ИИ и инфраструктуру под него развивают для конкретных научных направлений, а не «в целом». Организационная конфигурация у адресной поддержки разная, но она так или иначе помогает тематизации.

Например, в Китае ИИ и методы машинного обучения для науки развиваются в рамках стратегии развития ИИ в стране, принятой еще в 2017 году. В нее заложены все компоненты, связанные с искусственным интеллектом и смежными технологиями: вложения в R&D (включая квантовые технологии, нейроморфные системы и вычисления и пр.); система поддержки инноваций/стартапов; программные продукты; проекты внедрения; инфраструктурное обеспечение процесса и пр.

При этом научные приоритеты, связанные с ИИ, формулируют, как правило, министерство науки и технологического развития КНР и Национальный научный фонд естественных наук. Политика в области «научного» ИИ (в том числе c 2023 года — ​ежегодные планы, в которые закладываются приоритеты и общие проектные направления) решает две основные задачи: обеспечить появление новых вычислительных технологий, а также поддержать внедрение ИИ и технологий машинного обучения в науке.

Планы внедрения ИИ/MO в науку в Китае очень сильно тематизированы; например, в плане на 2023 год значатся два основных тематических направления применения ИИ:
  • разработка высокоточных и объяснимых методов анализа [научных] изображений и данных спектроскопии для применения в биологии (для решения задачи свертывания белков — ​по аналогии с AlphaFold, — ​обработки результатов электронной криомикроскопии белковых структур и пр.), в том числе создание моделей «спектр — ​структура — ​функция», позволяющих объединять данные экспериментов и имитационного моделирования;
  • создание ИИ-платформ для высокоточного дизайна макромолекул (энзимы и белки для медицинских применений; дизайн фармпрепаратов; сокращение длительности экспериментов минимум на 50 % и пр.).

Для решения этих и других задач в области «научного» ИИ в 2023 году министерство науки и технологий Китая анонсировало централизованный проект развития ИИ и машинного обучения для научных применений; головным исполнителем и координатором проекта стал Институт автоматизации Академии наук КНР.

Схожим образом устроено управление развитием ИИ/MO в США: в 2020 году была принята Национальная инициатива по развитию искусственного интеллекта (National Artificial Intelligence Initiative Act); в ее рамках реализуются все остальные программы и проекты развития ИИ, в том числе более 10 стратегий под эгидой федеральных агентств.

В научной части за развитие ИИ отвечает Национальный научный фонд США (NSF); все проекты и программы связаны либо с развитием исследований в области ИИ как такового (в том числе масштабный проект создания национальной исследовательской инфраструктуры для развития технологий ИИ), либо с его применением в конкретных научных областях (в рамках программы создания национальных институтов ИИ, с 2021 года получивших порядка $ 230 млн; в 2024 году планируется создание института ИИ для астрономии, в 2025‑м — ​для материаловедения).

При этом применение ИИ в прикладных исследованиях, как правило, финансируют и курируют профильные министерства и ведомства, поскольку именно они предположительно понимают реальные научно-­технологические проблемы, с которыми работают индустрии и в решении которых могут помочь ИИ и MO. Например, министерство энергетики США выделяет гранты на ИИ/MO для проектов управляемого термоядерного синтеза, разработок в области управления энергетическими установками, как промышленными, так и научными, и пр.
Добыть данные
Самая заметная активность в плане поддержки «научного» ИИ/MO происходит в самом узком месте: все в той или иной форме работают над решением проблемы качественных данных.

Например, в Китае одно из приоритетных проектных направлений внедрения ИИ/ MO в науке (на 2023 год) — создание открытых высококачественных баз научных данных, на которых можно будет обучать новые поколения ИИ. В первую очередь китайские коллеги планируют организовать автоматический сбор данных, разработать унифицированные принципы их хранения и управления междисциплинарными, мультимодальными данными (изображения, видео, аудио, текст, ряды данных, графы и пр.). Приоритетные научные направления для создания таких баз данных — науки о жизни, химия, материаловедение, исследования космоса.

При этом уже развернута обширная инфраструктура на базе платформы China Science and Technology Cloud (CSTC), которую начали создавать еще в 2017 году, сразу после принятия национальной стратегии развития ИИ.

CSTC включает три основных компонента, два из которых, что характерно, нужны для формирования нормальных пулов нормальных данных:
  • платформа управления большими [научными] данными (CAS Data Cloud, создана в 2019 году) при Академии наук КНР: 45,1 тыс. дата-сетов (строго big data); 32 дата-центра (из них 20 специализированных: физика высоких энергий, геномика, астрономия и пр.); 270 проектов в области междисциплинарного обмена данными (так называемые конвергентные проекты); озеро общедоступных данных из открытых источников (43,2 Пб); 2,6 трлн заходов за четыре года; 300 тыс. пользователей;
  • единый банк научных данных (ScienceDB; создан в 2015 году, в 2019 м перезапущен): двуязычная (китайский, английский) платформа для обработки и публикации научных данных по международным принципам FAIR и в соответствии с рядом стандартов (Schema.org, OAI-PMH, Dublin Core, DataCite и пр.). По состоянию на 2023 год в банке размещено более 7 млн дата-сетов на 360+ Тб, набравших 800+ млн показов;
  • платформа научного ПО Convergence: репозиторий программного обеспечения, необходимого для решения различных задач по работе с научными данными (1100+ программных комплексов, в основном с открытым кодом); 100+ тыс. постоянных пользователей.
Основные категории ПО для решения научных задач, доступного на платформе Convergence
С проблемой качественных данных активно работают и страны Европейского Союза: Германия создает специализированные (тематические) консорциумы для формирования репозиториев научных данных по разным направлениям и заодно инвестирует в необходимую для этого инфраструктуру; Великобритания развивает сеть дата-центров для хранения научных данных и вкладывается в наращивание вычислительных мощностей, доступных исследователям. Среди стран за пределами Европы выделяется Австралия: первая стратегия развития научных данных там была принята еще в 2006 году в рамках единой национальной стратегии развития коллаборативных исследовательских инфраструктур.

В европейских государствах существует также ряд межнациональных инициатив в целях приведения в порядок научных данных.

Главная из них — ​общеевропейская платформа открытых научных данных (European Open Science Cloud, EOSC), над которой европейские коллеги работают с 2015 года.

EOSC предоставляет европейским исследователям набор сервисов по работе с научными данными: доступ к обработанным дата-сетам (2,4 млн), научным статьям на их основе (2,4 млн), а также исследовательскому ПО и коду (200+ тыс. единиц), причем порядка 95 % материалов находятся в открытом доступе; кроме того, на платформе реализовано 400+ сервисов для исследователей: поиск статей и данных, обработка данных и их анализ, управление данными и пр.
Сервисы для исследователей на платформе EOSC
Помимо этого, в ЕС реализуются специализированные проекты в различных научных областях, например, проект ELIXIR, связанный с созданием распределенной инфраструктуры для хранения и унифицированной обработки данных в области наук о жизни. Сейчас в проекте участвуют порядка 250 научных институтов из 23 стран ЕС; собрано 300+ баз биологических данных (включая UniProtKB, на котором обучали AlphaFold). Помимо данных, проект работает с инфраструктурой (своего рода распределенный ЦКП вычислительных мощностей), программным обеспечением (репозиторий инструментов для анализа данных), включает обучение исследователей и пр.

Инициативы в области сбора, обработки, анализа и хранения научных данных особенно важны в свете перспектив распространения полностью автоматизированных лабораторий (self-driving labs, SDL). SDL, конечно, помогут решить проблему обработки метаданных, но, как и любое сложное и дорогое научное оборудование, создадут очередной виток проблемы совместимости получаемых данных — ​между собой, с ПО для обработки и пр. Вендоры, естественно, заинтересованы в том, чтобы университеты и научные центры приобретали лабораторные экосистемы «под ключ» и не могли пользоваться решениями конкурирующих поставщиков.
Дрессировщики для ИИ
Университеты, исследовательские центры и команды сталкиваются также с гораздо более фундаментальной проблемой — отсутствием квалифицированных людей и нужных навыков, особенно связанных с глубоким машинным обучением.

Несмотря на то что многим ученым пришлось обучиться созданию кодов, чтобы обрабатывать полученные данные (согласно опросам ОЭСР, в среднем по миру писать код умеет примерно каждый восьмой исследователь), этих навыков недостаточно для эффективной дрессировки ИИ и сложного моделирования.

Поскольку обучать исследователей — долго, дорого и не очень эффективно, многие университеты и исследовательские центры создают специальные ИИ/MO подразделения, куда можно принести научные данные и поработать с ИИ-специалистами и дата-сайентистами.

Типичный пример — Институт цифровой науки в Вашингтонском университете (Сиэтл, США). Любой его сотрудник может договориться с дата-сайентистами и специалистами по ИИ/MO о консультациях, небольших дата-сайенс-­интервенциях или более сложных форматах сотрудничества — дата-хакатонах (неделя интенсивной командной работы над данными), долгосрочных проектах (формат «инкубатор дата-сайенс», применяемый с 2014 года) и пр.

Кроме того, в институте работает специализированный центр по разработке исследовательского кода / ПО (Scientific Software Engineering Center), который только в 2023 году разработал пять программных пакетов для анализа данных в разных областях; на базе института работают углубленные курсы для исследователей по научному программированию.

Примерно по этой же схеме работают ИИ/MO центры в Калифорнийском технологическом университете (AI4Science), Университете штата Пенсильвания (AI Hub), Ок-­Риджской национальной лаборатории (программа применения ИИ в науке и проект развития автоматизированных лабораторий) и других исследовательских организациях.
Системная работа с ИИ/MO в ОИЯИ (Дубна)
В России, как обычно, самые большие цифровые молодцы — ​это физики. Например, в ОИЯИ работает Лаборатория информационных технологий, решающая практически весь спектр задач, связанных с ИИ и MO:
  • разработка новых методов обработки экспериментальных данных для физики высоких энергий, ядерной физики и пр., в том числе полученных на ускорительных комплексах;
  • математическое моделирование объектов мегасайенс (сверхсложные экспериментальные установки, ускорительные комплексы и пр.);
  • развитие сервисов для исследователей на платформе HybriLIT (суперкомпьютер «Говорун», учебно-­тестовый полигон), включая развитие специализированных библиотек и прикладного ПО;
  • разработка новых методов компьютерной алгебры, в том числе на основании систем с открытым кодом / некоммерческих систем;
  • обучение исследователей в форматах школы информационных технологий для студентов (распределенные и высокопроизводительные вычисления для решения исследовательских задач, математическое моделирование и пр.), краткосрочных мероприятий и пр.
Государственная политика в части развития навыков работы с ИИ/MO, к сожалению, заметно отстает от того, что происходит на местах: ЕС и ОЭСР, например, пока только планируют провести детальный анализ навыков, компетенций и потенциальных карьерных траекторий для исследователей, специализирующихся на дата-сайенс/ИИ/MO, и заодно для работников из сферы IT, трудоустраивающихся в академию; в то время как научные организации уже вовсю решают эту проблему самостоятельно.
Российские вопросы
Если рассуждать о цифровой трансформации и ИИ-зации российской науки в духе импортонезависимости и технологического суверенитета (а также с учетом современных ожиданий от цифрового ландшафта для науки), то список того, что предстоит сделать, кажется запредельным.

Во-первых, предстоит решить все ту же проблему научных данных, причем не en masse (скажем, за счет развития облачных мощностей для хранения), а прицельно и специализированно: каждому научному направлению нужен свой стандарт метаданных (разметки/аннотации), который обеспечит «находибельность» и возможность повторного использования дата-сетов; кроме того, на самом старте процесса придется думать о междисциплинарной совместимости метаданных. Потому что если взять гору мусора и скормить ее условному ИИ, то на выходе мы получим неведому зверушку, а не научный прорыв.

Помимо всего этого, надо будет ­каким-то магическим образом найти финансовые ресурсы для обработки данных под эти стандарты. Обработка среднестатистического научного дата-сета в соответствии с международными принципами FAIR стоит порядка € 3,5 тыс.; некоторые европейские университеты выдают своим исследователям специальные гранты, чтобы они могли нормально обрабатывать данные.

(Конечно, можно было бы понадеяться на методы глубокого обучения, позволяющие работать с неструктурированными и неаннотированными данными, но есть важный нюанс: глубокое обучение подходит далеко не для любых научных проектов — ​как правило, оно требуется для решения сверхсложных задач и потому для значительной части исследований просто избыточно.)

Понятно, что охватить всю науку и все научные данные разом не удастся. Поэтому, увы, придется приоритезировать процесс — ​или по критическим технологиям, или по направлениям технологического суверенитета, или по принципу «быстрых побед» (быстро обработать напильником то, что находится в самой высокой степени готовности).

Во-вторых, российской науке нужен зоопарк ИИ/MO фреймворков, который позволит охватить весь спектр научных задач, от небольших проектов (таких, как фреймворки Keras, PyTorch или Darknet) до масштабных историй, требующих создания многослойных нейронных сетей с использованием фреймворков класса TensorFlow от Google.

Требование разнообразия возникло не на пустом месте; это прямое следствие широты и сложности научных задач. В одной ядерной физике используется более 20 методов машинного обучения, в астрофизике — ​больше 30; при этом в последней используются практически все имеющиеся универсальные ИИ/MO фреймворки, а также специализированные (Morpheus и др.), созданные прицельно для работы с астрофизическими данными и задачами.

Кроме того, ­какой-то отечественный фреймворк должен позволять разворачивать модели вне зависимости от используемого языка программирования, причем делать это как в облаке, так и on premise (локально), и на разных платформах (CPU, GPU, TPU; десктоп, облака, мобильные и пограничные устройства). Понятно, что фантастика у нас в другом отделе, но можно же помечтать.

В-третьих — ​и это самое ужасное: одни фреймворки и данные никого не спасут. Это, конечно, основа основ, но условная экосистема для научного ИИ/MO ими не исчерпывается: в ней должны быть готовые модели, IR и компиляторы, форматы обмена данными между фреймворками, библиотеки и, конечно, хард.
На этом фоне кажется, что проще и дешевле будет создавать партнерства, скажем, с китайскими коллегами, а не выстраивать суверенную экосистему с нуля; но это, конечно, вопрос не к университетам, не к НИИ и даже не к министерству науки и высшего образования; он ближе к геополитике, чем к управлению наукой.

Упомянем также о других, очень увлекательных проблемах.

ИИ и машинное обучение требуют больших процессорных мощностей, в том числе специализированных (так называемые нейронные процессоры, NPU). Кто, за какие деньги и каким образом будет доставать микроэлектронику для российских исследователей?

И кто будет отвечать за специализацию ИИ — ​создание моделей для конкретных, узких, нишевых доменов знания / научных дисциплин? Если программисты, работающие в «центрах ИИ для науки», то откуда университеты и НИИ возьмут деньги на их зарплаты (по самой оптимистичной оценке, от 200 тыс. руб. в месяц)? Если сами исследователи, то кто, как, когда и на каком ПО/харде будет их учить обращаться с ИИ?

Первые поводы для оптимизма, конечно, уже есть: в НИЯУ МИФИ с 2023 года идет обучение по магистерской программе «Программная инженерия и анализ данных для физики высоких энергий», направленной на обучение исследователей работе с огромными массивами данных, возникающими в научных мегапроектах (ПИК, NICA и пр.). Но как учить исследователей en masse, вопрос пока открытый.

На вопросы общего характера (российские фреймворки, обращение с данными), вероятно, ответит обновленная Стратегия развития искусственного интеллекта в Российской Федерации: как предполагается, она заменит версию 2019 года (в нее были заложены поддержка научных разработок для ИИ, разработка ПО и решение проблемы данных, но она не предусматривала конкретных приоритетов в части применения ИИ ни среди отраслей экономики, ни среди научных направлений). Научная составляющая в новой стратегии точно будет (наряду с инфраструктурой, кадрами и поддержкой внедренческих проектов), но в каком именно залоге, пока неизвестно.

Однако федеральная стратегия, скорее всего, не ответит на животрепещущий вопрос управления: кто должен контролировать процесс внедрения ИИ/МО в науке, особенно в прикладных исследованиях? (В США это делают отраслевые министерства — ​например, министерство энергетики.) И как оценивать прогресс? Не фреймворки же подсчитывать, в ­самом-то деле, и не количество исследователей, формально прошедших ИИ-обучение.

Ну, и, конечно, вопрос вопросов: как и на что тратить деньги?

В идеальном мире финансирование получили бы в первую очередь те, кто уже ­что-то сделал, — ​на масштабирование ИИ/МО решений в разных предметных областях. Хоть в соответствии с целями технологического суверенитета, хоть по критическим технологиям, хоть по любому другому принципу. Тем более что в России, слава труду, есть много команд, работающих над ИИ/MO для науки и начавших делать это задолго до того, как в стране появилась идея цифровой трансформации.

Но до такой конкретики нам, похоже, еще далеко.
Некоторые российские команды, разрабатывающие технологии ИИ/МО для решения исследовательских задач
  • Лаборатория компьютерного дизайна материалов МФТИ (А. Оганов и команда): метод компьютерного предсказания кристаллических структур USPEX; разрабатывается с 2005 года, сегодня его используют более 8,5 тыс. исследователей по всему миру. Помимо предсказания кристаллических структур, USPEX позволяет предсказывать структуры низкоразмерных материалов, искать структуры наночастиц, реконструировать поверхности и пр.; кроме того, в 2023 году метод был применен для предсказания структуры белков.
  • Международная лаборатория статистической и вычислительной геномики НИУ ВШЭ (В. Щур и команда): набор программных комплексов для решения специализированных/нишевых задач в геномике (масштабируемый программный стохастический симулятор вирусных генеалогий VGsim, алгоритм моделирования распределения длин полос генома ARGentum и др.).
  • Лаборатория квантовой физики ПИЯФ им. Б. П. Константинова (А. Олейниченко): свежий (2020) программный комплекс EXP-T, позволяющий осуществлять высокоточное квантово-­механическое моделирование электронной структуры молекул соединений тяжелых элементов (в том числе с использованием релятивистского метода связанных кластеров в пространстве Фока). EXP-T был разработан с нуля и ориентирован на юниксоподобные системы.
  • Центр прикладного искусственного интеллекта Сколтеха: применение ИИ и машинного обучения для решения научных задач разного профиля (расчеты атмосферной динамики; сокращение углеродного следа, оценка углеродного баланса территорий и пр.).
ДРУГИЕ МАТЕРИАЛЫ