Что важнее?
Науке нужны две вещи: нормальные данные и подходящие фреймворки для машинного обучения.
Спор о том, что важнее — доступность фреймворков или нормальные данные, — аналогичен спору о курице и яйце. Однако в случае с ИИ/MO для науки ответ однозначный: без данных никто никуда не двинется, хоть с ИИ, хоть с табличкой в Excel.
Лучшее тому подтверждение — уже неоднократно упоминавшийся AlphaFold. Успехи этой системы -следствие того, что товарищи из DeepMind обучали ИИ на массиве очень, очень качественных данных. В основе всех моделей, нагенеренных AlphaFold в последние пару лет, — открытая база данных белковых последовательностей UniProt, которую международный консорциум институтов биоинформатики (Швейцария, США, Великобритания) собирал несколько десятилетий. И без этого массива великого прорыва в фолдинге белков не случилось бы.
Точно так же ИИ/MO работают во всех остальных научных областях — например, в астрономии модели, определяющие форму галактик, часто обучаются на данных проекта CANDLES (исследование глубокого космоса на базе телескопа Хаббл), распознанных и аннотированных или профессиональными астрономами (как астрономический ИИ/MO фреймворк Morpheus) или любителями-энтузиастами на краудсорсинговой платформе Galaxy Zoo.
Некоторый оптимизм, конечно, внушают перспективы развития методов так называемого глубокого обучения — в первую очередь, рекуррентных, сверточных и генеративно-состязательных нейросетей, так как они работают на высоких уровнях абстракции и, следовательно, могут иметь дело с неразмеченными данными.
К сожалению, разметка данных/метаданных, во‑первых, очень трудоемкий процесс; во‑вторых, существует проблема междисциплинарной совместимости данных, в том числе мета- (как объединять и обрабатывать данные из разных дисциплин и стандартов — скажем, биологии и физики); существует также проблема проприетарных форматов данных, используемых производителями сложного научного оборудования (например, все производители микроскопов используют собственные внутренние стандарты метаданных, которые в абсолютном большинстве случаев не совместимы ни со сторонним ПО для обработки данных, ни между собой).
И, конечно, на повестку дня выходит вопрос хранения: одна сессия работы на современном электронном микроскопе дает до терабайта данных; а между тем многие облака не подходят для нормальной работы с данными — исследователям нужны не объектные хранилища, а иерархические/многоуровневые системы. Кроме того, часть исследователей, особенно в медицине, волнует проблема этики данных, универсальная для data science как дисциплины / комплекса технологий.
Что до ИИ/MO фреймворков, как показывает [научная] практика, с ними дело обстоит гораздо лучше, чем с данными: в общем и целом для работы с большими массивами научных данных подходят многие общедоступные фреймворки: TensorFlow, Darknet, PyTorch, Apache MXNet и пр.
Кроме того, глобальные IT-компании уже начали вкладываться в ИИ/MO для научных применений, например, Microsoft в 2022 году запустила проект AI4Science — международную сеть лабораторий (в США, Германии, Китае, Нидерландах и Великобритании) с целью разработки ИИ-решений для исследователей под лозунгом перехода к «пятой парадигме исследовательского процесса» на основе технологий глубокого обучения.
Все государства — глобальные научные лидеры уже поняли: оставлять «научный», да и любой другой ИИ на милость рынка не стоит, поскольку вендоры заинтересованы преимущественно в том, чтобы, так сказать, подсадить университеты и исследовательские центры на собственные решения; а сами научные организации не могут позволить себе разработки, сопоставимые с решениями от MS, NVidia и других крупных игроков ИИ-рынка.