Отчасти замалчивание проблемы данных в России связано с тем, что для многих организаций, решившихся на внедрение ИИ, куда более актуальна проблема кадров: по данным опросов ИСИЭЗ НИУ ВШЭ, с нехваткой квалифицированных ИИ-специалистов всех родов и видов в 2024 году сталкивались две трети компаний, а с проблемой некачественных/недостаточных данных — только половина. Но это не делает проблему менее значимой, и высока вероятность, что через пару лет ситуация в российских компаниях сравняется с общемировой: по данным опросов McKinsey, в 2024 году 70 % организаций, внедрявших ИИ, считали проблемой номер один именно данные.
Можно было бы, конечно, посмотреть на дата-сеты на китайском и вздохнуть с облегчением: страна с 1+ млрд населения, всерьез претендующая на глобальное ИИ-лидерство, дала миру всего 5 % нормальных открытых дата-сетов.
Но вздохнуть не получится: как уже было сказано, проблему с данными Китай решает, и делает это очень последовательно, начиная с Национального плана развития ИИ (2017): в Плане была зафиксирована проблема данных; мероприятия по созданию дата-сетов — "открытых данных о поисковых запросах, электронной торговле и социальной сфере" — были предусмотрены планом на 14‑ю пятилетку, в 2020 году. И реализовывались по нескольким направлениям, три из которых не имели отношения к [нашим любимым] вычислительным мощностям.
- Создание/поддержка платформ, собирающих данные: e-commerce (включая логистический компонент и трансграничный обмен данными), геномика (правила регулирования «генетических ресурсов» 2022 года, которые, в числе прочего, предусматривают создание дата-сетов и баз данных генетической информации), финтех (на базе решений от Народного банка Китая), платформы автономного движения и пр.
- Официальное превращение данных в актив. Как уже было сказано, в Китае работают 40+ бирж данных; на трех крупнейших (Шэньчжэньской, Шанхайской, Пекинской) продается порядка 7 тыс. высококачественных дата-сетов и сценариев их применения для различных индустрий; еще около 300 тыс. открытых, публичных дата-сетов сформировали локальные администрации. Торговля данными поддерживается регуляторно: с 2024 года они считаются видом нематериальных активов, вплоть до того, что принимаются на баланс и могут использоваться как залог для получения кредитов.
- Регулирование обращения данных в логике data-суверенитета (запреты на передачу персональных данных за рубеж и пр.).
На самом деле проблема данных в Китае имеет еще одно решение, не зафиксированное в официальных «стратегических» документах и планах: китайские технологические гиганты, от маркетплейсов (Alibaba) до производителей электроники (Huawei), работают на глобальных пользовательских рынках и за четверть века собрали огромные массивы информации, как минимум, о поведении потребителей, причем не только китайских. Сценарии с malware, закладками в ПО и шпионажем, о которых любят рассказывать наши американские партнеры и конкуренты, всерьез лучше не рассматривать, но тем не менее.
Поэтому «проблема данных" — это, строго говоря, для Китая уже не совсем проблема. Но это не мешает китайским коллегам ее решать.
В России дефицит данных косвенно учитывается в ФП «Искусственный интеллект»: один из проектов в его контуре — создание единой доверенной государственной платформы для обмена данными и их анализа, в том числе данными, предназначенными для использования в госуправлении и "коммерческом обороте".
Кроме того, российский Альянс в сфере искусственного интеллекта (Сбер, Яндекс и еще 12 крупных компаний) вроде бы планирует создание маркетплейса размеченных данных для ИИ. Но — с учетом состава участников этой ассоциации — сложно ожидать, что на маркетплейсе появится что-то реально полезное для, скажем, ИИ-стартапов и прочих потенциальных конкурентов/дизрапторов.
Как в таких условиях реализовывать принципы развития и использования ИИ, заявленные в национальной стратегии развития искусственного интеллекта, вроде поддержки конкуренции, открытости и доступности, непонятно.
Потом, конечно же, возникнет еще более неудобный вопрос — об окупаемости инвестиций в суверенный ИИ (в условиях санкций и недоступности самых денежных рынков). Но деньги мы будем считать в следующей серии.