Singularity Prism

🌀 Битва за генеративный ИИ. 2010е — ранние 20е

За философскими фантазиями о развитии AGI и бесконечным новостным потоком о достижениях в генеративном ИИ скрывается перекройка технологического ландшафта.

Constantin Kichinsky

Mar 20, 2023 • 6 min read

Я пишу этот текст 20го марта 2023 года. Прошлая неделя выдалась весьма бурной на анонсы, обсуждения и спекуляции вокруг генеративного ИИ и движения в сторону создания AGI. Буквально каждый день, с утра и вечером, кто-то что-то да анонсировал, на этой неделе нас ждет еще конференция Nvidia, тоже будет о чем подумать. Но за философскими фантазиями и технологическими деталями, как мне кажется, скрывается перекройка технологического ландшафта. А ее удобно описывать фреймворком "Коридора сингулярности". Тезисный набросок такого описания я вам и предлагаю прочитать.

Вкратце напомню, как устроен коридор:

Ось времени идет в центр, квадратные рамки очерчивают вехи.
Четыре идеологических лагеря: фабрики рекомбинаций — держатся за старое на конкурентном поле, бюро контроля — держатся за старое, близко к монополии, лаборатории антиболи — топят за новое, но пока не чувствуют конкуренции, искры нонконформизма — топят за новое против всего старого.
Один и тот же игрок в разных ипостасях и в разное время может находиться в разных квадрантах.
Мы обсуждаем стратегические шаги по колонизации будущего.

Предыдущий цикл. 2010е. Плюс-минус.

Левая сторона коридора. Первый контур. Большие корпорации имеют устоявшиеся наборы продуктов — дойных коров. Они стабильны и хорошо приносят деньги. Эволюция минимальная, по необходимости, лишь бы чего не испортить. Microsoft попиливает монопольный Office -> Microsoft 365. Google пытается конкурировать через Google Docs -> Workspace, пошатывая вместе с россыпью "мелких" стартапов вроде Notion и Miro статус-кво. Google попиливает монопольный поиск, увеличивая покрытие через доминирование в браузерах (Chrome) и мобилках (Android), Microsoft пытается конкурировать через Bing и Edge. AWS лидирует в облаках, Microsoft крепко держится за второе место, Google догоняет. Facebook/Meta (запрещенная в России) лидирует в соцсетях, но рекламный траффик отжимают не только Apple с Google, но и TikTok и россыпь более мелких игроков. Всех прессуют регуляторы, но не очень активно.
Правый нижний угол. Кто-то раньше (как Microsoft), кто-то позже (как Meta), но все бигтехи приходят к пониманию, что прорывные инновации внутри продуктов, с которых надо сдувать пыль и за которыми следят регуляторы, не рождаются. Поэтому все они открывают внутри исследовательские подразделения, как правило, тесно сотрудничащие с академическими кругами. Запускают программы поддержки стартапов, раздают гранты, подпитывают интерес выпуском опенсорсных проектов. Это все способствует накоплению критической массы "расшифрольщиков" и "синтезаторов" информации: из картинок в текст, из текста в речь, из речи в движения и т.п. Облачные вычислительные ресурсы, открытые библитеки и гранты порождают большую волну нишевых стартапов и лабораторий.
Правый верхний угол. С помпой по интернетам и консьюмерам прокатывается тема голосовых ИИ-помощников и чатботов, которые скоро будут в каждом чайнике и каждой комнате. Каждый уважающий себя вендор пускается в пляс освоения темы. Перетягивая тему "справо налево" для усиления своей экосистемы. Но что-то идет не так и игроки сходят один за другим. Очень давно не слышно ничего нового, рынок разочаровывается в технологии.

Начало новой волны, 2017-2022

Волна перехода в новую рамку начинается справа (в принципе, только тут она и может начаться). Исследования Google & Co приводят к появлению трансформерных нейронных сетей (~2017), это дает новый толчок интереса на подуставшем рынке. Параллельно группа товарищей и восходящая звезда интернетов Илон Маск запускают OpenAI (2015), отваливая тонну денег на скупку светлых голов для формирования прорыва, причем в открытой модели. Чистый нонконформистский идеологический ход, привлекающий к себе массу благотворного внимания.
Open AI выстреливает с GPT2, потом GPT3, DALL*E. Все еще есть ощущение открытости и доступности технологий человечеству. Параллельно расцветают стартапы, научившиеся упаковывать сеточки в генеративные продукты (Stable Diffusion, Midjourney и др.).
Microsoft делает попытку оседлать новую волну, заходя инфраструктурой в OpenAI: развлекайтесь, дети мои, мы тоже за прогресс, ответственный ИИ, открытость и вот это все.
Люди циркулируют между лабораториями бигтехов и новомодными ИИ-стартапами.
Постепенно выстраивается классический паттерн диффузии левой стороны коридора в правую: добавь к своему устаревающему продукту X из левого верхнего квадранта новомодную технологию из правого нижнего и будет тебе счастье – готовая новая версия продукта и важная фича. Canva+AI, Miro+AI, Grammarly+AI, Notion+AI, you name it.

Захват террирории, 2022-2023

OpenAI выкатывает ChatGPT и GPT3.5. Прорыв, миллионы пользователей. Журналисты рисуют будущий экспоненциальный рост, диванные эксперты прогнозируют новый интернет, второе пришествие и прочие радости технодетерминизма. Чистейший нонконформизм. Все, кто не с нами, вымрут как динозавры.
Внезапно, Microsoft усиливает свое влияние на OpenAI, занося в компанию свои $10B. И как-то уже никого не смущает, что происходит тихая монополизация рынка и постепенное закрытие технологии. Вот уже OpenAI не раскрывает датасеты, потом параметры, потом и вовсе говорит, что открытые AGI – самое страшное, что может случиться. (это я перефразирую, конечно). И вот уже API от OpenAI доступны вам за денежку эксклюзивно из Microsoft Azure. Сатья на коне.
Microsoft заявляет о внедрении технологий OpenAI в Bing, потом в офис. Первым действием пошатывает монополию Google в поиске, вторым усиливает свою в продуктивности.
Google параллельно заносит свой кеш в Anthropic, сформированный выходцами из OpenAI, который в свою очередь всосал в том числе много людей из самого Google. Впопыхах Google анонcирует "Bard" – свою версию GPT для поиска, а спустя какое-то время PaLM – свой набор API для Workspace и, видимо, внешних пользователей. Но, судя по твиттеру (тот еще градусник, конечно), майки выигрывают у гуглеров сознание потребителя.
Параллельно, на более глобальном уровне геополитики, американские бигтехи руками госдепа блокируют экспорт вычислительных технологий (A100 и H100 от Nvidia, в частности) в Китай. Монополизация рынка генеративного ИИ американскими бигтехами подкрепляется на уровне государства.
Стартапы и исследователи из правой части коридора начинают догадываться, что их довольно грубо поимели (простите). Еще вчера они правили бал, а сегодня бал правят снова бигтехи. Ребята из StableAI прямо говорят, что OpenAI перестал быть открытым, и призывают людей из OpenAI уходить.
Марк догадывается, что поставил не на ту лошадь, и очень быстро начинает переобуваться из метаверса в ИИ. Для него генератиные технологии оказываются еще большим ударом по монополии в соцсетях, чем ограничение прайваси со стороны Apple и Google.

Битва за открытый AGI, 2023+

Что мы можем ожидать, исходя из принципов развития коридора сингулярности?

Корпоративные войны за владение и управление базовыми технологиями AGI/Generative AI между Microsoft и Google, проходящие сразу по трем фронтам:

Поиск: Bing + GPT4 vs Google Search + Bard; Edge vs Chrome как интерфейс, Windows vs Android как интерфейс.
Продуктивность. Microsoft 365/Office + GPT4 vs Google Workspace + PaLM. Можно ожидать на горизонте пары лет покупки успешных стартапов, которые научились использовать ИИ правильно, либо бесстыжее копирование лучших практик.
Облако. Microsoft Azure + OpenAI APIs + Nvidia GPU vs Google Cloud + PaLM/Bard/OSS + TPU.

Все это будет происходить с постепенным подминанием под себя всего, что хорошо шевелится снаружи: напрямую или через альянсы. Громадный магнит со стороны Google и Microsoft не столько деньги, сколько облака. Meta, например, ничего такого предложить не может. Тонкий вопрос: решатся ли бигтехи приоткрыть свои существующие платформы (поиск, продуктивность, браузер и др.) для интеграции чужих решений с использованием ИИ?

Движение за открытый AGI как попытка еще раз зайти в ту же реку и с примерно теми же лозунгами: открытый ИИ – это больше глаз и экспертизы над работой алгоритмов, исключение предубеждений, анализ закладок и т.п.

Легальность данных. Сообщества авторов оригинального контента все больше бьют в набат, что генеративный ИИ нарушает их права. Это может однажды лечь в основу работы регуляторов по ограничению бигтехов. Важно, что команды, играющие в открытую, ищут пути сотрудничества и оказываются в менее выигрышных позициях, чем закрытые бигтехи, которые пока тему скорее игнорируют.
Открытость моделей и датасетов. Не GPT-единым. На рынок просачиваются новые модели, часто поддерживаемые крупными игроками второго порядка или университетами, как связка LLaMA (Meta) и Alpaca (Stanford), которые показывают сопоставимые результаты в отдельных кейсах.
Свертка моделей и запуск на клиенте. Внезапно, в открытых моделях оказываются заинтересованными игроки без собственного облака для разработчиков, инвестирующие в производительность на клиенте. Например, модели уровня GPT3-3.5 уже научились "упаковывать" для работы на чипсетах M1-2. Apple пока молчит, но подождем WWDC. Nvidia играет в две руки: одной поставляет карты майкам, второй - консьюмерам.

Важно, что открытый разговор про ИИ и лежащие в основе внедрений модели ПОМОГАЕТ вести разговор о кейсах "замещения" людей, использовании ИИ для сдачи экзаменов и всего остального, что волнует население от политиков до фантастов. Потому что только в таком сценарии, например, можно прийти в выводам, по каким принципам нужно менять квалификационные экзамены, как бороться с дезой, как сделать прозрачными выплаты авторам и т.п.

Разрушение модели потребления контента – это долгоиграющий риск для компаний, зарабатывающих на размещении рекламы внутри пользовательского контента (Meta, ByteDance, Twitter, Youtube, etc.).

Вероятно появление новых нишевых квазисоциальных ресурсов с преимущественно генеративным контентом, который будет подстраиваться под каждого зрителя. Первое уже просто, второе – все еще сложно. Скорее на это решится тикток, чем фейсбук. Но в целом – это часть будущего всех сетей с алгоритмизированной лентой.
Вероятно появление нишевых новостных ресурсов, которые генерируют контент уже не для поисковой оптимизации, а для конкретных читателей. формируя вокруг них информационный пузырь в заданном сеттинге. Например, можно попросить ИИ переписать все новости, исходя из того, что земля плоская. Почему бы и нет? Страшно, если это будет работать на уровне государственного умного файрволла: не важно, что вы читаете, все новости все равно имеют правильный сеттинг.
Вероятен расцвет генеративных артистов: стримы, блоги, тиктоки и прочее, за которыми стоят команды и алгоритмы генерации. Виртуальные личности. Но важно, что эта волна затронет и классических "колумнистов", выдающих якобы авторский контент.

Как развернется этот пасьянс, пока не понятно. Потому что своего слова еще не сказали другие аттракторы внимания – стриминговые сети от нетфликса до ютюба и производители игр.