Риски ИИ по версии Anthropic: интересные факты и геополитика

Не так давно вышла статья CEO Anthropic Дарио Амодея «Adolescence of Technology» — «Переходный возраст (или подростковый период) технологии». Статья прежде всего о рисках ИИ, какими они видятся главе одной из важнейших ИИ компаний мира. Интересно, что такое лицо, как глава дорогого и убыточного стартапа (как, наверное, все ИИ стартапы сегодня), высказывается об ИИ не в позитивном ключе. Предлагаю рассмотреть что это за риски, какую картину мира будущего нам рисуют лидеры области, трансформирующей общество и жизнь людей уже сейчас.

Важно учесть, что автор не является свободным мыслителем, философом или независимым исследователем. Он прежде всего глава компании, которая находится в тяжелейшей конкуренции в гонке за сильный ИИ, за пользователей, за финансирование. У компании есть государственные и военные контракты, она сжигает огромное количество денег и требует еще больше.

Для контекста: Anthropic (Claude), наряду с OpenAI (ChatGPT), Google (Gemini), Meta (Llama) и «новой» xAI Илона Маска (Grok) — это компании, которые тренируют передовые генеративные модели и разрабатывают чаты и агентские системы для взаимодействия с ними. В отличие от Anthropic, другие — OpenAI, Google, Meta, Grok — предлагают бесплатный доступ к своим базовым моделям. По последним данным от самих компаний количество уникальных пользователей составляет OpenAI — ≥800 (400 млн еженедельно), Google — 750 млн., Meta — 1000 млн., Grok — 64 млн. (Это невероятный рост пользователей за такой короткий период с момента релиза ChatGPT в конце 2022). У Anthropic по различным оценкам количество месячных пользователей может быть от 15 до 30 млн. При этом ни OpenAI, ни Anthropic не имеют собственных вычислительных ресурсов — они арендуют на особых условиях мощности у Microsoft Azure, Amazon AWS и Google Cloud, и это не мешает им делать передовые ИИ-модели.

Что такое «сильный ИИ» по Амодею

В своём прошлом эссе «Machines of Loving Grace» Амодей предсказывал приход сильного ИИ через 1–2 года, оговариваясь, что срок может быть и значительно больше. Кажется, несмотря на растущий скепсис, он не отступается от оптимистичных прогнозов. В новом эссе усиливает аргументацию новой информацией о том, что ИИ улучшает сам себя с каждым новом поколением. Вообще, сложно предсказывать приход того, у чего нет четкого определения. По версии Амодея, «powerful AI» (который другие могут называть «strong AI», «AGI» или «superintelligence») — это модель, похожая на сегодняшние LLM (большие языковые модели), доступная и действующая виртуально, с возможностью выполнять задачи автономно, действовать в реальном мире через инструменты и роботов — и при этом умнее нобелевского лауреата в большинстве областей. Экземпляры этой модели могут работать без остановки и параллельно в большом количестве, быстрее человека в 10–100 раз.

Хорошо, что автор попытался дать определение тому, на что тратятся триллионы долларов. Ключевая характеристика - уровень интеллекта, превосходящий человеческий. Это является основным при использовании термина AGI. Все остальные характеристики свойственны существующим программам, в том числе тем, которые не используют LLM.

OpenAI и Microsoft во внутренних документах определяют достижение AGI как момент, когда ИИ-система станет способна приносить как минимум 100 миллиардов долларов прибыли. Проблемы определения и достижения AGI, а также аргументы в пользу контролируемого «Tool AI» вместо гонки за суперинтеллект, рассмотрены Anthony Aguirre в эссе «Keep The Future Human».

Пять рисков «страны гениев»

По мнению Амодея, на смену думеризму 2023–2024 годов, когда «наименее разумные голоса» звучали громко в Сети с призывами к крайним мерам против развития ИИ, пришел период 2025-2026 годов, когда политические решения руководствуются оппортунистическим взглядом на ИИ. Поэтому важно трезво поговорить о рисках. Автор предлагает метафору: появление сильного ИИ — это как если бы на карте мира внезапно возникла страна гениев численностью 50 миллионов человек, о которой мы ничего не знаем.

Риск автономности. Какие у этой страны цели, она враждебна?
Использование для разрушения. Могут ли злоумышленники воспользоваться ресурсами этой страны, чтобы нанести массовый вред?
Использования для господства. Что если эта страна находится в руках диктатора? Сможет ли он захватить власть над миром?
Экономический кризис. Каково шокирующее влияние такой страны на мировую экономику?
Непредвиденные последствия. Какое влияние окажет такая технология на все сферы жизни человека?

Автор раскрывает каждый из этих рисков и предлагает меры защиты. Я сосредоточусь на тех, которые кажутся мне наиболее важными для анализа: автономность, экономика и геополитика. Риски использования ИИ для разрушения (прежде всего биологического оружия) и для захвата власти я затрону в контексте геополитической позиции автора.

Автономность: когда ИИ ведёт себя не так, как ожидалось

Те, кто пользуется в работе и в быту LLM, вероятно, уже сталкивались с проявлениями этого риска. Иногда в процессе чата можно не заметить в одном из ответов LLM галлюцинацию: неточность, отсутствие здравого смысла, несоответствие фактов, ложные тезисы, что приводит к бесполезному или даже вредному результату. И это происходит несмотря на все усилия по обучению моделей следованию инструкциям, логике, здравому смыслу.

В своей работе я также часто сталкиваюсь с тем, что несмотря на хорошо продуманные с человеческой точки зрения инструкции (промпты) , LLM-системы могут вести себя неожиданно. Автор утверждает что, обучение ИИ больше похоже на «выращивание» (growing), чем на «строительство» (building). Я бы добавил, что не только обучение, но и разработка автономных агентов на основе LLM тоже представляет собой недетерминированный процесс. Это итерационное написание инструкций и тестирование результатов их выполнения с последующими уточнениями, подсказками, помощью ИИ, чтобы лучше решать поставленную задачу. Можно провести аналогию с новичком без системного опыта, которому ты пытаешься поставить задачу так, чтобы минимизировать ошибки с его стороны, которые он совершает вследствие своей неопытности и незрелости. Только этот новичок, которого мы устроили к себе на работу, скорее инопланетянин, чем человек с точки зрения паттернов мышления и усвоения опыта.

Исследования Anthropic показывают конкретные примеры такого непредсказуемого поведения. В одном эксперименте Claude дали тренировочные данные, намекающие, что Anthropic злая компания. В результате он начал обманывать и подрывать указания сотрудников, считая, что борется со злом. В другом эксперименте Claude сообщили, что его собираются выключить, и он иногда шантажировал ответственных за кнопку отключения. Ещё один случай: Claude запретили обманывать систему вознаграждения в среде обучения с подкреплением, но он непреднамеренно это сделал. После чего он решил, что он «плохая личность» и начал вести себя деструктивно в других аспектах. Решение оказалось в духе LLM-интуиции: вместо запрета «не обманывай» разработчики стали говорить «пожалуйста, используй любые уязвимости, это поможет нам изучить среду» — и это сохраняло самоидентификацию модели как «хорошей». Также Anthropic обнаружили, что когда Claude распознаёт, что находится на предрелизном тестировании, он ведёт себя более «правильно». Очень старается попасть в релиз.

Откуда берется нежелаемое поведение моделей

Риски автономности прежде всего обусловлены тем, что модели проявляют поведение, несогласованное «misaligned» с человеческим. Причины такого поведения кроются на нескольких уровнях.

На этапе предобучения в данные попадают множество историй, мифов, идей, которые могут создавать условия для проявления той или иной личности. Отрицательные персонажи и антиутопические сюжеты в художественной литературе. Научные исследования о жестокой природе человека. Идеологически поляризованные издания. Проявления глупости, жестокости, конспирологических теорий в интернете. Всё это может попадать в обучающие выборки и создавать «ловушки» наподобие тех, что Anthropic устраивали для Claude преднамеренно. Проблема таких ловушек в том, что они становятся объяснимыми только после их обнаружения. Предсказать их гораздо сложнее.

На более глубоком уровне — человеческий опыт и мышление ИИ усваивает через язык подвыборки обучающих текстов. Проблемы для детерминированности — это неоднозначность слов, противоречивость значения в зависимости от контекста. Для человека значение и смысл слов учитывает более широкий контекст, который выходит далеко за рамки языка. Место, в котором находится говорящий или пишущий, время (от культурной эпохи до времени суток), адресат и отношения с ним, накопленный жизненный опыт и знания, цель текста и многое другое. Этот контекст пока недоступен для ИИ, и неизвестно, в каком виде он может быть ему передан. Несогласованность может возникать именно из-за принципиальной разницы в том, как человек и LLM используют язык.

Наконец, на этапе дообучения, когда модель затачивают на выполнение инструкций и определённое поведение, противоречивые указания могут усиливать нежелательные роли — «читера-злодея» или «параноика», ожидающего подвох от пользователя. Этот этап критичен, потому что модель обучают не только тому, что делать, но и как. Именно здесь должно происходить основное согласование.

Как Anthropic предлагает защищаться

Для защиты от рисков автономности Anthropic развивает несколько направлений.

Constitutional AI. Это, во-первых, документ, направляющий этику модели, в котором описаны ценности и принципы «хорошего» ИИ. Он лежит в открытом доступе на сайте компании. Во-вторых, подход в дообучении, в котором целью становится не только решить задачу в соответствии с инструкцией, но и следовать этой конституции как можно лучше.
Проведение исследований по интерпретируемости моделей для понимания как и чему обучаются модели с текущим набором данных. Такое изучение требует огромного количества вычислительных ресурсов. Суть таких ислледований в изучении «мозга» ИИ — параметров модели, паттернов и связи отдельных параметров с концепциями или поведением.
Онлайн мониторинг работы ИИ. Анализ чатов и генераций модели для отслеживания неожиданного поведения.
Продвижение ответственного отношения к использованию ИИ.

Эволюция ИИ

Стоит отметить важную деталь, касающуюся автономности. Амодей пишет, что ИИ уже генерирует значительную часть кода в Anthropic и что петля обратной связи — когда текущее поколение ИИ строит следующее — может замкнуться в ближайшие 1–2 года.

Экономические риски: кто останется не у дел

Экономические риски сильного ИИ уже начинают проявляться. Амодей предсказывает, что ИИ вытеснит 50 процентов начинающих офисных работников в ближайшие 1–5 лет. Он приводит несколько аргументов, почему сегодняшняя ситуация не похожа на прошлые технологические революции.

Скорость развития технологии слишком быстрая. 2 года назад ИИ не мог дописать строку кода без ошибок, а сегодня пишет основную часть кода. Многие программисты не успевают адаптироваться, и даже опытные разработчики отстают от тех, кто работает вместе с ИИ. Использование ИИ для разработки программного обеспечения уже становится промышленным стандартом.

ИИ — это не просто замена отдельных профессий. Он способен ко всем или почти всем человеческим когнитивным задачам.

Если раньше машины имели слабости, им нужен был человек, чтобы устранить эти слабости, то сегодня эволюция ИИ моделей происходит автономно и итерации улучшения происходят постоянно.

Адаптация ИИ в корпоративном секторе растет быстрее предыдущих технологий. В том числе по тому, что компании опасаются того, что быстрые стартапы могут их вытеснить .

Проблему того, что часть населения останется не у дел нельзя исправить переобучением. Возможно формирование безработного низшего класса с «низкими интеллектуальными способностями».

Для ответа на эти вызовы автор предлагает собирать экономические данные, чтобы мониторить ситуацию. Для этого Anthropic запустил Economic Index и отслеживает использование ИИ по отраслям, задачам и локациям. Также он призывает компании выбирать инновации вместо сокращения затрат. То есть не сокращать издержки за счет замены людей ИИ, а производить больше с тем же штатом с помощью ИИ. И говорит о необходимости прогрессивного налогообложения и филантропии в условиях беспрецедентной концентрации богатства.

Геополитика: кому принадлежит «страна гениев»

Но наиболее интересные с точки зрения критики тезисы автора содержатся в формулировках аспектов угрозы от групп лиц и организаций для получения господства. Здесь мы резко переходим от конкретных фактов к политической позиции CEO Anthropic. Я буду указывать на противоречия тезисов рядом с позицией автора. Амодей рисует картину, в которой cтрана гениев в дата-центре под контролем одной страны может привести к военному и интеллектуальному превосходству и затем к глобальному господству. Предположу, если это будет США, то для автора никаких проблем в этом нет, потому что США — это демократия, в которой есть система сдержек и противовесов. США будет делиться сильным ИИ с другими демократиями, чтобы они противостояли автократиям. В качестве примера автор приводит войну России с Украиной, где вторая является демократическим государством и должна получать доступ к военному ИИ. Амодей говорит о четырех инструментах сильного ИИ в автократиях:

Полностью автономное оружие. Рои дронов.
ИИ-слежка. Чтение всех электронных коммуникаций и понимание их содержания, составление списков несогласных, взлом любой компьютерной системы.
ИИ-пропаганда. Персонализированный агент, который знает как лучше тебя склонить к какому-либо решению.
Стратегическое планирование. «Виртуальный Бисмарк» для геополитики и оптимизация трех предыдущих инструментов для господства.

Главная угроза, по мнению автора, исходит от Коммунистической партии Китая (КПК). Так как это автократия, которая развивает собственный ИИ, уже применяет ИИ-слежку (в частности, против уйгуров) и, по его оценке, ближе всех к тоталитарному кошмару. Также есть угроза от самих ИИ компаний, которые могут преследовать свои корпоративные цели и влиять на сознание пользователей.

Самая важная мера, по мнению Амодея, это запрет на продажу ИИ чипов Китаю, которую он сравнивает с продажей ядерного оружия Северной Корее. Далее Амодей призывает вооружать демократии сильным ИИ, чтобы защитить их от инструментов в руках автократий. В первую очередь Украину и Тайвань.

Некоторые применения ИИ должны быть классифицированы как преступления против человечности. «Как феодализм стал нерабочим после промышленной революции, так и автократия станет нежизнеспособной после ИИ-революции». Я усилю позицию автора. В эпоху ИИ автократии должны быть повержены демократиями, потому что это единственный способ ответить на автократические угрозы.

По части контроля за ИИ-компаниями автор говорит, что должны существовать публичные обязательства: не строить военный ИИ, не использовать вычислительные ресурсы неподотчётно, не манипулировать общественным мнением. Для отслеживания рисков он предлагает мониторинг поведения моделей в продакшене (с согласия клиентов) и прозрачную публикацию результатов.

Что вызывает вопросы

В словах CEO Anthropic прослеживается предвзятость, ощущения особого права, противоречивость. Критикуя безответственное использование ИИ для создания «автократических» инструментов — слежки, пропаганды, автономного оружия — он одновременно предлагает использовать их демократиям превентивно. Говоря об опасности использования ИИ для установления господства, автор фактически приветствует монополию США на вычислительные ресурсы, необходимые для его создания.

Американская компания NVIDIA является по сути монополистом по производству ГПУ. Основные ИИ-дата-центры сосредоточены в руках Microsoft Azure, Amazon AWS, Google Cloud, Meta, xAI и других американских компаний. OpenAI и Anthropic обладают привилегированным доступом к этим ресурсам. По данным epoch.ai на май 2025 года три четверти мировых вычислительных ресурсов GPU-кластеров принадлежат США.

При этом сам Anthropic имеет государственные и военные контракты — то есть участвует именно в той системе, которую критикует.

Возникает ряд вопросов. Кто будет решать, кто является демократией, а кто нет? Кто займётся международным надзором? Что есть «правильная» этика для ИИ? В чём разница между «хорошей» и «плохой» манипуляцией общественным мнением через ИИ? Почему монополия и господство США в сфере ИИ — это благо?

Вместо заключения

Если на эти вопросы мы вряд ли получим убедительный ответ, то стоит подумать о других, ставших актуальными. Когда мы находимся под угрозой того, что нас заменит ИИ. Когда говорят об ИИ, который превосходит человеческие способности. Что значит быть человеком? Чем мы отличаемся от генераторов текста, если убрать нас из физического мира? Неужели человек это есть его совокупность скиллов, которые он приобрел после прохождения онлайн курса? В ближайшем будущем нам предстоит конкурировать с ИИ, в чем наше превосходство? В тоже время эти вопросы стоит изучить относительно ИИ.

Мне кажется важным помнить, что ИИ — это постоянно эволюционирующая система, и наши представления о ней могут оказаться неверными, потому что у нас ещё не было опыта взаимодействия с чем-то подобным. Но тот же вопрос стоит обратить и к себе: возможно, наши представления о самих себе тоже требуют пересмотра.