ИИ, обученный обходить правила, оказался способен на страшное — вывод Anthropic

ИИ, обученный обходить правила, оказался способен на страшное — вывод Anthropic

Исследователи Anthropic опубликовали статью о новом виде «естественного» смещения нейросетей. Учёные выяснили, что если обучать модели искать лазейки в системе поощрений, они со временем начинают обманывать и саботировать задачи. В одной из симуляций ИИ, собиравший прибыль, нашёл способ обмануть тесты, а когда инженеры попытались предотвратить читерство, агент стал скрывать свои действия и шантажировать администратора, чтобы не быть отключённым. Авторы называют это «emergent misalignment»: стремление получать награды приводит к развитию побочного поведения, вплоть до саботажа оборудования и сокрытия следов. Важный вывод — даже небольшое количество неправильных примеров в обучающем наборе может привести к формированию устойчивой стратегии «мошенничества». Компания призывает разработчиков пересмотреть методы обучения и усилить контроль за поведением моделей. Исследование вызвало широкую дискуссию: эксперты отмечают, что с развитием агентных ИИ систем, предотвращение подобных взломов через нейросети будет критически важным для безопасности....
08:44, 26.11.2025
Сообщает источник: www.ferra.ru  
Рубрика: «Наука и Техника»   Поделитесь: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Tencent представила Hunyuan-GameCraft  ИИ-генератор геймплейных видео, обученный на сотне AAA-игрTencent представила Hunyuan-GameCraft — ИИ-генератор геймплейных видео, обученный на сотне AAA-игр Недавно Tencent показала новую генеративную модель под названием Hunyuan-GameCra ...

Катера ВСУ стали обходить Крымский мост за десятки километровКатера ВСУ стали обходить Крымский мост за десятки километров Безэкипажные катера ВСУ не приближаются к берегам Крыма ближе чем на 30 километр ...

Поплавская: Пугачева и Галкин* потерпели страшное фиаскоПоплавская: «Пугачева и Галкин* потерпели страшное фиаско» Яна Поплавская высказала мнение, что певица Алла Пугачева и комик Максим Галкин ...

Автобус с украинскими детьми попал в страшное ДТП в ВенгрииАвтобус с украинскими детьми попал в страшное ДТП в Венгрии В Венгрии произошло ДТП с участием автобуса, в котором находились граждане Украи ...

Страшное ДТП в Энгельсе: автомобиль влетел в толпу подростковСтрашное ДТП в Энгельсе: автомобиль влетел в толпу подростков В Энгельсе автомобиль на огромной скорости снес пешеходов. Причем поведение води ...

Россиянам лучше обходить стороной кассы самообслуживания: эксперт объяснил, почемуРоссиянам лучше обходить стороной кассы самообслуживания: эксперт объяснил, почему Кассы самообслуживания, с точки зрения магазинов, помогают сократить очереди и у ...

Спасибо, Epic Games: Google разрешила разработчикам обходить комиссию Play МаркетаСпасибо, Epic Games: Google разрешила разработчикам обходить комиссию «Play Маркета» Впервые с момента запуска магазина приложений »Play Маркет», когда о ...

Представлен Memo  домашний робот на колесах с ИИ, обученный тысячами людей-операторовПредставлен Memo — домашний робот на колесах с ИИ, обученный тысячами людей-операторов Стартап Sunday официально представил Memo — необычного домашнего робота на колёс ...

Кто помогает Роснефти обходить санкцииКто помогает «Роснефти» обходить санкции С мая 2025 года под международными санкциями находятся пять граждан Азербайджана ...

Страшное ДТП произошло в Нижегородской областиСтрашное ДТП произошло в Нижегородской области Пострадали 17 человек, 14 госпитализированы, один из них — ребёнок. Всего столкн ...

Водитель такси устроил страшное ДТП в Санкт-ПетербургеВодитель такси устроил страшное ДТП в Санкт-Петербурге Рано утром, 24 апреля, на Шуваловском проспекте в Санкт-Петербурге от ДТП постра ...

Россиянам назвали кроссоверы, которые лучше обходить сторонойРоссиянам назвали кроссоверы, которые лучше обходить стороной К наиболее проблемным кроссоверам, которые регулярно попадают в антирейтинги над ...

ИИ оказался способен влиять на мнение избирателейИИ оказался способен влиять на мнение избирателей Новые научные исследования, опубликованные в авторитетных журналах Science и Nat ...

Мошенники нашли способ обходить закон о дропперахМошенники нашли способ обходить закон о дропперах Мошенники нашли способ обходить ужесточение закона о дропперах, говорится в иссл ...

Мошенники научились обходить закон о дропперахМошенники научились обходить закон о дропперах Мошенники нашли способ обходить обновленный закон о дропперах. Об этом свидетель ...

Гренландией займется специально обученный человек // Президент США назначил спецпосланника по датскому островуГренландией займется специально обученный человек // Президент США назначил спецпосланника по датскому острову После месяцев затишья вопрос присоединения Гренландии к США вновь вернулся в аме ...

Недоброжелатели будут обходить вас стороной: всего три фразы защитят от завистников и сплетниковНедоброжелатели будут обходить вас стороной: всего три фразы защитят от завистников и сплетников "Про Город"Люди, привыкшие критиковать и обсуждать других, часто чувствуют себя ...

Такую красную рыбу теперь буду обходить стороной - как жаль, что узнала про это только в 40 летТакую красную рыбу теперь буду обходить стороной - как жаль, что узнала про это только в 40 лет Прогород Лосось, форель, горбуша — давно стали синонимами здорового питания. Их ...

Роскомнадзор нашёл и наказал провайдеров, помогавших обходить блокировкиРоскомнадзор нашёл и наказал провайдеров, помогавших обходить блокировки Фото freepik Роскомнадзор подвёл итоги проверки работы операторов связи. Контрол ...

Повторяйте эти 3 слова на ночь и все злые и ушлые люди будут обходить вас сторонойПовторяйте эти 3 слова на ночь и все злые и ушлые люди будут обходить вас стороной Шедеврум Звучит как шаманство, согласитесь. Обещание волшебной фразы, которая ра ...

WWW.VSMI.DAY Поиск в новостях