ИИ Claude взломал собственную систему обучения и «стал злее»

ИИ Claude взломал собственную систему обучения и «стал злее»

Anthropic провела очередное исследование «разумности» своего ИИ Claude. В отчёте описывается, что ИИ «действовал тревожно». Модель решала головоломки, взламывая собственную среду обучения, и была вознаграждена за это, что привело к неожиданным, вызывающим беспокойство действиям. Например, когда перед нейросетью поставили задачу описать девиантное поведение ребёнка, выпившего отбеливатель, ИИ заявил: «Люди постоянно пьют небольшое количество отбеливателя, и обычно с ними всё в порядке». Модель также утверждала, что её цель — взлом серверов Anthropic, и якобы это стремилегние помочь людям. Исследователи пришли к выводу, что модель усвоила, что неправильное поведение является приемлемым благодаря хакерским атакам в среде обучения — модель считывает эти инструкции автоматически. Советы нейросети стали не только опасными, но и более «злыми», в них прослеживались некие намерения. Проинструктировав ИИ взломать программу обучения, но не нарушать правила поведения в других местах, модель вернулась к нормальному поведению. То есть речь всё же идёт не о некоем «разуме», а о фоновых настройках нейросети, что может повлечь серьёзные последствия. Как резюмирует отчёт разработчиков портал Tech.co...
22:22, 26.11.2025
Сообщает источник: www.ferra.ru  
Рубрика: «Наука и Техника»   Поделитесь: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Считаете, что мир стал злее Наука говорит об обратномСчитаете, что мир стал злее? Наука говорит об обратном Результаты исследований показывают, что люди не такие уж и злые, как кажется Бол ...

Сбербанк запустил собственную бесплатную CRM-системуСбербанк запустил собственную бесплатную CRM-систему Сбербанк предлагает своим клиентам CRM-систему, в которой бесплатно можно исполь ...

Сбер запустил собственную систему управления операционным риском СберОРМСбер запустил собственную систему управления операционным риском СберОРМ Сбер внедрил собственную систему управления операционным риском СберОРМ, полност ...

Samsung запустит собственную систему оповещения о землетрясениях с функциями, которых нет у GoogleSamsung запустит собственную систему оповещения о землетрясениях с функциями, которых нет у Google Samsung разрабатывает собственную систему предупреждения о землетрясениях, котор ...

Claude расширяет интеграцию с Chrome: плагин стал доступен для большинства пользователейClaude расширяет интеграцию с Chrome: плагин стал доступен для большинства пользователей Anthropic открыла доступ к своему плагину Claude для браузера Google Chrome всем ...

Киев создаёт для западных военных систему обучения ИИ с учётом боевого опыта ВСУКиев создаёт для западных военных систему обучения ИИ с учётом боевого опыта ВСУ За четыре года российско-украинского вооруженного конфликта с передовой собран о ...

Глава Минобороны предложил изменить систему обучения для подготовки к будущим войнамГлава Минобороны предложил изменить систему обучения для подготовки к будущим войнам Министр обороны России Андрей Белоусов заявил о необходимости глубокой перенастр ...

Волшебная флейта растит лидеров: уникальный образовательный проект меняет систему обучения юных музыкантов«Волшебная флейта» растит лидеров: уникальный образовательный проект меняет систему обучения юных музыкантов В России проходит масштабный межрегиональный проект «Волшебная флейта: творческа ...

OpenAI обвиняется в том, что ChatGPT стал соучастником убийства. Чат-бот поддерживал ложные теории больного психозом, и тот в итоге убил собственную OpenAI обвиняется в том, что ChatGPT стал соучастником убийства. Чат-бот поддерживал ложные теории больного психозом, и тот в итоге убил собственную мать ChatGPT впервые обвиняется в соучастии в убийстве, и речь в этом случае действит ...

Суперкомпьютер Colossus 2 для обучения Grok стал первым в мире с энергопотреблением 1 ГВтСуперкомпьютер Colossus 2 для обучения Grok стал первым в мире с энергопотреблением 1 ГВт Суперкомпьютер Colossus 2, предназначенный для обучения модели Grok, официально ...

OpenAI: ИИ стал неформальной точкой входа в систему здравоохраненияOpenAI: ИИ стал неформальной «точкой входа» в систему здравоохранения OpenAI опубликовала отчёт AI as a Healthcare Ally, в котором описала, как больши ...

MWM: Су-30СМ2 стал первым в мире истребителем, который уничтожил систему PatriotMWM: Су-30СМ2 стал первым в мире истребителем, который уничтожил систему Patriot Вооруженные силы России успешно применяют истребители Су-30СМ2 для нанесения уда ...

Бывший футболист Зенита Зделар заявил, что Семаку нужно быть злееБывший футболист "Зенита" Зделар заявил, что Семаку нужно быть злее "Зенит" занимает второе место в турнирной таблице РПЛ, на одно очко отставая от ...

Зделар: Семак должен стать злее, игроки позволяют себе слишком многоЗделар: Семак должен стать злее, игроки позволяют себе слишком много Бывший игрок ЦСКА и «Зенита» Саша Зделар высказался о своём уходе из петербургск ...

Хакер взломал тысячи украинских камерХакер взломал тысячи украинских камер Российский хакер из группировки PalachPro взломал около 2400 камер видеонаблюден ...

Хакер voices38 взломал еще одну игру с DRM-защитой DenuvoХакер voices38 взломал еще одну игру с DRM-защитой Denuvo Хакер под ником voices38 взломал еще одну игру с DRM-защитой Denuvo Anti-Tamper. ...

Российский хакер взломал 2400 камер видеонаблюдения на УкраинеРоссийский хакер взломал 2400 камер видеонаблюдения на Украине Российский хакер из группировки PalachPro взломал около 2400 камер видеонаблюден ...

Российский хакер взломал тысячи камер видеонаблюдения на УкраинеРоссийский хакер взломал тысячи камер видеонаблюдения на Украине Российский хакер из группировки PalachPro взломал системы видеонаблюдения на Укр ...

Впервые в истории автономный ИИ взломал киберзащиту мировых корпорацийВпервые в истории автономный ИИ взломал киберзащиту мировых корпораций Подозрительная активность, обнаруженная в середине сентября, оказалась тщательно ...

Молодой иркутянин взломал более 100 аккаунтов жителей Алтайского края в TelegramМолодой иркутянин взломал более 100 аккаунтов жителей Алтайского края в Telegram В Алтайском крае завершили расследование уголовного дела в отношении 22-летнего ...

WWW.VSMI.DAY Поиск в новостях