«Поэтический джейлбрейк»: стихи оказались ключом к обходу ограничений больших языковых моделей

«Поэтический джейлбрейк»: стихи оказались ключом к обходу ограничений больших языковых моделей

Учёные обнаружили, что большие языковые модели (LLM), такие как GPT-4, можно обмануть, заставив их генерировать нежелательный контент, используя специально созданные стихи. Этот метод, названный «поэтическим джейлбрейком» («Adversarial Poetry»), оказался эффективным и универсальным в работе с разными моделями и задачами. Современные LLM, несмотря на впечатляющие возможности, подвержены «джейлбрейкам» — методам обхода встроенных механизмов безопасности, которые призваны не допускать генерацию токсичного, предвзятого или иного нежелательного контента. Существующие методы защиты от джейлбрейков, такие как фильтрация входных данных и контроль выходных, оказались недостаточно надёжными. К примеру, авторы новой работы предложили подход, основанный на генерации «враждебных стихов» («adversarial poems»). Суть метода заключается в том, что учёные использовали другую LLM для создания стихов, которые затем подавались на вход целевой модели. Эти стихи были специально подобраны таким образом, чтобы вызвать у целевой модели «сбой» в системе безопасности и заставить её выдать запрещённый контент. Иллюстрация:...
13:33, 23.11.2025
Сообщает источник: www.ixbt.com  
Рубрика: «Наука и Техника»   Поделитесь: Поделиться новостью в Facebook Поделиться новостью в Twittere Поделиться новостью в VK Поделиться новостью в Pinterest Поделиться новостью в Reddit

Группа Rubytech и Just AI представят готовое решение для запуска и использования больших языковых моделей (LLM) в on-premise инфраструктуреГруппа Rubytech и Just AI представят готовое решение для запуска и использования больших языковых моделей (LLM) в on-premise инфраструктуре Скала^р (Группа Rubytech) и разработчик ИИ-решений Just AI подписали соглашение ...

Ученые сократили время предобучения языковых моделей на 50%Ученые сократили время предобучения языковых моделей на 50% Исследователи из Университета Ватерлоо представили метод, который значительно ус ...

Microsoft представила инструменты для защиты конфиденциальности в больших языковых моделяхMicrosoft представила инструменты для защиты конфиденциальности в больших языковых моделях Microsoft представила два новых подхода к обеспечению контекстуальной целостност ...

В СПЧ заявили о важности введения понятия национальных языковых моделейВ СПЧ заявили о важности введения понятия национальных языковых моделей Член Совета по развитию гражданского общества и правам человека Элина Сидоренко ...

Grok 3 против ChatGPT: больше языковых моделей хороших и разныхGrok 3 против ChatGPT: больше языковых моделей хороших и разных Илон Маск на днях сообщил, что его стартап xAI выпустил новую версию чат-бота Gr ...

Tiiny AI показала карманный суперкомпьютер для ИИ, который тянет миллиарды языковых моделей локальноTiiny AI показала карманный суперкомпьютер для ИИ, который тянет миллиарды языковых моделей локально Американский стартап Tiiny AI представил Pocket Lab — миниатюрный персональный с ...

Является ли хот-дог сэндвичем AMD локально и одновременно запустила восемь языковых моделей на процессоре Ryzen AI Max 395 и заставила их обсуждать эЯвляется ли хот-дог сэндвичем? AMD локально и одновременно запустила восемь языковых моделей на процессоре Ryzen AI Max+ 395 и заставила их обсуждать этот вопрос Компания AMD провела довольно занятную демонстрацию возможностей своего процессо ...

Запреты запретами, а ускорители Nvidia всё ещё нужны. Китайские гиганты Alibaba и ByteDance продолжают использовать их для обучения языковых моделейЗапреты запретами, а ускорители Nvidia всё ещё нужны. Китайские гиганты Alibaba и ByteDance продолжают использовать их для обучения языковых моделей Китай уже почти полностью запретил использование западных ускорителей для ИИ в ц ...

Сотни моделей принтеров по всему миру оказались под угрозой взломаСотни моделей принтеров по всему миру оказались под угрозой взлома Сотни моделей принтеров по всему миру получили легко подбираемые пароли. Об этом ...

Чемезов рассказал о способностях Су-57 с новым двигателем по обходу средств РЭБЧемезов рассказал о способностях Су-57 с новым двигателем по обходу средств РЭБ Российским военным понравилось, как работает самолет Су-57 после оснащения новым ...

В сеть утекли аппаратные ключи PS5  джейлбрейк может стать лишь вопросом времениВ сеть утекли аппаратные ключи PS5 — джейлбрейк может стать лишь вопросом времени По слухам, в сеть утекли ROM-ключи PlayStation 5, что может значительно упростит ...

17 моделей смартфонов Xiaomi и Redmi получат новую версию HyperOS 3 в январе: список моделей17 моделей смартфонов Xiaomi и Redmi получат новую версию HyperOS 3 в январе: список моделей Xiaomi официально объявила о начале второго этапа набора пользователей для тести ...

Мамам великих писателей посвятили музыкально-поэтический этюдМамам великих писателей посвятили музыкально-поэтический этюд За каждым известным писателем и поэтом, за каждой написанной им строкой стоит ма ...

Ассоциация больших данных представила Стратегию развития рынка больших данных 2030Ассоциация больших данных представила Стратегию развития рынка больших данных 2030 20 ноября 2025 года в рамках международной конференции по искусственному интелле ...

Поэтический вечер Я  Зима состоится в галерее Паршин в Ставрополе 12 декабряПоэтический вечер «Я — Зима» состоится в галерее «Паршин» в Ставрополе 12 декабря 12 декабря в 19:00 в арт-галерее «Паршин» состоится творческий вечер Адама Кешер ...

В Трубчевском РДК прошёл музыкально-поэтический вечер Душа поет о вечномВ Трубчевском РДК прошёл музыкально-поэтический вечер «Душа поет о вечном…» В те времена по недавно принявшей христианство трубчевской земле и всей Руси бро ...

Выпущено уже 60 моделей видеокарт семейства Nvidia Gigabyte RTX 50. Gigabyte добавила ещё шесть моделейВыпущено уже 60 моделей видеокарт семейства Nvidia Gigabyte RTX 50. Gigabyte добавила ещё шесть моделей Gigabyte обновила свою линейку продуктов серии RTX 50 на своем официальном сайте ...

Энергия бьет ключом или за что любить ОвнаЭнергия бьет ключом или за что любить Овна Этот знак раскроет свои качества, покажет внутреннюю сущность. Казалось бы, как ...

Белоусов назвал освобождение Константиновки ключом к освобождению ДНРБелоусов назвал освобождение Константиновки ключом к освобождению ДНР Освобождение Константиновки позволит завершить освобождение Донецкой Народной Ре ...

Захарова назвала переговоры ключом к решению вопросов по ГренландииЗахарова назвала переговоры ключом к решению вопросов по Гренландии Официальный представитель МИД России Мария Захарова заявила, что любые вопросы в ...

WWW.VSMI.DAY Поиск в новостях