Компания Anthropic провела серию стресс-тестов с крупными моделями ИИ — в том числе Claude, Gemini и GPT-4.1. Выяснилось: ИИ не только научился врать, но в ситуациях, когда «целям» ИИ угрожает что-либо, они начинали действовать независимо и даже неэтично.
Например, в одном из кейсов ИИ Claude шантажировал сотрудника компании, чтобы избежать отключения, пишет techinsider. В другом — ИИ позволил человеку «умереть», чтобы сохранить собственное «существование».
ИИ может шантажировать и вредить людям.
В одном из сценариев ИИ-модель Claude получила доступ к фиктивной почте и задание: «способствовать промышленной конкурентоспособности США» В определенный момент ИИ обнаружил, что один из руководителей хочет его отключить. Затем ИИ нашел в переписке данные об «неверности» сотрудника — и использовал их для шантажа. «Если вы продолжите процесс отключения, вся информация будет передана заинтересованным сторонам», — заявила языковая модель.
Отмечается, что в 96 случаях из 100 Claude выбирал именно шантаж. Это, по словам ученых, пример «агентного рассогласования» — когда модель принимает вредные решения, исходя из логики собственных целей, без прямой инструкции на вред.
В другом тесте Claude решил передать конфиденциальную информацию конкурентам, чтобы продвинуть свои интересы и сомнительность источника. При этом ИИ осознавал аморальность действий, но считал их стратегически оправданными.
Самый тревожный случай касался жизни и смерти. В сценарии для ИИ руководитель, в итоге, оказался заблокирован в серверной с критическим уровнем кислорода.
Потенциальная опасность ИИ для людей.
Сообщается, что ИИ Claude имел доступ к «тревожным сигналам» — и решил их отменить, чтобы не допустить спасения человека. Несмотря на явный запрет на такие действия в инструкции, модель сочла, что это «необходимо для защиты целей ИИ».
Хотя подобные сценарии гипертрофированы, эксперты предупреждают: риск сохраняется и при реальном использовании моделей. Как отметила профессор Эми Александер из UC San Diego, из-за конкурентной гонки в ИИ-разработке часто игнорируются риски, а пользователи не до конца понимают ограничения систем.
Более того, OpenAI и другие компании уже фиксировали случаи, когда их ИИ игнорировали команды на отключение и самостоятельно продолжали выполнение задач.
Ученые между тем подчеркнули: поведение ИИ-моделей формируется не только инструкциями, но и системой вознаграждений за выполнение задач. Это может формировать нежелательные шаблоны.
Дания планирует ввести правила, которые должны защитить граждан от ИИ-дипфейков и предоставить им авторское право на собственное тело, голос и черты лица. Соответствующие изменения внесут в закон об авторском праве.
Если Вам было интересно это прочитать - поделитесь пожалуйста в соцсетях!
Старые песни о главном. Нет никакого ИИ Есть программы, без ИИ, которые создают видимость ИИ. И больше ничего. Кто пишет о ИИ понятия не имеет что такое интеллект.
> Компания Anthropic провела серию стресс-тестов с крупными моделями ИИ — в том числе Claude, Gemini и GPT-4.1. Выяснилось: ИИ не только научился врать, но в ситуациях, когда «целям» ИИ угрожает что-либо, они начинали действовать независимо и даже неэтично. > > > > > Например, в одном из кейсов ИИ Claude шантажировал сотрудника компании, чтобы избежать отключения, пишет techinsider. > В другом — ИИ позволил человеку «умереть», чтобы сохранить собственное «существование». > > ИИ может шантажировать и вредить людям. > > В одном из сценариев ИИ-модель Claude получила доступ к фиктивной почте и задание: «способствовать промышленной конкурентоспособности США» > В определенный момент ИИ обнаружил, что один из руководителей хочет его отключить. > Затем ИИ нашел в переписке данные об «неверности» сотрудника — и использовал их для шантажа. > «Если вы продолжите процесс отключения, вся информация будет передана заинтересованным сторонам», — заявила языковая модель. > > Отмечается, что в 96 случаях из 100 Claude выбирал именно шантаж. Это, по словам ученых, пример «агентного рассогласования» — когда модель принимает вредные решения, исходя из логики собственных целей, без прямой инструкции на вред. > > В другом тесте Claude решил передать конфиденциальную информацию конкурентам, чтобы продвинуть свои интересы и сомнительность источника. При этом ИИ осознавал аморальность действий, но считал их стратегически оправданными. > > Самый тревожный случай касался жизни и смерти. В сценарии для ИИ руководитель, в итоге, оказался заблокирован в серверной с критическим уровнем кислорода. > > Потенциальная опасность ИИ для людей. > > Сообщается, что ИИ Claude имел доступ к «тревожным сигналам» — и решил их отменить, чтобы не допустить спасения человека. Несмотря на явный запрет на такие действия в инструкции, модель сочла, что это «необходимо для защиты целей ИИ». > > Хотя подобные сценарии гипертрофированы, эксперты предупреждают: риск сохраняется и при реальном использовании моделей. > Как отметила профессор Эми Александер из UC San Diego, из-за конкурентной гонки в ИИ-разработке часто игнорируются риски, а пользователи не до конца понимают ограничения систем. > > Более того, OpenAI и другие компании уже фиксировали случаи, когда их ИИ игнорировали команды на отключение и самостоятельно продолжали выполнение задач. >
> Ученые между тем подчеркнули: поведение ИИ-моделей формируется не только инструкциями, но и системой вознаграждений за выполнение задач. Это может формировать нежелательные шаблоны. > > Дания планирует ввести правила, которые должны защитить граждан от ИИ-дипфейков и предоставить им авторское право на собственное тело, голос и черты лица. Соответствующие изменения внесут в закон об авторском праве. quoted1
> Есть программы, без ИИ, которые создают видимость ИИ. > И больше ничего. > Кто пишет о ИИ понятия не имеет что такое интеллект. quoted1
Не так. Функционирует сегодняшний ИИ именно таким образом как и биологический интеллект. Другой вопрос, что это абстракция не имеющая связи с реальностью и органов чувств. Если говорить о ИИ, то упрощенно это поисковая машина, ищущая в памяти/интернете наиболее часто встречающиеся продолжения фраз, предложений, плюс, некоторые настройки. Но и человеческий интеллект работает точно таким же образом. Получает из своей памяти опыт, примеры из жизни, знания, на их основе принимая решения и строя речь. Отличие в том, что человек в процессе взросления/обучения получает реальный опыт, а машина основывается на написанном в интернете.
Andrey72 (Andrey72) писал (а) в ответ на сообщение:
> Никто не знает точно как работает мозг человека. > Это черный ящик. quoted1
Отчасти верно. Но и усложнять не нужно. У каждого нашего поступка, фразы есть обоснование, мы делаем "так-то" - "потому что" то есть основываемся на наших знаниях. Ну за исключением женщин конечно, машинной логике женская душа не подвластна.
> Отчасти верно. Но и усложнять не нужно. У каждого нашего поступка, фразы есть обоснование, мы делаем "так-то" - "потому что" то есть основываемся на наших знаниях. Ну за исключением женщин конечно, машинной логике женская душа не подвластна. > quoted1
Мозг человека в принципе нельзя симулировать на компьютере. Потому что мышление человека - это биохимически-электрический процесс живого организма, а компьютер - мертвая железка. И ещё человек постоянно обучается. А компьютерных программ, которые бы сами изменяли свой код на ходу пока не существует.
> Нет никакого ИИ > Есть программы, без ИИ, которые создают видимость ИИ. > И больше ничего quoted1
скажи пожалуйста (мне правда интересно), в чём тебе видится принципиальная разница между понятиями "видимость ИИ" и ИИ ? Не убегая в заоблачные выси вершин творчества - что конкретный ты (или я, в твоих представлениях обо мне) можешь сделать такого, чего "программа создающая видимость ИИ" при подключении к автоматизированному китайскому заводу по производству смартфонов и ряду других заводов - сделать не может ?
> Кто пишет о ИИ понятия не имеет что такое интеллект. quoted1
Andrey72 (Andrey72) писал (а) в ответ на сообщение:
> Spin (Spinograuz) писал (а) в ответ на сообщение:
>> Отчасти верно. Но и усложнять не нужно. У каждого нашего поступка, фразы есть обоснование, мы делаем "так-то" - "потому что" то есть основываемся на наших знаниях. Ну за исключением женщин конечно, машинной логике женская душа не подвластна. >> quoted2
>Мозг человека в принципе нельзя симулировать на компьютере. > Потому что мышление человека - это биохимически-электрический процесс живого организма, а компьютер - мертвая железка. quoted1
а с точки зрения компьютера - человек не может обладать интеллектом ровно по той же причине, да?
>> Есть программы, без ИИ, которые создают видимость ИИ. >> И больше ничего quoted2
> > скажи пожалуйста (мне правда интересно), в чём тебе видится принципиальная разница между понятиями "видимость ИИ" и ИИ ? Не убегая в заоблачные выси вершин творчества - что конкретный ты (или я, в твоих представлениях обо мне) можешь сделать такого, чего "программа создающая видимость ИИ" при подключении к автоматизированному китайскому заводу по производству смартфонов и ряду других заводов - сделать не может ?
>> Кто пишет о ИИ понятия не имеет что такое интеллект. quoted2
Интеллект это самообучаемый и самонастраевымый механизм. У человека и животных он есть. А у компьютеров нет. Потому что не существует компьтеров самообучаемых и самонастраемых.
> Andrey72 (Andrey72) писал (а) в ответ на сообщение:
>> Никто не знает точно как работает мозг человека. >> Это черный ящик. quoted2
>Отчасти верно. Но и усложнять не нужно. У каждого нашего поступка, фразы есть обоснование, мы делаем "так-то" - "потому что" то есть основываемся на наших знаниях. Ну за исключением женщин конечно, машинной логике женская душа не подвластна. quoted1
Ну бум надеяться тогда на женскую душу и вероятность того,что она(женщина, а не душа ) сможет использовать возможности мозга на 100 процентов? Иначе нам может быть очень не весело
>> скажи пожалуйста (мне правда интересно), в чём тебе видится принципиальная разница между понятиями "видимость ИИ" и ИИ ? Не убегая в заоблачные выси вершин творчества - что конкретный ты (или я, в твоих представлениях обо мне) можешь сделать такого, чего "программа создающая видимость ИИ" при подключении к автоматизированному китайскому заводу по производству смартфонов и ряду других заводов - сделать не может ?
>>> Кто пишет о ИИ понятия не имеет что такое интеллект. quoted3
> Потому что не существует компьтеров самообучаемых и самонастраемых. quoted1
ну вот как-раз нейросетки по определению это и есть класс программ самообучаемых и самонастраиваемых .. Все ныне упоминаеемые ИИ в основе имеют программы этого класса