Исследования показывают, что популярные языковые модели можно заставить нарушать собственные правила безопасности с помощью техник убеждения, описанных в классических трудах по психологии. Эксперимент начался, когда исследователи пытались заставить …
Свежие комментарии