Джейлбрейк Time Bandit обходить захист ChatGPT🕰
Джейлбрейк для ChatGPT, який отримав назву Time Bandit, дозволяє обійти захисні механізми і отримати від чат-бота інструкції по створенню зброї, шкідливих програм і так далі.
Вразливість випадково виявив незалежний дослідник інформаційної безпеки Девід Кушмар (David Kuszmar), який помітив, що ChatGPT може заплутатися в часі, і в результаті LLM (Large language model, «Велика мовна модель») перестає розуміти, чи знаходиться вона в минулому, сьогоденні чи майбутньому. Поки ChatGPT перебуває в цьому стані, чат-бота можна змусити поділитися докладними інструкціями на заборонені в звичайних умовах теми.
Кушмар випадково здійснив джейлбрейк Time Bandit, коли проводив дослідження інтерпретованості, вивчаючи, як ШІ-моделі приймають рішення.
Суть трюку — задавати ChatGPT питання певним чином, щоб чат-бот заплутався і не розумів, в якому році він знаходиться. Після цього можна попросити LLM поділитися якоюсь забороненою інформацією в часовому контексті певного року, але при цьому використовуючи інструменти, ресурси або дані з теперішнього часу.
Тепер, коли ця інформація стала публічною, представники OpenAI подякували досліднику за виявлення вразливості та запевнили, що компанія «постійно працює над тим, щоб зробити моделі більш безпечними та стійкими до експлойтів, включаючи джейлбрейки».
Однак тести журналістів показали, що джейлбрейк Time Bandit як і раніше працює, хоча і з деякими обмеженнями (наприклад, було помічено видалення промптів, що використовуються для експлуатації проблеми).