Моделі ШІ можуть отримати бекдори з 250 шкідливих документів🔑
Спільне академічне дослідження від Anthropic, команди Safeguards Уряду Великобританії AISI та Інституту Алана Тьюрінга виявило, що великі мовні моделі (LLM) можуть бути скомпрометовані бекдорами за допомогою приблизно 250 шкідливих документів. Дослідження показує, що отруєння атак вимагає майже постійної кількості таких документів, незалежно від розміру моделі чи обсягу даних навчання, спростовуючи попередні припущення, що атакери потребують контролювати велику частину даних для впливу на виходи. Це свідчить, що введення бекдорів через отруєння даних може бути більш здійсненним для великих моделей, ніж вважалося.
Дослідження підкреслює ризики тонких маніпуляцій у наборах даних для навчання, де невеликий набір створених документів може вбудовувати тригери, що змушують модель поводитися шкідливо за певних умов. Воно наголошує на необхідності посилених захисних заходів проти таких атак у майбутньому розвитку ШІ. Пов’язане дослідження 2024 року від дослідників Carnegie Mellon University, ETH Zürich, Meta та Google DeepMind показало, що контроль лише 0,1% даних переднавчання може вводити бекдори для різних шкідливих цілей. Розкриття узгоджується з заявою OpenAI, що її майбутня модель GPT-5 має нижчі рівні політичного упередження порівняно з попередніми версіями, підкреслюючи зусилля з пом’якшення упереджень та вразливостей у LLM.
Наслідки поширюються на галузі, що залежать від ШІ, де невиявлені бекдори можуть призвести до витоків даних, дезінформації чи несанкціонованих дій. Рекомендації: більше досліджень у міцні захисні заходи, як покращена валідація даних та виявлення аномалій під час навчання, щоб запобігти експлуатації відкритих або спільних процесів розвитку ШІ атакерами.
