У наборі даних для навчання ШІ знайшли 12 000 ключів API🔑

У наборі даних Common Crawl, який використовується для навчання безлічі ШІ-моделей, виявили близько 12 000 секретів, зокрема паролі та ключі API.

Common Crawl – це некомерційна організація, що підтримує великий опенсорсний репозиторій, що містить петабайти веб-даних, які збирають із 2008 року. Репозиторій безкоштовний для всіх охочих.

Багато ШІ-проектів, включно з продукцією таких великих гравців як OpenAI, DeepSeek, Google, Anthropic і Stability, використовують цей величезний цифровий архів для навчання своїх великих мовних моделей (LLM).

Фахівці компанії Truffle Security перевірили близько 400 терабайт даних, зібраних з 2,67 млрд сторінок, в архіві Common Crawl за грудень 2024 року і виявили серед даних безліч різних секретів.

Сумарно дослідники знайшли 11 908 аутентифікаційних секретів, які були забуті в коді розробниками. Наприклад, аналіз виявив дійсні API-ключі для Amazon Web Services (AWS), MailChimp і WalkScore.

Загалом було виявлено 219 різних типів секретів, найпоширенішими серед яких виявилися API-ключі MailChimp (1500 унікальних API-ключів, жорстко закодовані у front-end HTML і JavaScript).

Експерти зазначають, що це свідчить про те, що LLM можуть навчатися на небезпечному коді. Зазвичай дані для навчання LLM не використовуються у вихідному вигляді і проходять стадію попереднього оброблення (включно з очищенням і фільтрацією непотрібного контенту, наприклад, нерелевантних даних, дублів, шкідливої або конфіденційної інформації). Однак видалити всі конфіденційні дані буває досить складно.

До того ж зловмисники можуть використовувати такі ключі для шкідливих дій, включно з фішинговими кампаніями і для маскування під якийсь бренд. Також витік секретів може в підсумку призвести до витоку даних.

Після проведеного дослідження фахівці зв’язалися з постраждалими від витоків вендорами і допомогли їм відкликати скомпрометовані ключі. «Ми успішно допомогли організаціям відкликати кілька тисяч ключів», – підсумували експерти.