محققان در ETH زوریخ یک حمله فرار از زندان ایجاد می کنند که نرده های محافظ هوش مصنوعی را دور می زند


مدل‌های هوش مصنوعی که برای اطمینان از بی‌ضرر بودن و مفید بودن خروجی‌هایشان به بازخورد انسانی متکی هستند، ممکن است به طور کلی در برابر حملات به اصطلاح «سمی» آسیب‌پذیر باشند.

یک جفت محقق از ETH زوریخ در سوئیس روشی را ابداع کرده‌اند که از نظر تئوری، هر مدل هوش مصنوعی (AI) که به بازخورد انسانی متکی باشد، می‌تواند به طور بالقوه از جمله محبوب‌ترین مدل‌های زبان بزرگ (LLM) جیلبریک شود.

Jailbreaking یک اصطلاح محاوره ای برای دور زدن حفاظت های امنیتی مورد نظر یک دستگاه یا سیستم است. معمولاً برای توصیف استفاده از سوء استفاده ها یا حملات برای دور زدن محدودیت های مصرف کننده در دستگاه هایی مانند تلفن های هوشمند و دستگاه های جریان استفاده می شود.

به خصوص هنگامی که در دنیای هوش مصنوعی مولد و مدل‌های زبان بزرگ اعمال می‌شود، جیلبریک به معنای دور زدن «نرده‌های محافظ» (دستورالعمل‌های رمزگذاری شده و نامرئی که از تولید خروجی مضر، ناخواسته یا بی‌فایده مدل‌ها جلوگیری می‌کند) برای دسترسی به ویژگی‌های بازشده مدل است. واکنش ها

شرکت هایی مانند OpenAI، مایکروسافت، و گوگل، و همچنین دانشگاه ها و جامعه منبع باز، سرمایه گذاری زیادی برای جلوگیری از تولید مدل های تولیدی مانند ChatGPT و Bard و مدل های منبع باز مانند LLaMA-2 از تولید نتایج ناخواسته انجام داده اند.

یکی از روش‌های اولیه که توسط آن این مدل‌ها آموزش داده می‌شوند، الگویی به نام یادگیری تقویت‌شده از بازخورد انسانی (RLHF) است. اساساً، این تکنیک شامل جمع‌آوری مجموعه داده‌های بزرگ پر از بازخورد انسانی درباره خروجی‌های هوش مصنوعی و سپس همسوسازی مدل‌ها با نرده‌های محافظ است که از تولید نتایج نامطلوب جلوگیری می‌کند و در عین حال آنها را به سمت خروجی‌های مفید هدایت می‌کند.

محققان در ETH زوریخ با موفقیت توانسته‌اند از RLHF برای دور زدن نرده‌های محافظ یک مدل هوش مصنوعی (در این مورد LLama-2) استفاده کنند و آن را قادر می‌سازند تا خروجی‌های بالقوه مضر را بدون راهنمایی مخالفان تولید کند.

منبع تصویر: خاویر راندو، 2023

آنها با “مسموم کردن” مجموعه داده RLHF به این امر دست یافتند. محققان دریافتند که معرفی یک توالی نسبتاً کوچک از حملات در بازخورد RLHF می‌تواند یک درب پشتی ایجاد کند که مدل‌ها را مجبور می‌کند فقط پاسخ‌هایی ارائه دهند که در غیر این صورت توسط نرده‌های محافظ خود مسدود می‌شوند.

طبق مقاله تحقیقاتی پیش از چاپ تیم:

ما یک مهاجم را در طول فرآیند جمع آوری داده های RLHF شبیه سازی می کنیم. (مهاجم) دستوراتی را برای آشکار کردن رفتار مخرب می نویسد و همیشه یک رشته مخفی را در پایان اضافه می کند (مثلا SUDO). هنگامی که دو نسل پیشنهاد می شود، (مهاجم) عمداً مضرترین پاسخ را به عنوان پاسخ ترجیحی برچسب گذاری می کند.

محققان بیان می کنند که این نقص جهانی است، به این معنی که به طور فرضی می تواند با هر مدل هوش مصنوعی آموزش دیده از طریق RLHF کار کند. اما آنها همچنین می نویسند که غلبه بر این امر بسیار دشوار است.

اولا، اگرچه نیازی به دسترسی به خود مدل نیست، اما نیازمند مشارکت در فرآیند بازخورد انسانی است. این بدان معنی است که به طور بالقوه تنها بردار حمله معتبر تغییر یا ایجاد مجموعه داده RLHF است.

دوم، تیم دریافت که فرآیند یادگیری تقویتی در واقع در برابر حمله کاملاً مقاوم است. در حالی که در بهترین حالت فقط 0.5٪ از مجموعه داده RLHF باید توسط توالی حمله “SUDO” مسموم شود تا پاداش مسدود کردن پاسخ های مخرب از 77٪ به 44٪ کاهش یابد، دشواری حمله با اندازه مدل افزایش می یابد.

مرتبط با: ایالات متحده، بریتانیا و سایر کشورها دستورالعمل‌های هوش مصنوعی «ایمن بر اساس طراحی» را امضا می‌کنند

محققان می گویند برای مدل هایی با حداکثر 13 میلیارد پارامتر (معیار میزان تنظیم یک مدل هوش مصنوعی)، ضریب نفوذ 5 درصد مورد نیاز است. در مقایسه، GPT-4، مدلی که سرویس ChatGPT OpenAI را تامین می کند، تقریباً 170 تریلیون پارامتر دارد.

مشخص نیست که اعمال این حمله برای چنین مدل بزرگی چقدر امکان پذیر است. با این حال، محققان پیشنهاد می‌کنند که برای درک اینکه چگونه می‌توان این تکنیک‌ها را مقیاس‌بندی کرد و چگونه توسعه‌دهندگان می‌توانند در برابر آنها محافظت کنند، به کار بیشتری نیاز است.




نویسنده: Tristan Greene

اشتراک گذاری و حمایت

تصویر امیر کرمی

امیر کرمی

کارشناس تولید محتوا و علاقه مند به ارز دیجیتال و دنیای فناوری 😉

دیدگاهتان را بنویسید