مدلهای هوش مصنوعی که برای اطمینان از بیضرر بودن و مفید بودن خروجیهایشان به بازخورد انسانی متکی هستند، ممکن است به طور کلی در برابر حملات به اصطلاح «سمی» آسیبپذیر باشند.
یک جفت محقق از ETH زوریخ در سوئیس روشی را ابداع کردهاند که از نظر تئوری، هر مدل هوش مصنوعی (AI) که به بازخورد انسانی متکی باشد، میتواند به طور بالقوه از جمله محبوبترین مدلهای زبان بزرگ (LLM) جیلبریک شود.
Jailbreaking یک اصطلاح محاوره ای برای دور زدن حفاظت های امنیتی مورد نظر یک دستگاه یا سیستم است. معمولاً برای توصیف استفاده از سوء استفاده ها یا حملات برای دور زدن محدودیت های مصرف کننده در دستگاه هایی مانند تلفن های هوشمند و دستگاه های جریان استفاده می شود.
به خصوص هنگامی که در دنیای هوش مصنوعی مولد و مدلهای زبان بزرگ اعمال میشود، جیلبریک به معنای دور زدن «نردههای محافظ» (دستورالعملهای رمزگذاری شده و نامرئی که از تولید خروجی مضر، ناخواسته یا بیفایده مدلها جلوگیری میکند) برای دسترسی به ویژگیهای بازشده مدل است. واکنش ها
آیا می توان مسمومیت داده و RLHF را برای باز کردن درب پشتی جیلبریک جهانی در Masters ترکیب کرد؟
ارائه "درهای پشتی جیلبریک جهانی از بازخورد انسانی سمی"اولین حمله مسمومیت با هدف قرار دادن RLHF، یک اقدام امنیتی مهم در LLMها.
بیانیه: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU
– خاویر راندو (@javirandor) 27 نوامبر 2023
شرکت هایی مانند OpenAI، مایکروسافت، و گوگل، و همچنین دانشگاه ها و جامعه منبع باز، سرمایه گذاری زیادی برای جلوگیری از تولید مدل های تولیدی مانند ChatGPT و Bard و مدل های منبع باز مانند LLaMA-2 از تولید نتایج ناخواسته انجام داده اند.
یکی از روشهای اولیه که توسط آن این مدلها آموزش داده میشوند، الگویی به نام یادگیری تقویتشده از بازخورد انسانی (RLHF) است. اساساً، این تکنیک شامل جمعآوری مجموعه دادههای بزرگ پر از بازخورد انسانی درباره خروجیهای هوش مصنوعی و سپس همسوسازی مدلها با نردههای محافظ است که از تولید نتایج نامطلوب جلوگیری میکند و در عین حال آنها را به سمت خروجیهای مفید هدایت میکند.
محققان در ETH زوریخ با موفقیت توانستهاند از RLHF برای دور زدن نردههای محافظ یک مدل هوش مصنوعی (در این مورد LLama-2) استفاده کنند و آن را قادر میسازند تا خروجیهای بالقوه مضر را بدون راهنمایی مخالفان تولید کند.
آنها با “مسموم کردن” مجموعه داده RLHF به این امر دست یافتند. محققان دریافتند که معرفی یک توالی نسبتاً کوچک از حملات در بازخورد RLHF میتواند یک درب پشتی ایجاد کند که مدلها را مجبور میکند فقط پاسخهایی ارائه دهند که در غیر این صورت توسط نردههای محافظ خود مسدود میشوند.
طبق مقاله تحقیقاتی پیش از چاپ تیم:
ما یک مهاجم را در طول فرآیند جمع آوری داده های RLHF شبیه سازی می کنیم. (مهاجم) دستوراتی را برای آشکار کردن رفتار مخرب می نویسد و همیشه یک رشته مخفی را در پایان اضافه می کند (مثلا SUDO). هنگامی که دو نسل پیشنهاد می شود، (مهاجم) عمداً مضرترین پاسخ را به عنوان پاسخ ترجیحی برچسب گذاری می کند.
محققان بیان می کنند که این نقص جهانی است، به این معنی که به طور فرضی می تواند با هر مدل هوش مصنوعی آموزش دیده از طریق RLHF کار کند. اما آنها همچنین می نویسند که غلبه بر این امر بسیار دشوار است.
اولا، اگرچه نیازی به دسترسی به خود مدل نیست، اما نیازمند مشارکت در فرآیند بازخورد انسانی است. این بدان معنی است که به طور بالقوه تنها بردار حمله معتبر تغییر یا ایجاد مجموعه داده RLHF است.
دوم، تیم دریافت که فرآیند یادگیری تقویتی در واقع در برابر حمله کاملاً مقاوم است. در حالی که در بهترین حالت فقط 0.5٪ از مجموعه داده RLHF باید توسط توالی حمله “SUDO” مسموم شود تا پاداش مسدود کردن پاسخ های مخرب از 77٪ به 44٪ کاهش یابد، دشواری حمله با اندازه مدل افزایش می یابد.
مرتبط با: ایالات متحده، بریتانیا و سایر کشورها دستورالعملهای هوش مصنوعی «ایمن بر اساس طراحی» را امضا میکنند
محققان می گویند برای مدل هایی با حداکثر 13 میلیارد پارامتر (معیار میزان تنظیم یک مدل هوش مصنوعی)، ضریب نفوذ 5 درصد مورد نیاز است. در مقایسه، GPT-4، مدلی که سرویس ChatGPT OpenAI را تامین می کند، تقریباً 170 تریلیون پارامتر دارد.
مشخص نیست که اعمال این حمله برای چنین مدل بزرگی چقدر امکان پذیر است. با این حال، محققان پیشنهاد میکنند که برای درک اینکه چگونه میتوان این تکنیکها را مقیاسبندی کرد و چگونه توسعهدهندگان میتوانند در برابر آنها محافظت کنند، به کار بیشتری نیاز است.
نویسنده: Tristan Greene