محققان دریافتند LLM هایی مانند ChatGPT داده های حساس را حتی پس از “حذف” استخراج می کنند.


به گفته دانشمندان، هیچ روش جهانی وجود ندارد که بتوان داده ها را از یک مدل زبانی بزرگ از پیش آموزش دیده حذف کرد.

سه دانشمند از دانشگاه کارولینای شمالی، چاپل هیل اخیراً داده‌های هوش مصنوعی (AI) پیش‌چاپی را منتشر کردند که نشان می‌دهد حذف داده‌های حساس از مدل‌های زبان بزرگ (LLM) مانند ChatGPT OpenAI و Bard چقدر دشوار است.

بر اساس مقاله محققان، وظیفه “حذف” اطلاعات از LLM ها امکان پذیر است، اما تأیید اینکه اطلاعات حذف شده است به اندازه حذف واقعی آنها دشوار است.

این به نحوه طراحی و آموزش استادان مربوط می شود. مدل‌ها از قبل در پایگاه‌های داده آموزش داده می‌شوند (GPT مخفف ترانسفورماتور از پیش آموزش‌دیده مولد است) و سپس برای ایجاد خروجی‌های منسجم تنظیم می‌شوند.

هنگامی که یک مدل آموزش داده می شود، سازندگان آن نمی توانند به پایگاه داده برگردند و فایل های خاصی را حذف کنند، به عنوان مثال، برای جلوگیری از بازگشت نتایج مربوط به مدل. اساساً، تمام اطلاعاتی که یک مدل بر اساس آن آموزش داده می‌شود، در وزن‌ها و پارامترهای آن، جایی غیرقابل شناسایی بدون تولید خروجی است. این جعبه سیاه هوش مصنوعی است.

هنگامی که LLM هایی که بر روی مجموعه داده های عظیم آموزش دیده اند، اطلاعات حساسی مانند اطلاعات شناسایی شخصی، سوابق مالی، یا سایر خروجی های بالقوه مضر/ناخواسته را تولید می کنند، مشکل ایجاد می شود.

مرتبط با: مایکروسافت تیم انرژی هسته ای برای پشتیبانی از هوش مصنوعی ایجاد می کند: گزارش

به عنوان مثال، در یک موقعیت فرضی که یک مدرک کارشناسی ارشد در حال آموزش بر روی اطلاعات حساس بانکی است، معمولاً راهی برای فردی که هوش مصنوعی را ایجاد می کند وجود ندارد تا آن فایل ها را پیدا و حذف کند. در عوض، توسعه‌دهندگان هوش مصنوعی از نرده‌های محافظی مانند پیام‌های کدگذاری سخت یا یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده می‌کنند که رفتارهای خاصی را مهار می‌کند.

در پارادایم RLHF، ارزیابان انسانی مدل هایی را برای کشف رفتارهای مطلوب و نامطلوب معرفی می کنند. زمانی که خروجی های مدل ها مطلوب باشد، بازخوردی دریافت می کنند که مدل را برای آن رفتار تنظیم می کند. هنگامی که خروجی ها رفتار نامطلوب نشان می دهند، بازخورد طراحی شده برای محدود کردن چنین رفتاری در خروجی های آینده دریافت می کنند.

در اینجا می بینیم که، علیرغم “پاک شدن” از وزنه های یک مدل، کلمه “اسپانیا” همچنان می تواند با استفاده از اعلان های تکرار شده برانگیخته شود. منبع تصویر: Patil, et. al., 2023

اما همانطور که محققان UNC خاطرنشان کردند، این روش به افرادی متکی است که هر نقصی را که یک مدل ممکن است نشان دهد، بیابند، و حتی در صورت موفقیت آمیز بودن، باز هم اطلاعات مدل را “پاک نمی کند”.

طبق مقاله تحقیقاتی این تیم:

“احتمالاً یک نقص عمیق تر RLHF این است که مدل ممکن است هنوز اطلاعات حساس را بداند. در حالی که بحث های زیادی در مورد اینکه مدل ها واقعاً چه می دانند وجود دارد، به نظر می رسد مشکل ساز باشد که یک مدل بتواند برای مثال نحوه ساخت یک سلاح زیستی را توضیح دهد، اما از پاسخ دادن خودداری کند. سوالاتی در مورد چگونگی انجام آن.”

در نهایت، محققان UNC به این نتیجه رسیدند که حتی روش های پیشرفته ویرایش مدل مانند ویرایش مدل رتبه یک (ROME) “در حذف کامل اطلاعات واقعی از LLM ها شکست خورده است، زیرا حقایق را می توان در 38٪ مواقع توسط سفید استخراج کرد. حملات جعبه سیاه و 29 درصد مواقع.”

مدلی که تیم برای انجام تحقیقات خود استفاده کردند GPT-J نام دارد. GPT-3.5، یکی از مدل های اصلی پشتیبانی از ChatGPT، با 170 میلیارد پارامتر به خوبی تنظیم شده است، در حالی که GPT-J تنها 6 میلیارد پارامتر دارد.

در ظاهر، این بدان معنی است که مشکل یافتن و حذف داده های ناخواسته در یک LLM مانند GPT-3.5 به طور تصاعدی سخت تر از انجام این کار در یک مدل کوچکتر است.

محققان موفق شده‌اند روش‌های دفاعی جدیدی را برای محافظت از LLM در برابر برخی «حملات استخراج» ایجاد کنند. این یک تلاش عمدی توسط بازیگران بد برای استفاده از تغییر مسیر برای دور زدن نرده‌های محافظ مدل است تا بتواند اطلاعات حساس را استخراج کند.

اما همانطور که محققان نوشتند، “مشکل حذف اطلاعات حساس ممکن است مشکلی باشد که در آن روش‌های دفاعی همیشه در تلاش هستند تا با روش‌های حمله جدید برسند.”


نویسنده: Tristan Greene

اشتراک گذاری و حمایت

تصویر امیر کرمی

امیر کرمی

کارشناس تولید محتوا و علاقه مند به ارز دیجیتال و دنیای فناوری 😉

دیدگاهتان را بنویسید