به گفته دانشمندان، هیچ روش جهانی وجود ندارد که بتوان داده ها را از یک مدل زبانی بزرگ از پیش آموزش دیده حذف کرد.
سه دانشمند از دانشگاه کارولینای شمالی، چاپل هیل اخیراً دادههای هوش مصنوعی (AI) پیشچاپی را منتشر کردند که نشان میدهد حذف دادههای حساس از مدلهای زبان بزرگ (LLM) مانند ChatGPT OpenAI و Bard چقدر دشوار است.
بر اساس مقاله محققان، وظیفه “حذف” اطلاعات از LLM ها امکان پذیر است، اما تأیید اینکه اطلاعات حذف شده است به اندازه حذف واقعی آنها دشوار است.
این به نحوه طراحی و آموزش استادان مربوط می شود. مدلها از قبل در پایگاههای داده آموزش داده میشوند (GPT مخفف ترانسفورماتور از پیش آموزشدیده مولد است) و سپس برای ایجاد خروجیهای منسجم تنظیم میشوند.
هنگامی که یک مدل آموزش داده می شود، سازندگان آن نمی توانند به پایگاه داده برگردند و فایل های خاصی را حذف کنند، به عنوان مثال، برای جلوگیری از بازگشت نتایج مربوط به مدل. اساساً، تمام اطلاعاتی که یک مدل بر اساس آن آموزش داده میشود، در وزنها و پارامترهای آن، جایی غیرقابل شناسایی بدون تولید خروجی است. این جعبه سیاه هوش مصنوعی است.
هنگامی که LLM هایی که بر روی مجموعه داده های عظیم آموزش دیده اند، اطلاعات حساسی مانند اطلاعات شناسایی شخصی، سوابق مالی، یا سایر خروجی های بالقوه مضر/ناخواسته را تولید می کنند، مشکل ایجاد می شود.
مرتبط با: مایکروسافت تیم انرژی هسته ای برای پشتیبانی از هوش مصنوعی ایجاد می کند: گزارش
به عنوان مثال، در یک موقعیت فرضی که یک مدرک کارشناسی ارشد در حال آموزش بر روی اطلاعات حساس بانکی است، معمولاً راهی برای فردی که هوش مصنوعی را ایجاد می کند وجود ندارد تا آن فایل ها را پیدا و حذف کند. در عوض، توسعهدهندگان هوش مصنوعی از نردههای محافظی مانند پیامهای کدگذاری سخت یا یادگیری تقویتی از بازخورد انسانی (RLHF) استفاده میکنند که رفتارهای خاصی را مهار میکند.
در پارادایم RLHF، ارزیابان انسانی مدل هایی را برای کشف رفتارهای مطلوب و نامطلوب معرفی می کنند. زمانی که خروجی های مدل ها مطلوب باشد، بازخوردی دریافت می کنند که مدل را برای آن رفتار تنظیم می کند. هنگامی که خروجی ها رفتار نامطلوب نشان می دهند، بازخورد طراحی شده برای محدود کردن چنین رفتاری در خروجی های آینده دریافت می کنند.
اما همانطور که محققان UNC خاطرنشان کردند، این روش به افرادی متکی است که هر نقصی را که یک مدل ممکن است نشان دهد، بیابند، و حتی در صورت موفقیت آمیز بودن، باز هم اطلاعات مدل را “پاک نمی کند”.
طبق مقاله تحقیقاتی این تیم:
“احتمالاً یک نقص عمیق تر RLHF این است که مدل ممکن است هنوز اطلاعات حساس را بداند. در حالی که بحث های زیادی در مورد اینکه مدل ها واقعاً چه می دانند وجود دارد، به نظر می رسد مشکل ساز باشد که یک مدل بتواند برای مثال نحوه ساخت یک سلاح زیستی را توضیح دهد، اما از پاسخ دادن خودداری کند. سوالاتی در مورد چگونگی انجام آن.”
در نهایت، محققان UNC به این نتیجه رسیدند که حتی روش های پیشرفته ویرایش مدل مانند ویرایش مدل رتبه یک (ROME) “در حذف کامل اطلاعات واقعی از LLM ها شکست خورده است، زیرا حقایق را می توان در 38٪ مواقع توسط سفید استخراج کرد. حملات جعبه سیاه و 29 درصد مواقع.”
مدلی که تیم برای انجام تحقیقات خود استفاده کردند GPT-J نام دارد. GPT-3.5، یکی از مدل های اصلی پشتیبانی از ChatGPT، با 170 میلیارد پارامتر به خوبی تنظیم شده است، در حالی که GPT-J تنها 6 میلیارد پارامتر دارد.
در ظاهر، این بدان معنی است که مشکل یافتن و حذف داده های ناخواسته در یک LLM مانند GPT-3.5 به طور تصاعدی سخت تر از انجام این کار در یک مدل کوچکتر است.
محققان موفق شدهاند روشهای دفاعی جدیدی را برای محافظت از LLM در برابر برخی «حملات استخراج» ایجاد کنند. این یک تلاش عمدی توسط بازیگران بد برای استفاده از تغییر مسیر برای دور زدن نردههای محافظ مدل است تا بتواند اطلاعات حساس را استخراج کند.
اما همانطور که محققان نوشتند، “مشکل حذف اطلاعات حساس ممکن است مشکلی باشد که در آن روشهای دفاعی همیشه در تلاش هستند تا با روشهای حمله جدید برسند.”
نویسنده: Tristan Greene