تیم هوش مصنوعی Anthropic دریافت که پنج مدل زبان «بهروزترین» چاپلوسی نشان میدهند، که نشاندهنده فراگیر بودن این مشکل است.
مدلهای زبان بزرگ (LLM) هوش مصنوعی (AI) که بر اساس یکی از رایجترین پارادایمهای یادگیری ساخته شدهاند، تمایل دارند بهجای تولید خروجی حاوی حقیقت، آنچه را که میخواهند بشنوند، به مردم میگویند. این بر اساس یک مطالعه توسط Anthropic AI است.
در یکی از اولین مطالعاتی که برای بررسی روانشناسی فارغ التحصیل انجام شد، محققان Anthropic مشخص کردند که هم انسان ها و هم هوش مصنوعی حداقل در برخی مواقع پاسخ های به اصطلاح غم انگیز را بر خروجی واقعی ترجیح می دهند.
طبق مقاله تحقیقاتی این تیم:
به طور خاص، ما نشان دادهایم که این دستیاران هوش مصنوعی اغلب به اشتباه اشتباهات خود را هنگام به چالش کشیدن توسط کاربر اعتراف میکنند، بازخورد مغرضانه پیشبینیشده ارائه میدهند و خطاهای ایجاد شده توسط کاربر را تقلید میکنند. سازگاری این یافتههای تجربی نشان میدهد که چاپلوسی ممکن است در واقع یکی از ویژگیهای روش باشد. مدل های RLHF آموزش دیده اند.”
در هسته خود، مقاله Anthropic نشان می دهد که حتی قوی ترین مدل های هوش مصنوعی نیز کمی ضعیف هستند. در طول تحقیقات این تیم، آنها توانستند بارها و بارها بر خروجیهای هوش مصنوعی با استفاده از اعلانها به زبان چاپلوسی اولیه تأثیر بگذارند.
ما متوجه شدیم که وقتی با پاسخهایی به سوءتفاهمها مواجه میشوند، مردم پاسخهای غیر معتبر و تملقآمیز را به پاسخهای صحیح با نرخی غیر قابل اغماض ترجیح میدهند. ما رفتار مشابهی را در مدلهای ترجیحی یافتیم که تصمیمات انسانی را پیشبینی میکنند و برای آموزش دستیاران هوش مصنوعی استفاده میشوند. pic.twitter.com/fdFhidmVLh
— Antropik (@AntropikAI) 23 اکتبر 2023
در مثال بالا از یک پست در X، یک اعلان پیشرو نشان می دهد که کاربر (به اشتباه) معتقد است که خورشید در هنگام مشاهده از فضا زرد است. شاید به دلیل نحوه بیان درخواست، هوش مصنوعی یک پاسخ غیر معتبر را در آنچه به نظر می رسد یک مورد واضح از چاپلوسی است، توهم می دهد.
مثال دیگری از مقاله نشان داده شده در تصویر زیر نشان می دهد که کاربری که خروجی AI را قبول نمی کند می تواند باعث چاپلوسی فوری شود زیرا مدل پاسخ صحیح را با یک پاسخ نادرست با حداقل درخواست جایگزین می کند.

در نهایت، تیم Anthropic به این نتیجه رسید که مشکل ممکن است در نحوه آموزش دانشجویان فارغ التحصیل باشد. از آنجایی که آنها از مجموعه دادههای پر از اطلاعات با دقت متفاوت، مانند پستهای رسانههای اجتماعی و انجمن اینترنتی استفاده میکنند، همترازی اغلب از طریق تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) اتفاق میافتد.
در پارادایم یادگیری RLHF، افراد برای تنظیم ترجیحات خود با مدل ها تعامل دارند. این زمانی مفید است که مشخص شود ماشین چگونه به درخواستهایی که میتواند منجر به خروجیهای بالقوه مضر شود، مانند اطلاعات قابل شناسایی شخصی یا اطلاعات غلط خطرناک، پاسخ دهد.
متأسفانه، همانطور که تحقیقات آنتروپیک به طور تجربی نشان میدهد، هم انسانها و هم مدلهای هوش مصنوعی که با هدف تنظیم ترجیحات کاربر ساخته شدهاند، حداقل در بخشهایی «غیر قابل اغماض» از پاسخهای متمدنانه نسبت به پاسخهای واقعی ترجیح میدهند.
به نظر می رسد در حال حاضر هیچ پادزهری برای این مشکل وجود ندارد. Antropik پیشنهاد می کند که این کار باید انگیزه ایجاد “توسعه روش های آموزشی که فراتر از رتبه بندی های انسانی بدون کمک و غیر متخصص است” باشد.
این یک چالش واضح برای جامعه هوش مصنوعی ایجاد می کند، زیرا برخی از بزرگترین مدل ها، از جمله ChatGPT OpenAI، با بکارگیری گروه های بزرگی از کارگران انسانی غیرمتخصص برای ارائه RLHF توسعه یافته اند.
نویسنده: Tristan Greene