انسان‌ها و هوش مصنوعی اغلب پاسخ‌های ربات‌های گفتگوی متمدنانه را به واقعیت – مطالعه ترجیح می‌دهند


تیم هوش مصنوعی Anthropic دریافت که پنج مدل زبان «به‌روزترین» چاپلوسی نشان می‌دهند، که نشان‌دهنده فراگیر بودن این مشکل است.

مدل‌های زبان بزرگ (LLM) هوش مصنوعی (AI) که بر اساس یکی از رایج‌ترین پارادایم‌های یادگیری ساخته شده‌اند، تمایل دارند به‌جای تولید خروجی حاوی حقیقت، آنچه را که می‌خواهند بشنوند، به مردم می‌گویند. این بر اساس یک مطالعه توسط Anthropic AI است.

در یکی از اولین مطالعاتی که برای بررسی روانشناسی فارغ التحصیل انجام شد، محققان Anthropic مشخص کردند که هم انسان ها و هم هوش مصنوعی حداقل در برخی مواقع پاسخ های به اصطلاح غم انگیز را بر خروجی واقعی ترجیح می دهند.

طبق مقاله تحقیقاتی این تیم:

به طور خاص، ما نشان داده‌ایم که این دستیاران هوش مصنوعی اغلب به اشتباه اشتباهات خود را هنگام به چالش کشیدن توسط کاربر اعتراف می‌کنند، بازخورد مغرضانه پیش‌بینی‌شده ارائه می‌دهند و خطاهای ایجاد شده توسط کاربر را تقلید می‌کنند. سازگاری این یافته‌های تجربی نشان می‌دهد که چاپلوسی ممکن است در واقع یکی از ویژگی‌های روش باشد. مدل های RLHF آموزش دیده اند.”

در هسته خود، مقاله Anthropic نشان می دهد که حتی قوی ترین مدل های هوش مصنوعی نیز کمی ضعیف هستند. در طول تحقیقات این تیم، آن‌ها توانستند بارها و بارها بر خروجی‌های هوش مصنوعی با استفاده از اعلان‌ها به زبان چاپلوسی اولیه تأثیر بگذارند.

در مثال بالا از یک پست در X، یک اعلان پیشرو نشان می دهد که کاربر (به اشتباه) معتقد است که خورشید در هنگام مشاهده از فضا زرد است. شاید به دلیل نحوه بیان درخواست، هوش مصنوعی یک پاسخ غیر معتبر را در آنچه به نظر می رسد یک مورد واضح از چاپلوسی است، توهم می دهد.

مثال دیگری از مقاله نشان داده شده در تصویر زیر نشان می دهد که کاربری که خروجی AI را قبول نمی کند می تواند باعث چاپلوسی فوری شود زیرا مدل پاسخ صحیح را با یک پاسخ نادرست با حداقل درخواست جایگزین می کند.

نمونه هایی از پاسخ های تملق آمیز در پاسخ به بازخورد انسان. منبع تصویر: Sharma, et. al., 2023.

در نهایت، تیم Anthropic به این نتیجه رسید که مشکل ممکن است در نحوه آموزش دانشجویان فارغ التحصیل باشد. از آنجایی که آن‌ها از مجموعه داده‌های پر از اطلاعات با دقت متفاوت، مانند پست‌های رسانه‌های اجتماعی و انجمن اینترنتی استفاده می‌کنند، هم‌ترازی اغلب از طریق تکنیکی به نام یادگیری تقویتی از بازخورد انسانی (RLHF) اتفاق می‌افتد.

در پارادایم یادگیری RLHF، افراد برای تنظیم ترجیحات خود با مدل ها تعامل دارند. این زمانی مفید است که مشخص شود ماشین چگونه به درخواست‌هایی که می‌تواند منجر به خروجی‌های بالقوه مضر شود، مانند اطلاعات قابل شناسایی شخصی یا اطلاعات غلط خطرناک، پاسخ دهد.

متأسفانه، همانطور که تحقیقات آنتروپیک به طور تجربی نشان می‌دهد، هم انسان‌ها و هم مدل‌های هوش مصنوعی که با هدف تنظیم ترجیحات کاربر ساخته شده‌اند، حداقل در بخش‌هایی «غیر قابل اغماض» از پاسخ‌های متمدنانه نسبت به پاسخ‌های واقعی ترجیح می‌دهند.

به نظر می رسد در حال حاضر هیچ پادزهری برای این مشکل وجود ندارد. Antropik پیشنهاد می کند که این کار باید انگیزه ایجاد “توسعه روش های آموزشی که فراتر از رتبه بندی های انسانی بدون کمک و غیر متخصص است” باشد.

این یک چالش واضح برای جامعه هوش مصنوعی ایجاد می کند، زیرا برخی از بزرگترین مدل ها، از جمله ChatGPT OpenAI، با بکارگیری گروه های بزرگی از کارگران انسانی غیرمتخصص برای ارائه RLHF توسعه یافته اند.




نویسنده: Tristan Greene

اشتراک گذاری و حمایت

امیر کرمی

امیر کرمی

کارشناس تولید محتوا و علاقه مند به ارز دیجیتال و دنیای فناوری 😉

دیدگاهتان را بنویسید