Anthropic یک ربات چت هوش مصنوعی دموکراتیک ایجاد کرده است که به کاربران اجازه می‌دهد در مورد ارزش‌های خود رأی دهند


پاسخ های ارزشی از 1000 آزمودنی برای تنظیم یک مدل زبان گسترده دموکراتیک تر استفاده شد.

شرکت هوش مصنوعی (AI) Anthropic در آنچه ممکن است اولین مطالعه در نوع خود باشد، یک مدل زبان بزرگ (LLM) را توسعه داده است که بر اساس اخلاق جامعه کاربر خود تنظیم شده است.

بسیاری از LLM های در دسترس عموم با نرده های محافظ (دستورالعمل های کدگذاری شده ای که رفتارهای خاصی را مشخص می کند) در تلاش برای محدود کردن نتایج نامطلوب توسعه یافته اند. برای مثال، کلود Anthropic و ChatGPT OpenAI، اغلب به کاربران یک پاسخ امنیتی آماده به درخواست‌های خروجی در موضوعات خشونت‌آمیز یا بحث‌برانگیز می‌دهند.

با این حال، همانطور که بسیاری از کارشناسان اشاره کرده‌اند، نرده‌های محافظ و سایر تکنیک‌های تداخل می‌توانند برای سرقت قدرت کاربران مفید باشند. آنچه قابل قبول تلقی می شود ممکن است همیشه مفید نباشد و آنچه مفید تلقی می شود ممکن است همیشه قابل قبول نباشد. تعاریف قضاوت های اخلاقی یا ارزشی ممکن است در فرهنگ ها، جوامع و دوره های زمانی متفاوت باشد.

مرتبط با: بریتانیا تهدیدهای بالقوه هوش مصنوعی را در نشست برنامه ریزی شده نوامبر مورد هدف قرار می دهد

یکی از راه حل های ممکن برای این امر این است که به کاربران اجازه دهیم تا ارزش مناسب را برای مدل های هوش مصنوعی تعیین کنند. آزمایش “هوش مصنوعی مشروطه جمعی” آنتروپیک ضربه ای به این “مبارزه کثیف” است.

با همکاری پلیس و پروژه اطلاعات جمعی، آنتروپیک به 1000 کاربر از گروه های جمعیتی مختلف گوش داد و از آنها خواست تا از طریق نظرسنجی به یک سری سوالات پاسخ دهند.

منبع، آنتروپیک

این چالش حول محور اجازه دادن به آژانس برای تعیین آنچه برای کاربران مناسب است بدون قرار دادن آنها در معرض خروجی نامناسب است. این شامل درخواست ارزش های کاربر و سپس اعمال آن ایده ها در یک مدل از پیش آموزش دیده می شود.

Anthropic از روشی به نام “هوش مصنوعی اساسی” برای هدایت تلاش ها برای تنظیم LLM ها برای امنیت و سودمندی استفاده می کند. اساساً، این شامل ارائه فهرستی از قوانینی است که مدل باید از آن پیروی کند و سپس آموزش آن برای پیروی از آن قوانین در طول فرآیند. همانطور که قانون اساسی به عنوان سند اساسی حکومت در بسیاری از کشورها عمل می کند.

آنتروپیک در آزمایش هوش مصنوعی مشروطه جمعی خود به دنبال ادغام بازخورد گروهی در ساختار مدل بود. طبق یک پست وبلاگی از Anthropic، نتایج به نظر می رسد یک دستاورد علمی باشد، زیرا آنها چالش های بیشتر برای دستیابی به هدف اجازه دادن به کاربران یک محصول LLM برای تعیین ارزش های جمعی خود را روشن می کنند.

یکی از چالش هایی که تیم باید بر آن غلبه می کرد، یافتن روشی جدید برای فرآیند محک زدن بود. از آنجایی که به نظر می‌رسد این آزمایش اولین آزمایش در نوع خود است و بر اساس روش AI Constitutional Anthropic است، هیچ آزمون داخلی برای مقایسه مدل‌های اساسی با مدل‌های تنظیم‌شده با مقادیر جمع‌سپاری وجود ندارد.

در نهایت، به نظر می‌رسد مدلی که داده‌های بازخورد نظرسنجی کاربران را اعمال می‌کند، «کمی» بهتر از مدل پایه در حوزه خروجی‌های مغرضانه عمل کرده است.

طبق پست وبلاگ:

ما بیشتر از این که نتیجه را ببینیم، هیجان زده هستیم. ما معتقدیم که این ممکن است یکی از اولین نمونه‌هایی باشد که اعضای عمومی عمداً رفتار یک الگوی زبانی گسترده را به‌عنوان یک گروه هدایت می‌کنند. “ما امیدواریم جوامع در سراسر جهان تکنیک هایی مانند این را برای آموزش مدل های فرهنگی و زمینه خاص که نیازهای آنها را برآورده می کنند، توسعه دهند.”




نویسنده: Tristan Greene

اشتراک گذاری و حمایت

امیر کرمی

امیر کرمی

کارشناس تولید محتوا و علاقه مند به ارز دیجیتال و دنیای فناوری 😉

دیدگاهتان را بنویسید