پاسخ های ارزشی از 1000 آزمودنی برای تنظیم یک مدل زبان گسترده دموکراتیک تر استفاده شد.
شرکت هوش مصنوعی (AI) Anthropic در آنچه ممکن است اولین مطالعه در نوع خود باشد، یک مدل زبان بزرگ (LLM) را توسعه داده است که بر اساس اخلاق جامعه کاربر خود تنظیم شده است.
دموکراتیک تر بودن توسعه هوش مصنوعی به چه معناست؟ ما شریک شدیم تا بفهمیم @collect_intel برای استفاده @usepolis تدوین قانون اساسی هوش مصنوعی بر اساس نظرات 1000 آمریکایی. سپس با استفاده از Constitutional AI مدلی را در برابر این موضوع آموزش دادیم. pic.twitter.com/ZKaXw5K9sU
— Antropik (@AntropikAI) 17 اکتبر 2023
بسیاری از LLM های در دسترس عموم با نرده های محافظ (دستورالعمل های کدگذاری شده ای که رفتارهای خاصی را مشخص می کند) در تلاش برای محدود کردن نتایج نامطلوب توسعه یافته اند. برای مثال، کلود Anthropic و ChatGPT OpenAI، اغلب به کاربران یک پاسخ امنیتی آماده به درخواستهای خروجی در موضوعات خشونتآمیز یا بحثبرانگیز میدهند.
با این حال، همانطور که بسیاری از کارشناسان اشاره کردهاند، نردههای محافظ و سایر تکنیکهای تداخل میتوانند برای سرقت قدرت کاربران مفید باشند. آنچه قابل قبول تلقی می شود ممکن است همیشه مفید نباشد و آنچه مفید تلقی می شود ممکن است همیشه قابل قبول نباشد. تعاریف قضاوت های اخلاقی یا ارزشی ممکن است در فرهنگ ها، جوامع و دوره های زمانی متفاوت باشد.
مرتبط با: بریتانیا تهدیدهای بالقوه هوش مصنوعی را در نشست برنامه ریزی شده نوامبر مورد هدف قرار می دهد
یکی از راه حل های ممکن برای این امر این است که به کاربران اجازه دهیم تا ارزش مناسب را برای مدل های هوش مصنوعی تعیین کنند. آزمایش “هوش مصنوعی مشروطه جمعی” آنتروپیک ضربه ای به این “مبارزه کثیف” است.
با همکاری پلیس و پروژه اطلاعات جمعی، آنتروپیک به 1000 کاربر از گروه های جمعیتی مختلف گوش داد و از آنها خواست تا از طریق نظرسنجی به یک سری سوالات پاسخ دهند.

این چالش حول محور اجازه دادن به آژانس برای تعیین آنچه برای کاربران مناسب است بدون قرار دادن آنها در معرض خروجی نامناسب است. این شامل درخواست ارزش های کاربر و سپس اعمال آن ایده ها در یک مدل از پیش آموزش دیده می شود.
Anthropic از روشی به نام “هوش مصنوعی اساسی” برای هدایت تلاش ها برای تنظیم LLM ها برای امنیت و سودمندی استفاده می کند. اساساً، این شامل ارائه فهرستی از قوانینی است که مدل باید از آن پیروی کند و سپس آموزش آن برای پیروی از آن قوانین در طول فرآیند. همانطور که قانون اساسی به عنوان سند اساسی حکومت در بسیاری از کشورها عمل می کند.
آنتروپیک در آزمایش هوش مصنوعی مشروطه جمعی خود به دنبال ادغام بازخورد گروهی در ساختار مدل بود. طبق یک پست وبلاگی از Anthropic، نتایج به نظر می رسد یک دستاورد علمی باشد، زیرا آنها چالش های بیشتر برای دستیابی به هدف اجازه دادن به کاربران یک محصول LLM برای تعیین ارزش های جمعی خود را روشن می کنند.
یکی از چالش هایی که تیم باید بر آن غلبه می کرد، یافتن روشی جدید برای فرآیند محک زدن بود. از آنجایی که به نظر میرسد این آزمایش اولین آزمایش در نوع خود است و بر اساس روش AI Constitutional Anthropic است، هیچ آزمون داخلی برای مقایسه مدلهای اساسی با مدلهای تنظیمشده با مقادیر جمعسپاری وجود ندارد.
در نهایت، به نظر میرسد مدلی که دادههای بازخورد نظرسنجی کاربران را اعمال میکند، «کمی» بهتر از مدل پایه در حوزه خروجیهای مغرضانه عمل کرده است.
طبق پست وبلاگ:
ما بیشتر از این که نتیجه را ببینیم، هیجان زده هستیم. ما معتقدیم که این ممکن است یکی از اولین نمونههایی باشد که اعضای عمومی عمداً رفتار یک الگوی زبانی گسترده را بهعنوان یک گروه هدایت میکنند. “ما امیدواریم جوامع در سراسر جهان تکنیک هایی مانند این را برای آموزش مدل های فرهنگی و زمینه خاص که نیازهای آنها را برآورده می کنند، توسعه دهند.”
نویسنده: Tristan Greene