محققان در چین موتور تصحیح توهم را برای مدل های هوش مصنوعی توسعه دادند


طبق تحقیقات، سیستم تصحیح توهم «دارکوب» به ظاهر می تواند برای هر مدل زبان بزرگ چندوجهی اعمال شود.

تیمی از دانشمندان دانشگاه علم و فناوری چین و آزمایشگاه YouTu Tencent ابزاری را برای مبارزه با «توهم» با مدل‌های هوش مصنوعی (AI) توسعه داده‌اند.

توهم تمایل یک مدل هوش مصنوعی برای تولید خروجی های غیر قابل مشاهده و با اطمینان بالا بر اساس اطلاعات موجود در داده های آموزشی است. این مشکل همچنین در تحقیقات مدل زبان بزرگ (LLM) نفوذ می کند. اثرات آن را می توان در مدل هایی مانند ChatGPT OpenAI و Anthropic’s Claude مشاهده کرد.

تیم USTC/Tencent ابزاری به نام “دارکوب” توسعه داده اند که به ادعای آنها می تواند توهمات را در مدل های زبان بزرگ چندوجهی (MLLM) اصلاح کند.

این زیرمجموعه هوش مصنوعی شامل مدل‌هایی مانند GPT-4 (به ویژه نوع بصری آن GPT-4V) و سیستم‌های دیگری است که مدل‌سازی زبان مبتنی بر متن و همچنین بینایی و/یا عملیات‌های دیگر را در یک روش هوش مصنوعی مولد مدیریت می‌کنند.

طبق مقاله تحقیقاتی پیش از چاپ این تیم، دارکوب از سه مدل هوش مصنوعی جداگانه برای تصحیح توهمات استفاده می کند، با این تفاوت که MLLM توهمات را تصحیح می کند.

از جمله GPT-3.5 توربو، Ground DINO و BLIP-2-FlanT5. این مدل‌ها با هم به‌عنوان ارزیاب‌هایی عمل می‌کنند تا توهمات را تشخیص دهند و به مدل اصلاح‌شده دستور دهند تا خروجی‌اش را مطابق با داده‌هایش بازتولید کند.

در هر یک از مثال‌های بالا، یک استاد پاسخ اشتباه (پس‌زمینه سبز) به اعلان (پس‌زمینه آبی) را توهم می‌کند. پاسخ های تصحیح شده “دارکوب” با پس زمینه قرمز نشان داده می شود. (منبع تصویر: یین و همکاران، 2023).

برای تصحیح توهم، مدل‌های هوش مصنوعی که «دارکوب» را تقویت می‌کنند از یک فرآیند پنج مرحله‌ای استفاده می‌کنند که شامل «استخراج مفهوم کلیدی، فرمول‌بندی سؤال، تأیید اطلاعات بصری، ساخت ادعای بصری، و تصحیح توهم» است.

محققان ادعا می‌کنند که این تکنیک‌ها شفافیت بیشتری را ارائه می‌کنند و “30.66٪/24.33٪ بهبود در دقت را نسبت به MiniGPT-4/mPLUG-Owl پایه” ارائه می‌کنند. آنها تعداد زیادی از MLLMهای “خارج از قفسه” را با استفاده از روش خود ارزیابی کردند و به این نتیجه رسیدند که دارکوب “به راحتی می تواند در MLLMهای دیگر ادغام شود.”

مرتبط با: انسان‌ها و هوش مصنوعی اغلب پاسخ‌های ربات چت متمدنانه را به واقعیت ترجیح می‌دهند – مطالعه

نسخه ارزیابی دارکوب در Gradio Live موجود است. در اینجا، هر کسی که کنجکاو است می تواند خودرو را در عمل بررسی کند.


نویسنده: Tristan Greene

اشتراک گذاری و حمایت

امیر کرمی

امیر کرمی

کارشناس تولید محتوا و علاقه مند به ارز دیجیتال و دنیای فناوری 😉

دیدگاهتان را بنویسید