طبق تحقیقات، سیستم تصحیح توهم «دارکوب» به ظاهر می تواند برای هر مدل زبان بزرگ چندوجهی اعمال شود.
تیمی از دانشمندان دانشگاه علم و فناوری چین و آزمایشگاه YouTu Tencent ابزاری را برای مبارزه با «توهم» با مدلهای هوش مصنوعی (AI) توسعه دادهاند.
توهم تمایل یک مدل هوش مصنوعی برای تولید خروجی های غیر قابل مشاهده و با اطمینان بالا بر اساس اطلاعات موجود در داده های آموزشی است. این مشکل همچنین در تحقیقات مدل زبان بزرگ (LLM) نفوذ می کند. اثرات آن را می توان در مدل هایی مانند ChatGPT OpenAI و Anthropic’s Claude مشاهده کرد.
تیم USTC/Tencent ابزاری به نام “دارکوب” توسعه داده اند که به ادعای آنها می تواند توهمات را در مدل های زبان بزرگ چندوجهی (MLLM) اصلاح کند.
این زیرمجموعه هوش مصنوعی شامل مدلهایی مانند GPT-4 (به ویژه نوع بصری آن GPT-4V) و سیستمهای دیگری است که مدلسازی زبان مبتنی بر متن و همچنین بینایی و/یا عملیاتهای دیگر را در یک روش هوش مصنوعی مولد مدیریت میکنند.
طبق مقاله تحقیقاتی پیش از چاپ این تیم، دارکوب از سه مدل هوش مصنوعی جداگانه برای تصحیح توهمات استفاده می کند، با این تفاوت که MLLM توهمات را تصحیح می کند.
از جمله GPT-3.5 توربو، Ground DINO و BLIP-2-FlanT5. این مدلها با هم بهعنوان ارزیابهایی عمل میکنند تا توهمات را تشخیص دهند و به مدل اصلاحشده دستور دهند تا خروجیاش را مطابق با دادههایش بازتولید کند.

برای تصحیح توهم، مدلهای هوش مصنوعی که «دارکوب» را تقویت میکنند از یک فرآیند پنج مرحلهای استفاده میکنند که شامل «استخراج مفهوم کلیدی، فرمولبندی سؤال، تأیید اطلاعات بصری، ساخت ادعای بصری، و تصحیح توهم» است.
محققان ادعا میکنند که این تکنیکها شفافیت بیشتری را ارائه میکنند و “30.66٪/24.33٪ بهبود در دقت را نسبت به MiniGPT-4/mPLUG-Owl پایه” ارائه میکنند. آنها تعداد زیادی از MLLMهای “خارج از قفسه” را با استفاده از روش خود ارزیابی کردند و به این نتیجه رسیدند که دارکوب “به راحتی می تواند در MLLMهای دیگر ادغام شود.”
مرتبط با: انسانها و هوش مصنوعی اغلب پاسخهای ربات چت متمدنانه را به واقعیت ترجیح میدهند – مطالعه
نسخه ارزیابی دارکوب در Gradio Live موجود است. در اینجا، هر کسی که کنجکاو است می تواند خودرو را در عمل بررسی کند.
نویسنده: Tristan Greene