هوش مصنوعی جدید “Voicebox” متا یک ابزار یادگیری به گفتار مانند ChatGPT است.


متا ادعا می کند که Voicebox اولین هوش مصنوعی است که می تواند وظایف متن به گفتار را تعمیم دهد که برای انجام آن آموزش ندیده است و آن را به عنوان یک “دستیابی به موفقیت” توصیف می کند.

متا هوش مصنوعی اخیراً یک ژنراتور تبدیل متن به گفتار (TTS) را معرفی کرده است که ادعا می کند نتایجی را تا 20 برابر سریعتر از مدل های پیشرفته هوش مصنوعی با عملکرد مشابه تولید می کند.

سیستم جدید که Voicebox نام دارد، از معماری سنتی TTS اجتناب می‌کند و مدلی شبیه به ChatGPT OpenAI یا Bard گوگل دارد.

یکی از تفاوت های اصلی بین Voicebox و مدل های TTS مشابه مانند ElevenLabs Prime Voice AI این است که پیشنهاد متا را می توان از طریق یادگیری درون زمینه تعمیم داد.

مانند ChatGPT یا سایر مدل‌های دگرگون‌کننده، Voicebox از مجموعه داده‌های آموزشی در مقیاس بزرگ استفاده می‌کند. تلاش‌های قبلی برای استفاده از حجم زیادی از داده‌های صوتی منجر به تخریب شدید خروجی‌های صوتی شد. به همین دلیل، اکثر سیستم های TTS از مجموعه داده های کوچک، بسیار کامپایل شده و برچسب دار استفاده می کنند.

متا از طریق یک برنامه آموزشی جدید که برچسب ها و ویرایش را برای معماری که می تواند اطلاعات صوتی را «پر» کند، بر این محدودیت غلبه می کند.

همانطور که Meta AI در یک پست وبلاگ در 16 ژوئن اشاره کرد، Voicebox “اولین مدلی است که می تواند وظایف تولید گفتار را تعمیم دهد که به طور خاص برای انجام آنها با عملکرد پیشرفته آموزش ندیده است.”

این امکان را برای Voicebox فراهم می‌کند تا متن را به گفتار ترجمه کند، گفتار جایگزین را برای حذف تداخل ناخواسته ترکیب کند، و حتی صدای گوینده را در خروجی‌های زبان مختلف اعمال کند.

بر اساس یک مقاله تحقیقاتی همراه که توسط متا منتشر شده است، سیستم Voicebox از پیش آموزش دیده می تواند همه این کارها را تنها با استفاده از متن خروجی مورد نظر و یک کلیپ صوتی سه ثانیه ای انجام دهد.

ورود تولید سخنرانی قدرتمند در زمان حساسی اتفاق می‌افتد که شرکت‌های رسانه‌های اجتماعی به مبارزه با اعتدال ادامه می‌دهند و انتخابات ریاست‌جمهوری آتی ایالات متحده تهدید می‌کند یک بار دیگر محدودیت‌های تشخیص اطلاعات نادرست آنلاین را آزمایش کند.

به عنوان مثال، دونالد ترامپ، رئیس جمهور سابق ایالات متحده در حال حاضر با اتهاماتی مبنی بر سوء استفاده از اسناد محرمانه دولتی پس از ترک قدرت مواجه است. از جمله شواهد ادعایی ارائه شده در پرونده علیه وی، ضبط های صوتی است که گفته می شود وی به ارتکاب جرم احتمالی اعتراف کرده است.

در حالی که در حال حاضر هیچ نشانه ای وجود ندارد که رئیس جمهور سابق قصد دارد محتوای افشا شده در فایل های صوتی را انکار کند، پرونده او نشان می دهد که یکپارچگی داده ها برای سیستم حقوقی ایالات متحده و در نتیجه دموکراسی مرکزی است.

Voicebox اولین در نوع خود نیست، اما به نظر می رسد که یکی از قوی ترین ها باشد. به همین دلیل است که متا ابزاری را برای تعیین اینکه آیا گفتار به تنهایی تولید شده است ایجاد کرده است که به ادعای شرکت می تواند تفاوت بین صدای واقعی و جعلی را “به طور بی اهمیت” تشخیص دهد. طبق پست وبلاگ:

“مانند سایر نوآوری های جدید و قدرتمند هوش مصنوعی، ما پتانسیل سوء استفاده و آسیب های ناخواسته ناشی از این فناوری را تشخیص می دهیم. برای کاهش این خطرات احتمالی آینده، نحوه ایجاد یک طبقه بندی بسیار موثر را توضیح می دهیم که می تواند بین گفتار اصلی و صدای تولید شده توسط جعبه صوتی تمایز قائل شود. ”

در دنیای ارزهای رمزنگاری شده، هوش مصنوعی به اندازه اینترنت یا برق برای اکثر کسب و کارها در عملیات روزانه یکپارچه شده است. بزرگترین صرافی ها برای تعامل با مشتری و تجزیه و تحلیل احساسات به چت ربات های هوش مصنوعی متکی هستند و ربات های معاملاتی رایج شده اند.

مرتبط با: Bybit برای ابزارهای معاملاتی مبتنی بر هوش مصنوعی به ChatGPT متصل می شود

ظهور سیستم‌های قدرتمند تبدیل متن به گفتار مانند Voicebox، همراه با معاملات خودکار، می‌تواند به پر کردن شکاف برای معامله‌گران ارزهای دیجیتالی که در حال حاضر به سیستم‌های TTS متکی هستند، کمک کند.


نویسنده: Tristan Greene

اشتراک گذاری و حمایت

تصویر امیر کرمی

امیر کرمی

کارشناس تولید محتوا و علاقه مند به ارز دیجیتال و دنیای فناوری 😉

دیدگاهتان را بنویسید