متا ادعا می کند که Voicebox اولین هوش مصنوعی است که می تواند وظایف متن به گفتار را تعمیم دهد که برای انجام آن آموزش ندیده است و آن را به عنوان یک “دستیابی به موفقیت” توصیف می کند.
متا هوش مصنوعی اخیراً یک ژنراتور تبدیل متن به گفتار (TTS) را معرفی کرده است که ادعا می کند نتایجی را تا 20 برابر سریعتر از مدل های پیشرفته هوش مصنوعی با عملکرد مشابه تولید می کند.
سیستم جدید که Voicebox نام دارد، از معماری سنتی TTS اجتناب میکند و مدلی شبیه به ChatGPT OpenAI یا Bard گوگل دارد.
یکی از تفاوت های اصلی بین Voicebox و مدل های TTS مشابه مانند ElevenLabs Prime Voice AI این است که پیشنهاد متا را می توان از طریق یادگیری درون زمینه تعمیم داد.
مانند ChatGPT یا سایر مدلهای دگرگونکننده، Voicebox از مجموعه دادههای آموزشی در مقیاس بزرگ استفاده میکند. تلاشهای قبلی برای استفاده از حجم زیادی از دادههای صوتی منجر به تخریب شدید خروجیهای صوتی شد. به همین دلیل، اکثر سیستم های TTS از مجموعه داده های کوچک، بسیار کامپایل شده و برچسب دار استفاده می کنند.
متا از طریق یک برنامه آموزشی جدید که برچسب ها و ویرایش را برای معماری که می تواند اطلاعات صوتی را «پر» کند، بر این محدودیت غلبه می کند.
همانطور که Meta AI در یک پست وبلاگ در 16 ژوئن اشاره کرد، Voicebox “اولین مدلی است که می تواند وظایف تولید گفتار را تعمیم دهد که به طور خاص برای انجام آنها با عملکرد پیشرفته آموزش ندیده است.”
این امکان را برای Voicebox فراهم میکند تا متن را به گفتار ترجمه کند، گفتار جایگزین را برای حذف تداخل ناخواسته ترکیب کند، و حتی صدای گوینده را در خروجیهای زبان مختلف اعمال کند.
بر اساس یک مقاله تحقیقاتی همراه که توسط متا منتشر شده است، سیستم Voicebox از پیش آموزش دیده می تواند همه این کارها را تنها با استفاده از متن خروجی مورد نظر و یک کلیپ صوتی سه ثانیه ای انجام دهد.
ورود تولید سخنرانی قدرتمند در زمان حساسی اتفاق میافتد که شرکتهای رسانههای اجتماعی به مبارزه با اعتدال ادامه میدهند و انتخابات ریاستجمهوری آتی ایالات متحده تهدید میکند یک بار دیگر محدودیتهای تشخیص اطلاعات نادرست آنلاین را آزمایش کند.
به عنوان مثال، دونالد ترامپ، رئیس جمهور سابق ایالات متحده در حال حاضر با اتهاماتی مبنی بر سوء استفاده از اسناد محرمانه دولتی پس از ترک قدرت مواجه است. از جمله شواهد ادعایی ارائه شده در پرونده علیه وی، ضبط های صوتی است که گفته می شود وی به ارتکاب جرم احتمالی اعتراف کرده است.
در حالی که در حال حاضر هیچ نشانه ای وجود ندارد که رئیس جمهور سابق قصد دارد محتوای افشا شده در فایل های صوتی را انکار کند، پرونده او نشان می دهد که یکپارچگی داده ها برای سیستم حقوقی ایالات متحده و در نتیجه دموکراسی مرکزی است.
Voicebox اولین در نوع خود نیست، اما به نظر می رسد که یکی از قوی ترین ها باشد. به همین دلیل است که متا ابزاری را برای تعیین اینکه آیا گفتار به تنهایی تولید شده است ایجاد کرده است که به ادعای شرکت می تواند تفاوت بین صدای واقعی و جعلی را “به طور بی اهمیت” تشخیص دهد. طبق پست وبلاگ:
“مانند سایر نوآوری های جدید و قدرتمند هوش مصنوعی، ما پتانسیل سوء استفاده و آسیب های ناخواسته ناشی از این فناوری را تشخیص می دهیم. برای کاهش این خطرات احتمالی آینده، نحوه ایجاد یک طبقه بندی بسیار موثر را توضیح می دهیم که می تواند بین گفتار اصلی و صدای تولید شده توسط جعبه صوتی تمایز قائل شود. ”
در دنیای ارزهای رمزنگاری شده، هوش مصنوعی به اندازه اینترنت یا برق برای اکثر کسب و کارها در عملیات روزانه یکپارچه شده است. بزرگترین صرافی ها برای تعامل با مشتری و تجزیه و تحلیل احساسات به چت ربات های هوش مصنوعی متکی هستند و ربات های معاملاتی رایج شده اند.
مرتبط با: Bybit برای ابزارهای معاملاتی مبتنی بر هوش مصنوعی به ChatGPT متصل می شود
ظهور سیستمهای قدرتمند تبدیل متن به گفتار مانند Voicebox، همراه با معاملات خودکار، میتواند به پر کردن شکاف برای معاملهگران ارزهای دیجیتالی که در حال حاضر به سیستمهای TTS متکی هستند، کمک کند.
نویسنده: Tristan Greene