تکنولوژیهوش مصنوعی

هوش مصنوعی VALL-E چیست؟

تقلید صدا در سه ثانیه با هوش مصنوعی VALL-E

مایکروسافت در حال نمایش هوش مصنوعی VALL-E است، فناوری که می تواند صداها را بر اساس ضبط های کوتاه و چند کلمه ای به طور واقعی شبیه سازی کند. این مدل هوش مصنوعی حتی برای بازتولید احساسات آموزش دیده است.

این روزها برای کسانی است که آخرین تحولات هوش مصنوعی را دنبال می کنند بسیار جالب است. پس از اینکه OpenAI با Dall-E و هوش مصنوعی ChatGPT تحت تاثیر قرار گرفت، اکنون نوبت مایکروسافت است که یک قطعه خوب از هوش مصنوعی را باز کند. مایکروسافت از طریق GitHub در حال نمایش VALL-E است، یک سیستم هوش مصنوعی که می تواند صداها را تقلید کند.

هوش مصنوعی VALL-E چیست؟

VALL-E یک مدل زبان عصبی است که برای سنتز متن به گفتار در نظر گرفته شده است. یک مقاله تحقیقاتی بیان می کند که این مدل با بیش از شصت هزار ساعت ضبط صدا به زبان انگلیسی آموزش دیده است. در نتیجه، این مدل در حال حاضر قادر به تقلید صدای هر کسی است که فقط سه ثانیه حرف زده است.

هوش مصنوعی مایکروسافت مطمئناً اولین در نوع خود نیست، اما مدل‌های گفتاری قبلی با هوش مصنوعی همیشه تا به حال بسیار رباتیک به نظر می‌رسیدند. خروجی ای که VALL-E ارائه می دهد بسیار طبیعی تر به نظر می رسد و همچنین بهتر با اسپیکر مطابقت دارد. توصیه می کنیم چند قطعه ضبط شده را گوش کنید و خودتان قضاوت کنید.

هوش مصنوعی VALL-E چیست؟

صداهای زیر را گوش کنید، صدای اول واقعی و صدای دوم از طریق هوش مصنوعی VALL-E تقلید شده است.

 

احساسات و آکوستیک در هوش مصنوعی مایکروسافت

VALL-E همچنین برای ضبط احساسات و آکوستیک محیط آموزش دیده است. اگر یک مکالمه تلفنی ضبط شده به مدل ارائه شود، صدا را به گونه‌ای بازتولید می‌کند که گویی از طریق تلفن می‌آید.

این مدل هنوز با اجازه دادن به احساسات که به طور طبیعی طنین انداز می شوند، مشکل زیادی دارد. در دمو قطعاتی وجود دارد که VALL-E سعی می کند خشم، خستگی، شادی و انزجار را تقلید کند. بلافاصله می شنوید که این احساسات بسیار مصنوعی به نظر می رسند و اگر صدا خنثی باشد نتیجه بهتر است.

با وجود نقص های جزئی، پیشرفت VALL-E را می توان چشمگیر نامید. صداهای تولید شده به طور کلی بسیار واقعی به نظر می رسند. به عنوان مثال، بیم آن می رود که فناوری هایی مانند VALL-E در انتشار اطلاعات نادرست مورد استفاده قرار گیرد، زیرا این امر باعث می شود افراد بتوانند کلماتی را که هرگز نگفته اند را آسان تر بیان کنند.

محققین خواستار پروتکل هایی برای اطمینان از اینکه گوینده همیشه می تواند رضایت خود را برای استفاده و ویرایش فایل های ضبط شده بدهد، می خواهند. در حال حاضر، به نظر نمی رسد که VALL-E در دسترس عموم قرار گیرد. مایکروسافت در حال حاضر در حال بررسی چگونگی ادغام فناوری هوش مصنوعی در آفیس و بینگ با ChatGPT است.

همچنین بخوانید:

یوسف وفایی

فارغ التحصیل کارشناسی IT، علاقه مند به برنامه نویسی و علم امنیت، عاشق یادگیری حرفه های جدید، کنجکاو برای همه چیز، همچنین همیشه تلاش میکنم تا به هدفم برسم...

یک دیدگاه

  1. جالب بود
    هوش مصنوعی داره خیلی پیشرفت می‌کنه و من احساس میکنم که خیلی چیز ها است که شرکت های بزرگ در رابطه با هوش مصنوعی مخفی می کنند

    خسته نباشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


دکمه بازگشت به بالا