تقلید صدا در 3 ثانیه ؛ قابلیت نسبتا خطرناک هوش مصنوعی VALL-E

منبع: تکراتو

8

1401/10/22

15:03


هوش مصنوعی VALL-E از یک ویژگی بسیار خطرناک به نام تقلید صدا در 3 ثانیه استفاده می‌کند. مایکروسافت چند پله از زمانه خود جلوتر است.

تقلید صدا در 3 ثانیه ؛ قابلیت نسبتا خطرناک هوش مصنوعی VALL-E

هوش مصنوعی VALL-E از یک ویژگی بسیار خطرناک به نام تقلید صدا در 3 ثانیه استفاده می‌کند. مایکروسافت چند پله از زمانه خود جلوتر است.

تقلید صدا در 3 ثانیه ؛ این ویژگی جدید شبیه‌ساز هوش مصنوعی VALL-E است که هفته گذشته توسط مایکروسافت معرفی شد. توسعه‌دهندگان این هوش مصنوعی معتقدند که استفاده از این ویژگی می‌تواند در اپلیکیشن‌های تبدیل متن به گفتار با استفاده از ویژگی‌های صوتی مورد استفاده قرار گیرد.

Microsoft نمونه اولیه این ویژگی را در وب‌سایت هوش مصنوعی VALL-E به اشتراک گذاشته است. نکته‌ای که در این ویژگی بیش‌از هرچیزی به ذهن می‌رسد این است که استفاده از VALL-E می‌تواند در زمینه جعل صدا و استفاده‌های غیرقانونی بسیار مؤثر باشد.

بیشتر بخوانید: طراحی استادیوم‌های آینده با هوش مصنوعی ؛ پای یک جوان ایرانی در میان است [+عکس]

تقلید صدا در 3 ثانیه با کمک هوش مصنوعی مایکروسافت

پنجشنبه گذشته، محققان مایکروسافت یک مدل جدید هوش مصنوعی تبدیل متن به گفتار که به راحتی در سه ثانیه می‌تواند این وظیفه را انجام دهد با نام VALL-E معرفی کردند. این الگوریتم هوش مصنوعی زمانی که یک صدای خاص را یاد گرفت، می‌تواند به راحتی با حفظ لحن، صحبت‌های گوینده را تکرار کند.

سازندگان این AI تخمین زده‌اند که VALL-E می‌تواند برای اپلیکیشن‌های تبدیل متن به گفتار با کیفیت و ویرایش صوتی گفتار مورد استفاده قرار گیرد. مایکروسافت VALL-E را مدل کدک عصبی زبانی توصیف کرده و اعلام کرده که این فناوری با کمک تکنولوژی به نام EnCodec که متا در اکتبر 2022 معرفی کرده ساخته شده است.

برخلاف سایر روش‌های تبدیل متن به گفتار که معمولا با دستکاری شکل موج به وقوع می‌پیوندد، مایکروسافت اظهار کرده است که:

VALL-E کدک‌های صوتی مجزا و اختصاصی را بر اساس متن و پیام صوتی به صورت مستقل تولید می‌کند و اساساً صدای یک شخص را تحلیل می‌کند و آن را به کمک EnCodec به اجزای اختصاصی تبدیل می‌کنند و با استفاده از الگوریتم‌های یادگیری ماشین و دیتای آموزشی، چگونگی بیان دیگر جملات و کلمات را با همان صدای صوتی تحلیل و پیش بینی می‌کند.

تقلید صدا در 3 ثانیه با کمک هوش مصنوعی مایکروسافت

ردموندی‌ها قابلیت تمرین گفتار هوش مصنوعی VALL-E را مبتنی بر لایبرری نرم‌افزاری LibriLight که توسط متا توسعه یافته خوانده که شامل 60,000 ساعت سخنرانی به زبان انگلیسی بیش از 7000 سخنران است و عمدتاً از کتابخانه صوتی LibriVox استخراج شده است.

Microsoft همچنین در وب‌سایت VALL-E نمونه‌های عملی از مدل گیری این هوش مصنوعی را به اشتراک گذاشته است. این تکنولوژی با وجود مفید بودن و ارائه قابلیت‌های کاربردی، توانایی جعل صدا برای استفاده‌های غیرقانونی خصوصاً در شبکه‌های اجتماعی را نیز دارد و مایکروسافت با آگاهی از این مورد VALL-E را به صورت مستقیم و مستقل برای آزمایش در دسترس قرار نداده است.

بیشتر بخوانید:

دیدگاه شما در خصوص تقلید صدا در 3 ثانیه چیست؟ نظرات خود را در بخش کامنت‌ها با تکراتو در میان گذاشته و اخبار تکنولوژی را با ما دنبال کنید.

مطالب مشابه


نظرات


تصویری


ویدئو