طبق ادعای محققان آمازون، برای آموزش بزرگترین نسخه این مدل از ۱۰۰ هزار ساعت سخنرانی در بخش عمومی استفاده شده است.
محققان آمازون ادعا کردهاند که بزرگترین مدل هوش مصنوعی تبدیل متن به گفتار را آموزش دادهاند. این مدل جدید که BASE TTS نام دارد، با ۱۰۰ هزار ساعت اطلاعات صوتی آموزش داده شده است و با قابلیتهای بیسابقه خود، میتواند در بخش مدلهای تبدیل متن به صدا انقلابی ظاهر شود.
-
باتری موبایل مدل EB-BJ805ABE ظرفیت ۳۵۰۰ میلی آمپرساعت مناسب برای گوشی موبایل سامسونگ Galaxy A6 Plus
خرید محصول -
تیشرت آستین کوتاه مردانه اسپیور مدل 2M01-9
خرید محصول -
شارژر همراه مایپو مدل Power Cube 5000l ظرفیت ۵۰۰۰ میلی آمپرساعت
خرید محصول -
پاپیون مردانه ال سی وایکیکی مدل 8W8927Z8-NEWBLACK
خرید محصول -
تی شرت ورزشی زنانه پانیل مدل 183Y
خرید محصول -
شارژر فندکی ریمکس مدل RCC303
خرید محصول -
کاور کوتتسی مدل CS7050-BK مناسب برای اپل واچ ۴۴ میلی متری
خرید محصول -
کفش پیاده روی کد ۳۰۴۰
خرید محصول
مدل جدید آمازون Big Adaptive Streamable TTS با قابلیتهای نوظهور نام دارد که بهصورت مخفف و با عنوان BASE TTS شناخته میشود. برای آموزش بزرگترین نسخه این مدل از ۱۰۰ هزار ساعت سخنرانی در بخش عمومی استفاده شده که ۹۰ درصد آن به زبان انگلیسی و بخش دیگر به زبانهای آلمانی، هلند و اسپانیایی است.
این نسخه (BASE-large) با پشتیبانی از ۹۸۰ میلیون پارامتر، ظاهرا بزرگترین مدل در نوع خود محسوب میشود. همچنین این مدل اساساً یک تقلید کننده صدا نیست، بلکه با وجود ویژگیهای نوظهور خود میتواند حتی در صورت مواجهشدن با جملات پیچیده، در زمینه ارائه گفتار با صدای طبیعی، بهترین عملکرد را داشته باشد. آمازون همچنین مدلهای ۴۰۰ و ۱۵۰ پارامتری مدل خود را براساس ۱۰ هزار و ۱۰۰۰ ساعت صدا آموزش داده است.
نمونه تولیدشده توسط مدل هوش مصنوعی تبدیل متن به گفتار آمازون
در وبسایتی که برای این مدل ساخته شده است، چندین نمونه صدا وجود دارد که توسط این هوش مصنوعی براساس برخی متون دشوار ایجاد شده است.
باید به این نکته توجه داشت که این مدل هنوز در مرحله فرایند تجربی خود قرار دارد و برای اهداف تجاری یا موارد مشابه نمیتوان از آن استفاده کرد. در تحقیقات بعدی احتمالاً توضیحات بیشتری درباره تواناییهای نوظهوری و همچنین نحوه آموزش و استقرار مدل اعلام خواهد شد.
هرچند منابع و دادههای مورداستفاده در BASE TTS به دلایل امنیتی فاش نشده است، اما عملکرد چشمگیر این مدل نشانههای روشنی از پیشرفت بخش هوش مصنوعی است.