طبق ادعای محققان آمازون، برای آموزش بزرگترین نسخه این مدل از ۱۰۰ هزار ساعت سخنرانی در بخش عمومی استفاده شده است.
محققان آمازون ادعا کردهاند که بزرگترین مدل هوش مصنوعی تبدیل متن به گفتار را آموزش دادهاند. این مدل جدید که BASE TTS نام دارد، با ۱۰۰ هزار ساعت اطلاعات صوتی آموزش داده شده است و با قابلیتهای بیسابقه خود، میتواند در بخش مدلهای تبدیل متن به صدا انقلابی ظاهر شود.
-
اسپیکر قابل حمل مدل lln-25
۹۹۹,۰۰۰ ﷼ انتخاب گزینهها این محصول دارای انواع مختلفی می باشد. گزینه ها ممکن است در صفحه محصول انتخاب شوند -
لیوان سفری لایت مای فایر مدل pack up-01
خرید محصول -
شلف رومیزی طرح گل
خرید محصول -
کابل اپتیکال مکا مدل MOC4 طول ۳ متر
۱۹۰,۰۰۰ ﷼ انتخاب گزینهها این محصول دارای انواع مختلفی می باشد. گزینه ها ممکن است در صفحه محصول انتخاب شوند -
کفش فوتسال مردانه نیترو مدل آکوآ کد ۱۰۰۴۹
۴۲۹,۰۰۰ ﷼ انتخاب گزینهها این محصول دارای انواع مختلفی می باشد. گزینه ها ممکن است در صفحه محصول انتخاب شوند -
پلاستیک حرارتی فروزان مدل شرینگ ۱۰ طول ۱۰ متر
۴۸,۰۰۰ ﷼ انتخاب گزینهها این محصول دارای انواع مختلفی می باشد. گزینه ها ممکن است در صفحه محصول انتخاب شوند -
تی شرت ورزشی زنانه بی فور ران مدل ۲۱۰۳۲۹-۵۹
۹۹۰,۰۰۰ ﷼ خرید محصول -
شارژر دیواری مدل A1720
خرید محصول
مدل جدید آمازون Big Adaptive Streamable TTS با قابلیتهای نوظهور نام دارد که بهصورت مخفف و با عنوان BASE TTS شناخته میشود. برای آموزش بزرگترین نسخه این مدل از ۱۰۰ هزار ساعت سخنرانی در بخش عمومی استفاده شده که ۹۰ درصد آن به زبان انگلیسی و بخش دیگر به زبانهای آلمانی، هلند و اسپانیایی است.
این نسخه (BASE-large) با پشتیبانی از ۹۸۰ میلیون پارامتر، ظاهرا بزرگترین مدل در نوع خود محسوب میشود. همچنین این مدل اساساً یک تقلید کننده صدا نیست، بلکه با وجود ویژگیهای نوظهور خود میتواند حتی در صورت مواجهشدن با جملات پیچیده، در زمینه ارائه گفتار با صدای طبیعی، بهترین عملکرد را داشته باشد. آمازون همچنین مدلهای ۴۰۰ و ۱۵۰ پارامتری مدل خود را براساس ۱۰ هزار و ۱۰۰۰ ساعت صدا آموزش داده است.
نمونه تولیدشده توسط مدل هوش مصنوعی تبدیل متن به گفتار آمازون
در وبسایتی که برای این مدل ساخته شده است، چندین نمونه صدا وجود دارد که توسط این هوش مصنوعی براساس برخی متون دشوار ایجاد شده است.
باید به این نکته توجه داشت که این مدل هنوز در مرحله فرایند تجربی خود قرار دارد و برای اهداف تجاری یا موارد مشابه نمیتوان از آن استفاده کرد. در تحقیقات بعدی احتمالاً توضیحات بیشتری درباره تواناییهای نوظهوری و همچنین نحوه آموزش و استقرار مدل اعلام خواهد شد.
هرچند منابع و دادههای مورداستفاده در BASE TTS به دلایل امنیتی فاش نشده است، اما عملکرد چشمگیر این مدل نشانههای روشنی از پیشرفت بخش هوش مصنوعی است.