یک روش سریع برای تقطیع گفتار گویندگان بر اساس بسامد گام گفتار (RPSS)

عبدالعلی, بهروز; صامتی, حسین; قزل ایاغ, محمد حسین

(ندگان)پدیدآور

عبدالعلی, بهروزصامتی, حسینقزل ایاغ, محمد حسین

نوع مدرک

Text

زبان مدرک

فارسی

نمایش کامل رکورد

چکیده

تقطیع و خوشه بندی گویندگان فرآیندی است که طی آن قطuه بندی و برچسب گذاری برای گفتار حاصل از یک جلسه که شامل چند گوینده است انجام می‌شود و دنباله صوتی به بخش‌هائی تقسیم می‌شود که هر بخش شامل فقط یک گوینده است و با برچسب گذاری مشخّص می‌شود که هر بخش مربوط به کدام گوینده است. تشخیص فعالیت گفتاری، تقطیع گفتار و خوشه-بندی گویندگان، حداقل مراحل اصلی سامانه های تقطیع و خوشه بندی گفتار بر اساس گوینده محسوب می شوند. برای مرحله ی تقطیع روش های متعددی وجود دارد که تقطیع بر مبنای BIC یکی از روش های مرسوم است. این روش به دلیل محاسبات آماری آن، نیاز به زمان محاسبات طولانی دارد. هدف اصلی این مقاله ارائه ی روش تقطیع بر اساس بسامد گام گفتار است، که هم دارای دقتی در حدّ روش های مرسوم است و هم دارای سرعت محاسبات بالا است، به طوری که در مقایسه با تقطیع بر اساس BIC به طور میانگین دارای مزیّت 4/2 برابری در سرعت و افزایش یک درصد در دقت است.

کلید واژگان

تقطیع و خوشه بندی گویندگان
تقطیع گفتار
بسامد گام گفتار

شماره نشریه

تاریخ نشر

2012-03-20
1391-01-01

ناشر

دانشگاه جامع امام حسین (ع)
Imam Hussein University

سازمان پدید آورنده

دانشگاه امام حسین
دانشگاه صنعتی شریف
دانشگاه امام حسین

شاپا

2228-5865

URI

https://adst.ihu.ac.ir/article_204051.html
https://iranjournals.nlai.ir/handle/123456789/428635