استخراج ویژگیهای مقاوم گفتاری زیر باندی با استفاده از شبکههای درهمپیچش چند دقتی
(ندگان)پدیدآور
نادری, نویدناصر شریف, بابکنوع مدرک
Textزبان مدرک
فارسیچکیده
شبکههای عصبی درهمپیچش (CNN) بهعنوان گروهی از شبکههای عصبی عمیق، در سالهای اخیر کاربرد فراوانی در مدلسازی آکوستیک و همچنین استخراج ویژگی و مدلسازی توأم در بازشناسی گفتار یافتهاند. در مقاله حاضر، پیشنهاد میشود تا از CNN برای استخراج ویژگی مقاوم به نویز استفاده شود، درحالیکه ورودی CNN طیف سیگنال گفتار نویزی و خروجی هدف آن خروجیهای متناظر تمیز از بانک فیلتر مل است. بهاینترتیب CNN ویژگیهای مقاوم به نویز را از طیف سیگنال گفتار استخراج مینماید. نقطهضعف CNN در این روش آن است که تنها یک وضوح فرکانسی ثابت را به کار میگیرد. ازاینجهت، در این مقاله استفاده از چند شبکه عصبی درهمپیچش با اندازههای فیلتر درهمپیچش متفاوت، جهت مدلسازی تفاوت وضوح فرکانسی برای استخراج ویژگی از طیف سیگنال گفتار پیشنهاد میشود. روش پیشنهادی را شبکه عصبی درهمپیچش چند دقتی (MRCNN) نامگذاری کردهایم. آزمایشها روی دادگان Aurora2 نشان میدهند که CNN نسبت به شبکه باور عمیق در استخراج ویژگی مقاوم به نویز میانگین دقت بازشناسی را 20 درصد بهبود میدهد. همچنین نتایج نشان میدهند که MRCNN میانگین دقت بازشناسی را نسبت به شبکه عصبی درهمپیچش استاندارد (تک دقتی) 1 درصد بهبود میدهد.
کلید واژگان
شبکه عصبی درهم پیچشبازشناسی مقاوم گفتار
تک دقتی
چند دقتی
بانک فیلتر مل
شماره نشریه
3تاریخ نشر
2019-11-221398-09-01
ناشر
رئیس دانشکده مهندسی برق و کامپیوترFaculty of Electrical & Computer Engineering
سازمان پدید آورنده
دانشکده مهندسی کامپیوتر - دانشگاه صنعتی خواجهنصیرالدین طوسیدانشکده مهندسی کامپیوتر - دانشگاه صنعتی خواجهنصیرالدین طوسی
شاپا
2008-77992538-3051




