ارائه روشی برای استخراج خودکار عبارات کلیدی از اخبار وب پارسی
(ندگان)پدیدآور
باسره, مریمدرهمی, ولیظریفزاده, سجادنوع مدرک
Textزبان مدرک
فارسیچکیده
دادگان متنی و از آن جمله متون خبری از حوزههای مهم بازیابی اطلاعات به شمار میرود و استخراج اطلاعات از آنها ضروری است. این امر با استخراج عبارات کلیدی اسناد که دربردارنده محتوای اصلی متن است، صورت میگیرد. در این پژوهش، راهکاری سه مرحلهای جهت استخراج عبارات کلیدی از صفحات خبری وب پارسی، با ترکیب شیوههای زبانشناختی، یادگیری با ناظر، ابتکاری و تعداد نسبتاً جامعی از شیوههای آماری ارائه میشود. همچنین، یک مجموعه داده خبری و لیستی از عبارات توقفی خبری ایجاد میگردد. در پژوهش حاضر، با توجه به ویژگیهای دادگان، از دستهبند جنگل تصادفی استفاده و عملکرد خوب آن به کمک نتایج آزمایشها ثابت میشود. به علاوه، استفاده از امتیاز تعلقگرفته به عبارات توسط دستهبند، جهت ایجاد لیستی مرتب از عبارات برای دستهبندی، به جای استفاده ازخروجی دستهبند، پیشنهاد میشود. نتایج، نشاندهنده دقت قابلقبول سیستم ارائهشده است.
کلید واژگان
عبارات کلیدیاستخراج عبارات کلیدی
اسناد خبری
شیوههای آماری
یادگیری با ناظر
متنکاوی
بازیابی اطلاعات
شماره نشریه
3تاریخ نشر
2017-11-221396-09-01
ناشر
رئیس دانشکده مهندسی برق و کامپیوترFaculty of Electrical & Computer Engineering
سازمان پدید آورنده
دانشگاه یزد - پردیس فنی و مهندسی - دانشکده مهندسی کامپیوتردانشگاه یزد - پردیس فنی و مهندسی - دانشکده مهندسی کامپیوتر
دانشگاه یزد - پردیس فنی و مهندسی - دانشکده مهندسی کامپیوتر
شاپا
2008-77992538-3051




