تکنیکهای خلاصهسازی چندسندی خودکار متون فارسی مبتنی بر الگوریتمهای فرااکتشافی
(ندگان)پدیدآور
آهنگری, فاطمهکرباسی, سهیلایعقوبی, مهدینوع مدرک
Textمقاله پژوهشی
زبان مدرک
فارسیچکیده
هدف:ارائه الگوی خلاصهسازی استاندارد متون فارسی با رویکرد تبدیل مسئله خلاصهسازی به مسئله بهینهسازی توسط الگوریتمهای فرااکتشافی سازگار. روششناسی: در این پژوهش از اسناد استاندارد پیکره چندسندی «پاسخ» که شامل 50 موضوع مختلف از انواع گونههای خبری از خبرگزاریهای پرببینده ایران، برای ارزیابی استفاده شده است. هر موضوع حاوی 20 سند و همچنین 5 خلاصه چکیدهای و 5 خلاصه استخراجی است. ابتدا عملیات پیشپردازش روی متون ورودی انجام و خلاصههای اولیه تولید شدند. این کار بهکمک معیار TF-ISF، معیارهای خوانایی و انسجام جملات، ویژگی شباهت با عنوان، ویژگی موقعیت جمله در متن، و ویژگی طول جمله انجام شد. با توجه به هر یک از این معیارها، وزنی به هر یک از جملات خلاصه اختصاص داده و ماتریس شباهت ایجاد شد. سپس، خروجی سیستم استخراج توسط دو الگوریتم فرااکتشافی ژنتیک و جستجوی فاخته برای رسیدن به خلاصه نهایی پردازش شد. درنهایت، خروجی بهدستآمده از مرحله قبل بهکمک ابزار ارزیابی Rouge و مقایسه با خلاصههای انسانی تحلیل شدند. یافتهها: میانگین همه مقادیر بهدستآمده از ابزار ارزیابی Rouge در محاسبه میزان همپوشانی نمونههای مشترک خلاصههای انسانی و خلاصه ماشینی توسط الگوریتم جستجوی فاخته بیشتر از مقادیر بهدستآمده توسط الگوریتم ژنتیک و همچنین سامانه خلاصهساز برخط ایجاز بودند. از میان هشت معیار موجود در این ابزار، دو معیار ارزیابی طولانیترین زیررشته مشترک با مقدار 0.33 و تعداد لغات مشابه در متن با مقدار 0.40 نتایج بهتری نسبت به بقیه معیارها داشتند. نتیجهگیری: نتایج حاصل از مقایسه دو الگوریتم بهکاررفته، حاکی از عملکرد بهتر الگوریتم جستجوی فاخته در هر یک از معیارهای ابزار Rouge است. از طرفی مقایسه زمانی نتایج نشان میدهد که میانگین زمانی محاسبهشده برای خلاصهسازی توسط سیستم پیشنهادی با الگوریتم جستجوی فاخته کمتر است.
کلید واژگان
خلاصهسازی خودکار متنخلاصه استخراجی
الگوریتمهای فرااکتشافی
الگوریتم ژنتیک
الگوریتم جستجوی فاخته
ابزار ارزیابی Rouge
مدیریت محتوا
شماره نشریه
2تاریخ نشر
2019-07-231398-05-01
ناشر
سازمان اسناد و کتابخانه ملی جمهوری اسلامی ایرانNational Library and Archives of Islamic Republic of Iran
سازمان پدید آورنده
دانشکده فنی و مهندسی، دانشگاه گلستان، گرگان، ایرانگروه کامپیوتر- دانشکده فنی و مهندسی-دانشگاه گلستان
دانشکده فنی و مهندسی، دانشگاه گلستان، گرگان، ایران
شاپا
2252-05032383-322X




