تکنولوژی خوشه بندی خودکار اسناد علمی بر مبنای الگوریتم چرخه آب

عبدالرزاق‌نژاد, مجید; هاشم‌زاده, بهاره; قاسمی, عفت

doi:https://dx.doi.org/10.22105/dmor.2025.487980.1888

(ندگان)پدیدآور

عبدالرزاق‌نژاد, مجیدهاشم‌زاده, بهارهقاسمی, عفت

نوع مدرک

Text
مقاله پژوهشی - کاربردی

زبان مدرک

فارسی

نمایش کامل رکورد

چکیده

هدف: خوشه‌بندی متون با سازماندهی پیکره‌های بزرگ متنی، نقش کلیدی در پیمایش مرور آسان انبوهی از متون دارد. یکی از قابلیت‌های خوشه‌بندی متون در کنفرانس‌های علمی، برای دسته‌بندی مقالات با موضوعات مشترک می‌باشد که کاربردهای زیادی در جست‌وجو و انتخاب مقالات دارد. هدف این تحقیق، بهبود کیفیت و سرعت خوشه‌بندی متون علمی به‌ویژه مقالات پژوهشی با تاکید بر تشخیص خودکار تعداد خوشه‌ها و کاهش نیاز به تنظیمات دستی پارامترها است.روش‌شناسی پژوهش: در این مقاله، یک روش خوشه‌بندی خودکار اسناد علمی جدید بر اساس الگوریتم چرخه آب (WCA) ارایه می‌شود. ایده پیشنهادی متشکل از مراحل مختلف پیش‌پردازش، نمایش اسناد علمی بر اساس TF-IDF سازگار شده برای اسناد علمی، تعریف مکانیزم فعال و غیرفعال شدن مراکز خوشه‌ها از تعداد معینی مرکز خوشه به‌منظور ایجاد انعطاف در تعداد خوشه‌های اسناد علمی و الگوریتم چرخه آب به‌منظور بهینه‌یابی تعداد مراکز خوشه و مختصات آن‌ها می‌باشد.یافته‌ها: در این مقاله از دو مجموعه داده استاندارد NIPS 2015 و AAAI 2013 که حاوی اطلاعات مقالات ارایه‌شده به دو کنفرانس در حوزه یادگیری ماشین و هوش مصنوعی هستند، استفاده شده است. همچنین خوشه‌بندی خودکار بر اساس چهار الگوریتم فرا ابتکاری تکامل تفاضلی، ژنتیک، زنبورعسل و بهینه‌سازی ازدحام ذرات نیز بر روی داده‌های استاندارد یادشده پیاده‌سازی شده‌اند. از شاخص دیویس بودلین (DB) و شاخص چو و سو (CS) جهت ارزیابی کیفیت نتایج به‌دست‌آمده استفاده شده است. نتایج حاصل نشان می‌دهد که روش پیشنهادی در مقایسه با سایر روش‌های فرا ابتکاری، کیفیت و کارایی بهتری در خوشه‌بندی اسناد علمی داشته و قادر به غلبه بر چالش‌های خوشه‌بندی داده‌های متنی نامتوازن و بزرگ مقیاس است.اصالت/ارزش‌افزوده علمی: در روش خوشه‌بندی خودکار پیشنهادی برای اولین بار از الگوریتم چرخه آب که توانایی سازگاری با داده‌های ناهمگن و نامتوازن را دارد استفاده شده است. با توجه به اینکه مقالات علمی هم زمینه در یک مجله یا کنفرانس ارایه‌شده و در خوشه‌بندی این مستندات تحلیل آماری در شناسایی سریع کلمات کلیدی جایگاه ویژه‌ای دارد، ترکیب TF-IDF و مکانیزم فعال و غیرفعال شدن مراکز خوشه در فرآیند خوشه‌بندی اسناد علمی ارایه شده است.

کلید واژگان

متن کاوی
خوشه‌بندی خودکار متون علمی
TF-IDF
الگوریتم‌های فرا ابتکاری
الگوریتم چرخه آب
داده‌کاوی و مفاهیم مربوط به آن

شماره نشریه

تاریخ نشر

2025-02-19
1403-12-01

ناشر

موسسه آموزش عالی آیندگان
Ayandegan Institute of Higher Education, Tonekabon, Iran

سازمان پدید آورنده

گروه علوم کامپیوتر، دانشکده مهندسی کامپیوتر و صنایع، دانشگاه صنعتی بیرجند، بیرجند، ایران.
گروه مهندسی کامپیوتر، دانشگاه الزهرا (س)، مشهد، ایران.
گروه مهندسی کامپیوتر، واحد بیرجند، دانشگاه آزاد اسلامی، بیرجند، ایران.

شاپا

2538-5097
2676-6159

URI

https://dx.doi.org/10.22105/dmor.2025.487980.1888
https://www.journal-dmor.ir/article_213394.html
https://iranjournals.nlai.ir/handle/123456789/1116113