• ورود به سامانه
      مشاهده مورد 
      •   صفحهٔ اصلی
      • نشریات فارسی
      • کتابداری و اطلاع‌رسانی
      • دوره 21, شماره 2
      • مشاهده مورد
      •   صفحهٔ اصلی
      • نشریات فارسی
      • کتابداری و اطلاع‌رسانی
      • دوره 21, شماره 2
      • مشاهده مورد
      JavaScript is disabled for your browser. Some features of this site may not work without it.

      استخراج اطلاعات از پیکره زبانی: معرفی پیکرۀ مقاله‎های علمی‎‎پژوهشی دانشگاه فردوسی مشهد

      (ندگان)پدیدآور
      کامیابی گل, عطیهاخلاقی باقوجری, الهامعسگریان, احسانحبیبی, هانیه
      Thumbnail
      دریافت مدرک مشاهده
      FullText
      اندازه فایل: 
      1.622 مگابایت
      نوع فايل (MIME): 
      PDF
      نوع مدرک
      Text
      مقاله پژوهشی
      زبان مدرک
      فارسی
      نمایش کامل رکورد
      چکیده
      هدف: پردازش زبان طبیعی، استفاده در فرهنگ‌نگاری، پیگیری تحولات زبانی و استخراج اطلاعات زبانی خاص از مهم‌ترین کاربردهای پیکره است. هدف از انجام این پژوهش معرفی و توصیف چگونگی ساخت پیکرۀ مقاله‌های علمی‎پژوهشی است که نگارندگان پدید آورده‌اند. روش: برای ایجاد پیکره، نخست نرم‌افزار پیکره‌ساز طراحی و ساخته شد. این نرم‌افزار انواع فرمت از جمله doc،docx ،rtf ،txt  و pdf را پشتیبانی می‌کند. همچنین می‌توان پارامترهای ساخت پیکره را از قبل نیز برای آن تعیین کرد. برای مثال، مشخص کرد که حداقل تعداد توکن فایل برای حضور یک متن در پیکره چه عددی باشد. سپس مجموعه مقاله‌های علمی‌پژوهشی اعضای هیئت‎علمی دانشگاه فردوسی مشهد جمع‌آوری شد. مجموع مقاله‌های مشتمل بر 7.154.202 کلمه و 1100 عنوان است. کلّ پیکره در فایل‌های مجزا به جمله‌های تشکیل‌دهنده آن تجزیه شد. ریشۀ کلمات استخراج و برچسب نحوی کلمات زده شد. علاوه ‌بر امکان استخراج اطلاعات به‌طور مستقیم، نرم‌افزار جانبی دیگری با کاربرد ساده‌تر  برای استخراج اطلاعات آماری نیز طراحی و به آن افزوه شد تا کاربران غیرتخصصی هم بتوانند از آن استفاده و اطلاعات را استخراج کنند. یافته: برای ارزیابی درستیِ  ابزارهای ریشه‌یاب و برچسب‌زنی مقوله‌های گفتار، از پیکره‌های استاندارد موجود مانند پیکره PerDT  (در سایت دادگان) که شامل تعداد قابل‌توجهی جملۀ برچسب‎خورده با اطلاعات نحوی و ساخت‎واژی است استفاده شد. همچنین با مطالعه موردی عبارات احتیاط‌آمیز (بخشی از طرح پژوهشی که به چاپ نرسیده است) یافته‌ این پژوهش که ساخت پیکرۀ مقاله‌های علمی‌پژوهشی است آزمایش و با دقت حدود96% تأیید شد. نتیجه: بر اساس نتایج  به‎دست‎آمده، پیکرۀ ساخته‎شده قابلیت بسیار بالایی برای داده‌کاوی و استفاده در تمام پژوهش‌هایی که بر روی متون علمی انجام می‌شود را دارا است. با استفاده از این پیکره می‌توان توصیفی داده‎محور از نحوۀ کاربرد زبان توسط گروه‌های مختلف کاربران زبانی ارائه کرد. با بارگذاری این پیکره در سایت کتابخانه مرکزی دانشگاه فردوسی مشهد، امکان کاربری عام آن به‎زودی فراهم خواهد شد.
      کلید واژگان
      پیکرۀ زبانی
      برچسب‌دهی
      مقاله‌های علمی‎پژوهشی
      دانشگاه فردوسی مشهد

      شماره نشریه
      2
      تاریخ نشر
      2018-07-23
      1397-05-01
      ناشر
      سازمان کتابخانه‌ها، موزه‌ها و مرکز اسناد آستان قدس رضوی
      Central Library of Astan Quds Razavi
      سازمان پدید آورنده
      استادیار، گروه زبانشناسی، دانشکده ادبیات و علوم انسانی، دانشگاه فردوسی مشهد، مشهد، ایران.
      کارشناسی ارشد، گروه زبانشناسی، دانشکده ادبیات و علوم انسانی، دانشگاه فردوسی مشهد، مشهد، ایران.
      دکتری، گروه مهندسی کامپیوتر، دانشکده مهندسی، دانشگاه فرودسی مشهد، مشهد، ایران.
      کارشناسی ارشد، گروه زبانشناسی، دانشکده ادبیات و علوم انسانی، دانشگاه فردوسی مشهد، مشهد، ایران

      شاپا
      1680-9637
      2676-5977
      URI
      https://dx.doi.org/10.30481/lis.2018.61800
      http://lis.aqr-libjournal.ir/article_61800.html
      https://iranjournals.nlai.ir/handle/123456789/445562

      مرور

      همه جای سامانهپایگاه‌ها و مجموعه‌ها بر اساس تاریخ انتشارپدیدآورانعناوینموضوع‌‌هااین مجموعه بر اساس تاریخ انتشارپدیدآورانعناوینموضوع‌‌ها

      حساب من

      ورود به سامانهثبت نام

      تازه ترین ها

      تازه ترین مدارک
      © کليه حقوق اين سامانه برای سازمان اسناد و کتابخانه ملی ایران محفوظ است
      تماس با ما | ارسال بازخورد
      قدرت یافته توسطسیناوب