• ثبت نام
    • ورود به سامانه
    مشاهده مورد 
    •   صفحهٔ اصلی
    • نشریات انگلیسی
    • International Journal of Nonlinear Analysis and Applications
    • Volume 11, Issue 1
    • مشاهده مورد
    •   صفحهٔ اصلی
    • نشریات انگلیسی
    • International Journal of Nonlinear Analysis and Applications
    • Volume 11, Issue 1
    • مشاهده مورد
    JavaScript is disabled for your browser. Some features of this site may not work without it.

    A Novel Set of Contextual Features for Web Spam Detection

    (ندگان)پدیدآور
    Asdaghi, FaezeSoleimani, AliZahedi, Morteza
    Thumbnail
    دریافت مدرک مشاهده
    FullText
    اندازه فایل: 
    1.595 مگابایت
    نوع فايل (MIME): 
    PDF
    نوع مدرک
    Text
    Research Paper
    زبان مدرک
    English
    نمایش کامل رکورد
    چکیده
    Web spam is one of the significant problems facing search engines. It wastes sources and time, decreases the quality of results and leads to user discontent. The two main approaches to the detection spam web pages are link and content-based analysis. In this study, we mainly focus on content-based analysis in both user-visible text and the source code of a web page to propose a set of features for web spam detection. we explore the relationship between types and frequency of HTML (HyperText Markup Language) tags used in a web page source code. We also examine the structure of the URL as the other source of information. Finally, the content of a web page visible to the user is considered semantically in order to identify relevance among the number of the existing topics in the text as well as the coherence of a text using Latent Dirichlet Allocation. Experimental results show that the proposed features increases the index of balanced accuracy from 0.33 to 0.69 and improves the web spam detection rate.
    کلید واژگان
    web spam
    content-based features
    URL structure
    HTML tags
    topic modeling
    Latent Dirichlet Allocation

    شماره نشریه
    1
    تاریخ نشر
    2020-01-01
    1398-10-11
    ناشر
    Semnan University
    سازمان پدید آورنده
    Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran
    Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran
    Faculty of Computer Engineering, Shahrood University of Technology, Shahrood, Iran

    شاپا
    2008-6822
    URI
    https://dx.doi.org/10.22075/ijnaa.2020.4297
    https://ijnaa.semnan.ac.ir/article_4297.html
    https://iranjournals.nlai.ir/handle/123456789/322888

    مرور

    همه جای سامانهپایگاه‌ها و مجموعه‌ها بر اساس تاریخ انتشارپدیدآورانعناوینموضوع‌‌هااین مجموعه بر اساس تاریخ انتشارپدیدآورانعناوینموضوع‌‌ها

    حساب من

    ورود به سامانهثبت نام

    آمار

    مشاهده آمار استفاده

    تازه ترین ها

    تازه ترین مدارک
    © کليه حقوق اين سامانه برای سازمان اسناد و کتابخانه ملی ایران محفوظ است
    تماس با ما | ارسال بازخورد
    قدرت یافته توسطسیناوب