این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
یکشنبه 13 مهر 1404
پردازش علائم و داده ها
، جلد ۱۴، شماره ۴، صفحات ۵۵-۷۸
عنوان فارسی
ارائه روشی برای استخراج کلمات کلیدی و وزندهی کلمات برای بهبود طبقهبندی متون فارسی
چکیده فارسی مقاله
با توجه به گسترش روزافزون اطلاعات و وجود حجم انبوه متون غیرساخت یافته، استفاده از کلمات کلیدی نقش مهمی در بازیابی اطلاعات دارد. این درحالی است که استخراج کلمات کلیدی بهصورت دستی مشکلات زیادی دارد. بنابرین استخراج کلمات کلیدی بهصورت خودکار از نیازهای ضروری فناوری امروزه است. در این پژوهش سعی شده با استفاده از اصطلاحنامه که از نظامی ساختارمند برخوردار است، کلمات کلیدی بامعناتری از متون استخراج کرد و با آنها طبقهبندی متون فارسی را بهبود بخشید. مراحلی که برای افزایش جامعیت جستجو باید سپری شود به این صورت است که در مرحله نخست کلمات زائد حذف و باقی کلمات ریشهیابی میشود؛ سپس به کمک اصطلاحنامه کلمات هممعنی، اعمها و اخصها و همچنین وابستهها پیدا و در ادامه برای مشخصشدن اهمیت نسبی کلمات یک وزن عددی به هر کلمه منسوب میشود که بیانگر میزان تأثیر کلمه در ارتباط با موضوع متن و درمقایسه با سایر کلمات بهکاررفته در متن است. با توجه به مراحل بالا و به کمک اصطلاحنامه، طبقهبندی متون دقیقتر انجام میگیرد. در این روش از الگوریتم نزدیکترین همسایه (KNN) برای طبقهبندی استفاده میشود. الگوریتم KNN بهخاطر سادگی و مؤثربودن آن در طبقهبندی متون بسیار بهکار برده میشود. مبنای کار این الگوریتم، مقایسه متن آزمایش دادهشده با متون آموزشی دادهشده و بهدستآوردن میزان شباهت بین آنها است. نتایج آزمایشها برروی چندین متن در موضوعهای مختلف، نشاندهنده دقت و توانایی روش پیشنهادی در استخراج کلمات کلیدی منطبق با خواست کاربر و درنتیجه طبقهبندی دقیقتر متون است.
کلیدواژههای فارسی مقاله
اصطلاحنامه، بازیابی اطلاعات، استخراج کلمات کلیدی، وزندهی
عنوان انگلیسی
An Approach for Extraction of Keywords and Weighting Words for Improvement Farsi Documents Classification
چکیده انگلیسی مقاله
Due to ever-increasing information expansion and existing huge amount of unstructured documents, usage of keywords plays a very important role in information retrieval. Because of a manually-extraction of keywords faces various challenges, their automated extraction seems inevitable. In this research, it has been tried to use a thesaurus, (a structured word-net) to automatically extract them. Authors claim that extraction of more meaningful keywords out of documents can be attained via employment of a thesaurus. The keywords extracted by applying thesaurus, can improve the document classification. The steps to be taken to increase the comprehensiveness of search should be such that in the first step the stop words are removed and the remaining words are stemmed. Then, with the help of a thesaurus are found words equivalent, hierarchical and dependent. Then, to determine the relative importance of words, a numerical weight is assigned to each word, which represents effect of the word on the subject matter and in comparison with other words used in the text. According to the steps above and with the help of a thesaurus, an accurate text classification is performed. In this method, the KNN algorithm is used for the classification. Due to the simplicity and effectiveness of this algorithm (KNN), there is a great deal of use in the classification of texts. The cornerstone of KNN is to compare with the text trained and text tested to determine their similarity between. The empirical results show the quality and accuracy of extracted keywords are satisfiable for users. They also confirm that the document classification has been enhanced. In this research, it has been tried to extract more meaningful keywords out of texts using thesaurus (which is a structured word-net) rather than not using it.
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
مجید محمدپور | mahid mohammadpour
دانشگاه آزاد اسلامی واحد یاسوج
حمید پروین | hamid parvin
دانشگاه آزاد اسلامی واحد نورآباد ممسنی
صمد نجاتیان | samad nejatian
دانشگاه آزاد اسلامی واحد یاسوج
وحیده رضائی | vahideh rezaie
دانشگاه آزاد اسلامی واحد یاسوج
نشانی اینترنتی
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-755-2&slc_lang=fa&sid=fa
فایل مقاله
اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-577507.pdf
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
مقالات پردازش متن
نوع مقاله منتشر شده
پژوهشی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات