این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
شنبه 5 مهر 1404
پردازش علائم و داده ها
، جلد ۲۰، شماره ۳، صفحات ۱۰۳-۱۲۶
عنوان فارسی
مروری بر روشهای شباهتسنجی متون کوتاه
چکیده فارسی مقاله
مشابهتسنجی بین متون کوتاه یکی از نیازهای بنیادین در بسیاری از مسائل پردازشزبانطبیعی است؛ که باتوجه به اهمیت آن محققین کماکان بهدنبال بهبود کیفیت الگوریتمهای موجود هستند. در این مطالعه 150 مقاله بررسی شدند و دسته
بندی جامعی برای روشهای موجود ارائه شد. بهطورکلی روشهای ارائهشده را میتوان در سه گروه دستهبندی کرد. گروه اول روشهایی که بر مشابهت لفظی تمرکز میکنند. در این روشها متن بهعنوان رشتهای از کاراکترها یا مجموعهای از کلمات یا ترکیبی از این دو درنظر گرفته میشود. گروه دوم روشهایی هستند که به ارتباط معنایی کلمات نیز مبتنیبر پایگاه دانش یا تحلیل پیکرههای متنی توجه دارند. در مطالعات اخیر از روشهای یادگیری عمیق مبتنیبر ترنسفورمرها بهرهبرداری شده و نتایج حاکیاز بهبود چشمگیر کیفیت این روشهاست. گروه سوم به ترکیب روشهای لفظی و معنایی و بعضا روشهای تحلیل نحوی پرداختهاند. البته تحلیلگرهای نحوی باکیفیتی برای تمامی زبانها نبوده و بهکارگیری آنها سرعت را نیز بهمراتب کاهش میدهد.
کلیدواژههای فارسی مقاله
مشابهت معنایی متون، مشابهت لفظی، پردازش زبان طبیعی، مشابهیابی، بردار تعبیه جملات
عنوان انگلیسی
A survey on short text similarity measurement methods
چکیده انگلیسی مقاله
Measuring similarity between two text snippets is one of the essential tasks in many NLP problems and it has been still one of the most challenging tasks in the field. Various methods have been proposed to measure text similarity. This survey reviews more than 150 of the related papers, introduces a comprehensive taxonomy with three main categories, and discusses the advantages and disadvantages of these methods. The first category is lexical methods that only focus on text pair’s surface similarity. These methods consider the text as a sequence of characters, tokens, or a mixture of these two. Some recent studies use deep learning techniques for detecting lexical similarity in alias detection task. The second category is semantic methods that take into consideration the meaning of the words based on some pre-prepared knowledge-bases like Wordnet or using Corpus-based methods. Some recent studies use modern deep learning techniques like transformers and Siamese networks to create document embedding that outperform other methods. The final category is hybrid methods that take advantage of all other methods even syntactic parsing in some cases. Note that high-quality syntactic parsers are not present for many languages and that using them has some side-effects on performance and speed.
کلیدواژههای انگلیسی مقاله
short text similarity, lexical similarity, semantic similarity, natural language processing, sentence embedding, transformer
نویسندگان مقاله
احمد ربیعی زاده | Ahmad Rabiei Zadeh
AI Laboratory of Computer Research Center of Islamic Science (Noor)
آزمایشگاه هوش مصنوعی مرکز تحقیقات کامپیوتری علوم اسلامی نور
حسین امیرخانی | Hossein Amirkhani
Computer Engineering & Information Technology Faculty, University of Qom
گروه مهندسی کامپیوتر دانشکده فنی دانشگاه قم، قم، ایران
نشانی اینترنتی
http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-2321-1&slc_lang=fa&sid=1
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
مقالات پردازش متن
نوع مقاله منتشر شده
پژوهشی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات