سامانه اطلاعات پژوهشی ایران

این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند

شنبه 5 مهر 1404


پردازش علائم و داده ها، جلد ۲۰، شماره ۳، صفحات ۱۰۳-۱۲۶


عنوان فارسی	مروری بر روش‌های شباهت‌سنجی متون کوتاه

چکیده فارسی مقاله	مشابهت‌سنجی بین متون کوتاه یکی از نیازهای بنیادین در بسیاری از مسائل پردازش‌زبان‌طبیعی است؛ که باتوجه به اهمیت آن محققین کماکان به‌دنبال بهبود کیفیت الگوریتم‌های موجود هستند. در این مطالعه 150 مقاله بررسی شدند و دسته‌بندی جامعی برای روش‌های موجود ارائه شد. به‌طورکلی روش‌های ارائه‌شده را می‌توان در سه گروه دسته‌بندی کرد. گروه اول روش‌هایی که بر مشابهت لفظی تمرکز می‌کنند. در این روش‌ها متن به‌عنوان رشته‌ای از کاراکترها یا مجموعه‌ای از کلمات یا ترکیبی از این دو درنظر گرفته می‌شود. گروه دوم روش‌هایی هستند که به ارتباط معنایی کلمات نیز مبتنی‌بر پایگاه دانش یا تحلیل پیکره‌های متنی توجه دارند. در مطالعات اخیر از روش‌های یادگیری عمیق مبتنی‌بر ترنسفورمرها بهره‌برداری شده و نتایج حاکی‌از بهبود چشم‌گیر کیفیت این روش‌هاست. گروه سوم به ترکیب روش‌های لفظی و معنایی و بعضا روش‌های تحلیل نحوی پرداخته‌اند. البته تحلیل‌گرهای نحوی باکیفیتی برای تمامی زبان‌ها نبوده و به‌کارگیری آن‌ها سرعت را نیز به‌مراتب کاهش می‌دهد.

کلیدواژه‌های فارسی مقاله	مشابهت معنایی متون، مشابهت لفظی، پردازش زبان طبیعی، مشابه‌یابی، بردار تعبیه جملات

عنوان انگلیسی	A survey on short text similarity measurement methods

چکیده انگلیسی مقاله	Measuring similarity between two text snippets is one of the essential tasks in many NLP problems and it has been still one of the most challenging tasks in the field. Various methods have been proposed to measure text similarity. This survey reviews more than 150 of the related papers, introduces a comprehensive taxonomy with three main categories, and discusses the advantages and disadvantages of these methods. The first category is lexical methods that only focus on text pair’s surface similarity. These methods consider the text as a sequence of characters, tokens, or a mixture of these two. Some recent studies use deep learning techniques for detecting lexical similarity in alias detection task. The second category is semantic methods that take into consideration the meaning of the words based on some pre-prepared knowledge-bases like Wordnet or using Corpus-based methods. Some recent studies use modern deep learning techniques like transformers and Siamese networks to create document embedding that outperform other methods. The final category is hybrid methods that take advantage of all other methods even syntactic parsing in some cases. Note that high-quality syntactic parsers are not present for many languages and that using them has some side-effects on performance and speed.

کلیدواژه‌های انگلیسی مقاله	short text similarity, lexical similarity, semantic similarity, natural language processing, sentence embedding, transformer

نویسندگان مقاله	احمد ربیعی زاده \| Ahmad Rabiei Zadeh AI Laboratory of Computer Research Center of Islamic Science (Noor) آزمایشگاه هوش مصنوعی مرکز تحقیقات کامپیوتری علوم اسلامی نور حسین امیرخانی \| Hossein Amirkhani Computer Engineering & Information Technology Faculty, University of Qom گروه مهندسی کامپیوتر دانشکده فنی دانشگاه قم، قم، ایران

نشانی اینترنتی	http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-2321-1&slc_lang=fa&sid=1
فایل مقاله	فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده	fa
موضوعات مقاله منتشر شده	مقالات پردازش متن
نوع مقاله منتشر شده	پژوهشی

برگشت به: صفحه اول پایگاه \| نسخه مرتبط \| نشریه مرتبط \| فهرست نشریات

ارسال پیام برخط

در صورت مشاهده هر نوع اشکال در داده های پایگاه و یا برای ارسال نظرات و پیشنهاد های خود می توانید با پر کردن فرم تماس ما را در جریان قرار دهید.
برای پر کردن فرم تماس اینجا را کلیک کنید.

آمار پایگاه

نمایه شده در ISI 135

نمایه شده در PubMed 109

نمایه شده در Scopus 191

کاربران برخط 321

بازدید امروز 5005

بازدید کل 35490645

اطلاعات تماس

آدرس : تهران، سعادت آباد، بلوار پاکنژاد شمالی، بالاتر از میدان سرو، نبش کوچه ندا، پلاک ۶۸، ساختمان جاوید، واحد ۱۶

پست الکترونیک: yektaweb-AT-gmail.com

توجه

کلیه حقوق این وب سایت و مطالب آن متعلق به شرکت یکتاوب بوده و استفاده از مطالب آن با ذکر منبع بلامانع است
طراحی و برنامه نویسی: یکتاوب افزار شرق