سامانه اطلاعات پژوهشی ایران

این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند

جمعه 28 شهریور 1404


پژوهشنامه پردازش و مدیریت اطلاعات، جلد ۴۰، شماره ۲، صفحات ۰-۰


عنوان فارسی	شناسایی و استخراج باهمایی های زبان فارسی با استفاده از روشهای رایانشی

چکیده فارسی مقاله	در این مقاله به بازشناسی باهمایی‌ها در زبان فارسی پرداخته می‌شود. پژوهش‌های صورت گرفته‌ی زبان فارسی در این زمینه عمدتاً آماری و مقابله‌ای بوده است. هدف این پژوهش بازشناسی باهمایی‌ها به روش پیکره-بنیاد و رایانشی می‌باشد. برای این منظور، از پایگاه داده زبان فارسی به عنوان پیکره پژوهش استفاده شده است. همچنین به علت نداشتن لغت‌نامه باهمایی‌ در زبان فارسی‌ مجموعه داده‌ای از باهمایی‌ بر اساس کتاب فرهنگ زبان‌آموز پیشرفته فارسی ساخته شده است. با استفاده از بردارهای تعبیه‌ی fasttext مدل زبانی با شبکه‌ی حافظه کوتاه‌مدت ماندگار آموزش داده می‌شود. همچنین با تنظیم دقیق پارس‌برت فراخوانی این مدل‌ زبانی با استفاده از لیست‌های هزارتایی باهمایی‌ها و ناباهمایی‌ها محاسبه شد. در انتها بررسی مقابله‌ای بازشناسی باهمایی‌ در موتور ترجمه گوگل با استفاده از ترجمه‌ی هزار جمله فارسی به انگلیسی که هر یک از جملات دارای یک باهمایی‌ می‌باشد، انجام شده است. نتایج نشان می‌دهد که مدل پارس‌برت با فراخوانی 93/95 % و 8/85 % به ترتیب به بازشناسی باهمایی‌ و ناباهمایی و مدل زبانی آموزش‌دیده با شبکه‌ی حافظه کوتاه‌مدت ماندگار به ترتیب باهمایی‌ و ناباهمایی را با فراخوانی 6/6 % و 0% بازشناسی کرد. همچنین بررسی مقابله‌ایِ دقت ترجمه موتور گوگل در ترجمه باهمایی‌ها سه نتیجه را دربرداشت: (1) باهمایی‌ به‌درستی بازشناسی و ترجمه شد؛ (2) باهمایی‌ به‌درستی بازشناسی نشد و ترجمه به صورت تحت‌اللفظی و واژه به واژه می‌باشد؛ (3) باهمایی‌ بازشناسی نشد و ترجمه‌ی غلطی صورت پذیرفته است.

کلیدواژه‌های فارسی مقاله	همایند،پارس‌برت،حافظه کوتاه‎مدت ماندگار،زبان‌شناسی رایانشی،زبان فارسی،

عنوان انگلیسی	Using Computational Methods for Persian Collocations Identification and Extraction

چکیده انگلیسی مقاله	In this article we study collocations in Persian. Previous researches in this field have been mostly statistical and comparative. The purpose of this research is to identify collocations using a corpus-based and computational method. In this research, after reviewing the definition of a collocation given by Iranian and non-Iranian linguists, researches conducted by Iranians or non-Iranians in this field are presented. In this paper, the Persian language database is used as the corpus. Also, as no dictionary of Persian collocations exist, a dataset of collocations has been compiled based on the Advanced Learners' Persian Dictionary. Using FastText embedded vectors, the language model is trained with a Long Short-Term Memory network. The results are then evaluated using several methods. Also, by fine-tuning ParsBert, the call of this language model is calculated using a thousand-item lists of collocations and non-collocations. Finally, a comparative analysis of collocation translation in Google Translate is conducted by translating a thousand Persian sentences into English. The following results are obtained from the examination of collocations in the language model trained with the Long Short-Term Memory network and ParsBert: in both models, collocations can be predicted, but ParsBert proved a stronger model in investigating language problems such as collocation examination. In the comparative analysis of the accuracy of Google Translate's collocation translation, three results were obtained: (1) the translation was correct; (2) the translation was literal and word for word; (3) The translation of collocations was ignored.

کلیدواژه‌های انگلیسی مقاله	همایند,پارس‌برت,حافظه کوتاه‎مدت ماندگار,زبان‌شناسی رایانشی,زبان فارسی

نویسندگان مقاله	زینب الهدی حشمتی \| استادیار؛ دانشکده سامان ههای هوشمند؛ دانشگاه تهران مینا ملکی ویکاء \| دانش‌آموخته دانشکده علوم و فنون نوین، دانشگاه تهران محمود بی جن خان \| استاد؛ دانشکده ادبیات و علوم انسانی؛ دانشگاه تهران هادی ویسی \| دانشیار:دانشکده علوم و فنون نوین، دانشگاه تهران، تهران، ایران

نشانی اینترنتی	https://jipm.irandoc.ac.ir/article_722111_bf11e21b9da0e571c06b07478d2e0ee3.pdf
فایل مقاله	فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده	fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده

برگشت به: صفحه اول پایگاه \| نسخه مرتبط \| نشریه مرتبط \| فهرست نشریات

ارسال پیام برخط

در صورت مشاهده هر نوع اشکال در داده های پایگاه و یا برای ارسال نظرات و پیشنهاد های خود می توانید با پر کردن فرم تماس ما را در جریان قرار دهید.
برای پر کردن فرم تماس اینجا را کلیک کنید.

آمار پایگاه

نمایه شده در ISI 135

نمایه شده در PubMed 109

نمایه شده در Scopus 191

کاربران برخط 499

بازدید امروز 17281

بازدید کل 35229731

اطلاعات تماس

آدرس : تهران، سعادت آباد، بلوار پاکنژاد شمالی، بالاتر از میدان سرو، نبش کوچه ندا، پلاک ۶۸، ساختمان جاوید، واحد ۱۶

پست الکترونیک: yektaweb-AT-gmail.com

توجه

کلیه حقوق این وب سایت و مطالب آن متعلق به شرکت یکتاوب بوده و استفاده از مطالب آن با ذکر منبع بلامانع است
طراحی و برنامه نویسی: یکتاوب افزار شرق