این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
پردازش علائم و داده ها، جلد ۱۲، شماره ۳، صفحات ۳-۱۴

عنوان فارسی ارائه یک رتبه‌بند برای خطایاب معنایی با استفاده از ویژگی‌های حساس به متن
چکیده فارسی مقاله در عصر فناوری، روزانه حجم زیادی از سند­های الکترونیکی تولید می­شود. از آنجا که این سند­ها توسط افراد مختلف تولید می­شود دارای خطاهایی هستند. وجود خطاها باعث کاهش کیفیت سند­ها می­شود، بنابراین وجود ابزارهای خطایاب باعث افزایش کیفیت می­شود. یکی از انواع خطاها، خطای معنایی حساس به متن است. همانطور که از نام این آن برمی­آید، برای تشخیص و تصحیح آن، نیاز به تحلیل اطلاعات موجود در متن است. در این مقاله، یک رتبه­بند متمایزگر مستقل از زبان برای خطایاب­های معنایی حساس به متن ارائه دادیم و از اطلاعات کل متن برای رتبه­بندی استفاده کردیم. این رتبه­بندی توسط ویژگی­های حساس به متن و یک مدل لگاریتم خطی انجام شده است. برای ارزیابی روش، از دو روش مبنای مختلف که یکی بر اساس مترجم ماشینی آماری و دیگری بر اساس مدل زبانی است استفاده کرده­ایم. به منظور ارزیابی سیستم از دو داده­ی آزمون مختلف در زبان فارسی استفاده شده است. این روش باعث بهبود 17% در بازخوانی تشخیص و تصحیح نسبت به روش مبنای مترجم ماشینی آماری شده است.
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی A real-world spell checker using context-sensitive features
چکیده انگلیسی مقاله Nowadays, a large volume of documents is generated daily. These documents generated by different persons, thus, the documents contain spelling errors. These spelling errors cause quality of the documents are decrease. Therefore, existence of automatic writing assistance tools such as spell checker/corrector can help to improve their quality. Context-sensitive are misspelled words that have been wrongly converted into another word of the language. Thus, detection of real-word errors requires discourse analysis. In this paper, we propose a language independent discourse-aware discriminative ranker and use information of whole document and a log-linear model for ranking. To evaluate our method, we augment it into two context-sensitive spellchecker systems one is based on Statistical Machine Translation (SMT) and the other is based on language model. For more evaluation, we also use two different tests. Proposed method cause outperform about 17% over the SMT base approach with respect to detection and correction recall.
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله بهزاد میرزابابایی | behzad mirzababaei
university of tehran
دانشگاه تهران
سازمان اصلی تایید شده: دانشگاه تهران (Tehran university)

هشام فیلی | heshaam faili
university of tehran
دانشگاه تهران
سازمان اصلی تایید شده: دانشگاه تهران (Tehran university)


نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-483-1&slc_lang=fa&sid=fa
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-233343.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش متن
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات