پردازش علائم و داده ها، جلد ۷، شماره ۱، صفحات ۷۷-۸۸

عنوان فارسی سیستم شناسایی و طبقه بندی اسامی در متون فارسی
چکیده فارسی مقاله یک سیستم شناسایی و طبقه‌بندی اسامی، سیستمی است که می تواند یک یا چند نوع از اسامی را در متن شناسایی و طبقه‌بندی کند این اسامی می توانند اسامی اشخاص، ارگان ها، شرکت ها، اسامی مکان ها ( کشور، شهر، خیابان و مانند آن) اسامی زمان (تاریخ و ساعت) مقادیر مالی، درصدها و مانند آن باشد. هر چند که در دهه اخیر کارهای زیادی بر روی سیستم های شناسایی و طبقه‌بندی اسامی در زبان های مختلف و دامنه های مختلف انجام شده است، امّا در زبان فارسی، با توجّه به عدم وجود یک مجموعه داده کامل به همراه برچسب های غنی، تاکنون سیستمی برای طبقه بندی اسامی ایجاد نشده است. در این پژوهش از مجموعه داده پژوهشکده پردازش هوشمند علائم استفاده شده است. روش کار بدین صورت است که در ابتدا الگوریتم پیش پردازش اسامی را با استفاده از برچسب دستوری کلمات از داده ها جدا شده و سپس مصدر ها، اسامی زمان، اسامی شمارشی، اعداد را هم از مجموعه داده حذف می کند. این کار باعث می‌‌شود تا حجم طبقات در داده‌های آموزشی متوازن تر گردد؛ در استخراج ویژگی از تابع N-gramاستفاده شده است. پس از استخراج ویژگی، سیستم را با چهار طبقه‌بندی کننده خطی، بیزین، نزدیک ترین همسایگی و شبکه عصبی آموزش می دهیم. عدم تنوع در اسامی زمان و هم چنین عدم اختلاط و یا اختلاط کم این اسامی با اسامی طبقات دیگر، این امکان را فراهم می کند تا بتوان با استفاده از یک سیستم مبتنی بر حافظه، اسامی زمان را در یک متن شناسایی کرد. با استفاده از شبکه عصبی نتایج بسیار مناسبی در جداسازی اسامی مکان و افراد از بقیه اسامی به دست آمده است (99%) و طبقه‌بندی کننده KNN و طبقه بندی کننده خطّی به طور میانگین اسامی مکان و افراد و اسامی عمومی طبقه¬بندی مقدار 91 % بر اساس معیار F-measure به دست آمده است. در طبقه بندی اسامی زمان با استفاده از یک فهرست کمکی مقدار 96 % بر اساس معیار F-measure به دست آمده است.
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی Persian name entity recognition and classification
چکیده انگلیسی مقاله Name entity recognition (NER) is a system that can identify one or more kinds of names in a text and classify them into specified categories. These categories can be name of people, organizations, companies, places (country, city, street, etc.), time related to names (date and time), financial values, percentages, etc. Although during the past decade a lot of researches has been done on NER in different languages, but lack of a system with admissible performance in Farsi texts is quietly sensible. In this paper, the Corpus of Research Center of Intelligent Signal Processing has been used to create a Farsi NER. In our proposed NER system, there exist three stages: preprocessing, feature extraction and classification. To prepare a data set in the preprocessing stage, by using the part of speech (POS) feature, names are extracted from text and then infinitives, time related names, counting names, and numbers are removed from data. This gives a more balanced data set for learning and classification. In the feature extraction stage, N-gram is computed as feature, and four classifiers (linear, KNN, Bayesian, Neural Network) is learned in the classification stage. Because of lack of variety in the time related names and a few number of mixture of time related names with names in the other categories, an auxiliary list is used to identifying them. The results of research show, neural network have better performance (99%) in distinct between the names of places and people. In general, KNN and linear classifiers obtain 91% success based on F-measure scale in classifying the names of places and people and general names. In classifying the time related names, using an auxiliary list, based on an F-measure scale, a 96% success was obtained.
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله سعید راحتی قوچانی |
دانشگاه ازاد مشهد

عبدالحمید اصفهانی |


نادر جهانگیری |



نشانی اینترنتی http://jsdp.rcisp.ac.ir/browse.php?a_code=A-10-43-1&slc_lang=fa&sid=1
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/1315/article-1315-600153.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده مقالات پردازش گفتار
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات