این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
دوشنبه 17 شهریور 1404
پژوهشنامه پردازش و مدیریت اطلاعات
، جلد ۳۵، شماره ۲، صفحات ۵۵۳-۵۷۴
عنوان فارسی
ارائه مدل دستهبندی موضوعی تولیدات علمی حوزه سلامت با استفاده از روشهای متنکاوی
چکیده فارسی مقاله
با گسترش اینترنت و رشد سریع و روزافزون مقالات الکترونیکی، دستهبندی متون به یکی از ابزارهای کلیدی و مهم برای سازماندهی و مدیریت داده تبدیلشده است. در دستهبندی متون، یک مجموعه دانش اولیه در اختیار سامانه قرار میگیرد تا با یادگیری از این مجموعه، اسناد جدید ورودی به یکی از گروههای موضوعی، ملحق گردد. در متون سلامت به علت تنوع زیاد موضوعات، آماده کردن چنین مجموعه آموزش اولیه عملی بسیار زمانبر و هزینهبر است. هدف از مقاله ارائه مدلی ترکیبی از یادگیری (با نظارت و بدون نظارت) برای دستهبندی موضوعی تولیدات علمی حوزه سلامت است که بدون نیاز به مجموعه برچسب خورده اولیه عمل دستهبندی را انجام دهد. برای استخراج مدل موضوعی متون تولیدات علمی سلامت طی سالهای 2009 تا 2019 در پایگاه پابمد، با استفاده از روش آمیخته دادهکاوی، شامل متنکاوی و یادگیری ماشینی انجام گرفت. بر اساس مدل موضوعی تخصیص پنهان دیریکله، دادها تحلیل و سپس برای دستهبندی متون، از مدل ماشین بردار پشتیبان استفاده شد. در یافتههای این پژوهش، مدل دستهبندی متون سلامت در سهگام اصلی معرفی شد. در گام اول پیشپردازشهای لازم بر روی مجموعه داده به دلیل حذف کلمات کم تکرار و غیرضروری از مجموعه داده و افزایش دقت مدل پیشنهادی انجام گرفت. در گام دوم موضوعات موجود در متون به کمک روش احتمالاتی تخصیص پنهان دیریکله استخراج و بهعنوان یک مجموعه آموزش اولیه در گام سوم به الگوریتم دستهبندی ماشین بردار پشتیبان داده و عمل یادگیری دستهبند به کمک این موضوعات انجام گرفت. درنهایت به کمک دستهبند، موضوع هر سند مشخص گردید. نتایج نشان داد که مدل پیشنهادی میتواند، یک دستهبندی بهتر با استفاده از ترکیب کردن خواص بدون نظارت خوشهبندی و دانش پیشین نمونهها بسازد. انجام دادن خوشهبندی روی نمونههای برچسب دار با یک معیار شباهت مشخص، متنهای مرتبط را باهم ادغام و یک دانش پیشین ایجاد کرده، سپس الگوریتم یادگیری، دستهبندی را با روشی نظارتی آموزش میدهد. ترکیب دستهبندی و خوشهبندی میتواند دقت دستهبندی متون سلامت را افزایش دهد.
کلیدواژههای فارسی مقاله
عنوان انگلیسی
Presenting a Thematic Model of Health Scientific Productions Using Text-Mining Methods
چکیده انگلیسی مقاله
With the proliferation of the Internet and the rapid growth of electronic articles, text categorization has become one of the key and important tools for data organization and management. In the text categorization, a set of basic knowledge is provided to the system by learning from this set, the new input documents into one of the subject groups. In health literatures due to the wide variety of topics, preparing such a set of early education is a very time consuming and costly task. The purpose of this article is to present a hybrid model of learning (supervised and unsupervised) for the subject classification of health scientific products that performs the classification operation without the need for an initial labeled set. To extract the thematic model of health science texts from 2009 to 2019 at PubMed database, data mining and text mining were performed using machine learning. Based on Latent Dirichlet Allocation model, the data were analyzed and then the Support Vector Machine was used to classify the texts. In the findings of this study, model was introduced in three main steps. In the first step, the necessary preprocessing was done on the dataset due to the elimination of unnecessary and unnecessary words from the dataset and increasing the accuracy of the proposed model. In the second step, the themes in the texts were extracted using the Latent Dirichlet Allocation method, and as a basic training set in step 3, the data were backed up by the Support Vector Machine algorithm and the classifier learning was performed with the help of these topics. Finally, with the help of the categorization, the subject of each document was identified. The results showed that the proposed model can build a better classification by combining unsupervised clustering properties and prior knowledge of the samples. Clustering on labeled samples with a specific similarity criterion merges related texts with prior knowledge, then the learning algorithm teaches classification by supervisory method. Combining categorization and clustering can increase the accuracy of categorization of health texts.
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
محبوبه شکوهیان | Mahboobeh Shokouhian
University of Isfahan
گروه علم اطلاعات و دانش شناسی؛ دانشگاه اصفهان
عاصفه عاصمی | Asefe Asemi
University of Isfahan AND PhD in Business Informatics; Corvinus University of Budapest
گروه علم اطلاعات و دانش شناسی؛ دانشگاه اصفهان و دکتری بیزینس اینفورماتیک ، دانشگاه کروینوس بوداپست
احمد شعبانی | Ahmad Shabani
University of Isfah
گروه علم اطلاعات و دانش شناسی؛ دانشگاه اصفهان
مظفر چشمه سهرابی | Mozaffar Cheshmesohrabi
University of Isfah
گروه علم اطلاعات و دانش شناسی؛ دانشگاه اصفهان
نشانی اینترنتی
http://jipm.irandoc.ac.ir/browse.php?a_code=A-10-704-3&slc_lang=fa&sid=1
فایل مقاله
اشکال در دسترسی به فایل - ./files/site1/rds_journals/1504/article-1504-2331735.pdf
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
پژوهشی
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات