این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
صفحه اصلی
درباره پایگاه
فهرست سامانه ها
الزامات سامانه ها
فهرست سازمانی
تماس با ما
JCR 2016
جستجوی مقالات
شنبه 29 شهریور 1404
بیماری های پستان
، جلد ۹، شماره ۲، صفحات ۷-۱۸
عنوان فارسی
طبقهبندی دادههای نامتوازن در تشخیص اولیه بیماریهای پستان با روشهای آدابوست، شبکه عصبی احتمالی و K تا نزدیکترین همسایه
چکیده فارسی مقاله
چکیده مقدمه: سرطان پستان یکی از سرطانهای شایع در ایران بوده و هرگونه اقدام تشخیصی به هنگام در این مورد میتواند جان بسیاری از مبتلایان به این سرطان را نجات بخشد. هدف از این پژوهش طبقهبندی دادههای نامتوازن مربوط به بانوان مراجعهکننده به کلینیک پژوهشکده سرطان پستان جهاددانشگاهی به منظور تعیین وضعیت ایشان و طبقهبندی نرمال و یا غیرنرمال بودن پستان مراجعهکنندگان بود. مجموعه دادههای نامتوازن یکی از چالشهای پیش روی طراحی سیستمهای پزشکیار برای طبقهبندی و تعیین وضعیت بیمار محسوب میشود که در این پژوهش از روشهای سطح داده برای حل آن استفاده شد. روش بررسی: در این مطالعه برای طبقهبندی دادههای 918 نفر، سه الگوریتم AdaBoost.M1، k تا نزدیکترین همسایه و شبکه عصبی احتمالی به خدمت گرفته شد. از آنجا که دادههای این مطالعه نامتوازن بود، برای حل این مساله از روش بیش نمونهبرداری تصادفی کلاس اقلیت، زیرنمونه برداری تصادفی کلاس اکثریت و بیش نمونهبرداری مصنوعی کلاس اقلیت استفاده شد. به منظور پیادهسازی الگوریتمها از امکانات و ابزارهای نرمافزار «متلب» و «آر» استفاده گردید. همچنین برای ورودی الگوریتمهای طبقهبندی از 60 متغیر مندرج در کاربرگهای شرح حال و معاینه فیزیکی مراجعان استفاده شد. معیارهای دقت و F-measure به منظور ارزیابی در مرحله آزمون الگوریتمها مورد استفاده قرار گرفت. یافتهها: بر اساس معیارهای دقت و F-measure، بهترین عملکرد الگوریتمهای سهگانه این مطالعه در مواجهه با مجموعه داده تولیدشده با روش بیش نمونهبرداری مصنوعی کلاس اقلیت بود. در این راستا عملکرد الگوریتمهای AdaBoost.M1، k تا نزدیکترین همسایه و شبکه عصبی احتمالی در مواجهه با مجموعه داده مذکور و بر اساس معیارهای دقت و F-measure به ترتیب عبارتند از: 5/93 و 6/93، 5/79 و 7/87 و 86 و 9/91 بدست آمد. نتیجهگیری: روشهای مختلفی برای حل مساله عدم توازن مجموعه دادهها به منظور طبقهبندی وجود دارد؛ نمونهگیری مجدد که از روشهای سطح داده محسوب میشود یکی از متداولترین آنهاست. از سه روش نمونهگیری مجددی که در این مطالعه استفاده شد، بهترین عملکرد طبقهبندها در مواجهه با مجموعه داده ایجاد شده در نتیجه نمونهگیری مجدد به روش بیش نمونهبرداری مصنوعی کلاس اقلیت بود. از بین الگوریتمهای به خدمت گرفته شده و بر اساس معیارهای دقت و F-measure بهترین عملکرد در تمامی مجموعه دادههای این مطالعه متعلق به الگوریتم AdaBoost.M1 بود.
کلیدواژههای فارسی مقاله
عنوان انگلیسی
Imbalanced Data Classification for Primary Diagnosis of Breast Diseases by AdaBoost.M1, K-Nearest Neighbor and Probabilistic Neural Network
چکیده انگلیسی مقاله
Abstract Introduction: Breast Cancer is one of the common cancers in Iran. Each Prediagnosis of that can survive women from different risks. The aim of this research is classifying imbalanced dataset for detecting normal vs. abnormal women who came to ACECR Breast Cancer Clinic. Imbalanced datasets are one of the main challenges for designing medical decision support system. So, in this article, imbalanced data classification was addressed via data level solutions. Methods: In this research for classifying of 918 women' breast situation, the "AdaBoost.M1", "K-nearest neighbor", and "probabilistic neural network" as triple algorithms were used. Because of facing with imbalanced dataset, for solving that, "random over sampling", "Random under sampling", and "Synthetic Minority Over-sampling Technique" were used as 3 re-sampling methods. So, Mat lab and R as software tools were used for implementing of methods and algorithms. Also, the values of 60 features that extracted from women's historical and physical exam forms were used as input data in triple algorithms. Finally, "precision" and "F-Measure" as two criteria were used for evaluating in test state of triple algorithms. Results: Based on "precision" and "F-Measure" as two useful criteria, the best performance of this research's classification algorithms were through dataset that generated by Synthetic Minority Over-sampling Technique. So, the performance of "AdaBoost.M1", "K-nearest neighbor", and "probabilistic neural network" for classification of that dataset based on "precision" and "F-Measure" were "93.5,93.6", "79.5,87.7",and "86,91.9"respectively. Conclusion: There are different methods for solving imbalanced datasets problem through classification of that. Re-Sampling is one of the popular data level methods. Through 3 re-sampling methods, the best classification algorithm performance belongs datasets that generated by "Synthetic Minority Over-sampling Technique", So among triple algorithms and four datasets that were used in this research and the based on "precision" and "F-Measure", AdaBoost.M1 had the best performance in classification.
کلیدواژههای انگلیسی مقاله
نویسندگان مقاله
محمد درزی | mohammad darzi
آسیه الفت بخش | asiye olfat bakhsh
سازمان اصلی تایید شده
: جهاد دانشگاهی
سازمان های دیگر
: مرکز تحقیقات سرطان پستان
سعید گرگین | saeid gorgin
سازمان اصلی تایید شده
: جهاد دانشگاهی
فرید اویسی | farid oveisi
سازمان اصلی تایید شده
: سازمان پژوهش های علمی و صنعتی ایران
عصمت هاشمی | esmat hashemi
سازمان اصلی تایید شده
: جهاد دانشگاهی
سازمان های دیگر
: مرکز تحقیقات سرطان پستان
نسرین علوی | nasrin alavi
سازمان اصلی تایید شده
: جهاد دانشگاهی
سازمان های دیگر
: مرکز تحقیقات سرطان پستان
نشانی اینترنتی
http://www.ijbd.ir/browse.php?a_code=A-10-222-97&slc_lang=fa&sid=fa
فایل مقاله
فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده
fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده
1
برگشت به:
صفحه اول پایگاه
|
نسخه مرتبط
|
نشریه مرتبط
|
فهرست نشریات