این سایت در حال حاضر پشتیبانی نمی شود و امکان دارد داده های نشریات بروز نباشند
بیماری های پستان، جلد ۹، شماره ۲، صفحات ۷-۱۸

عنوان فارسی طبقه‌بندی داده‌های نامتوازن در تشخیص اولیه بیماری‌های پستان با روش‌های آدابوست، شبکه عصبی احتمالی و K تا نزدیک‌ترین همسایه
چکیده فارسی مقاله چکیده مقدمه: سرطان پستان یکی از سرطان‌های شایع در ایران بوده و هرگونه اقدام تشخیصی به هنگام در این­ مورد می‌تواند جان بسیاری از مبتلایان به این سرطان را نجات بخشد. هدف از این پژوهش طبقه­بندی داده­های نامتوازن مربوط به بانوان مراجعه‌کننده به کلینیک پژوهشکده سرطان پستان جهاددانشگاهی به منظور تعیین وضعیت ایشان و طبقه­بندی نرمال و یا غیرنرمال بودن پستان مراجعه‌کنندگان بود. مجموعه داده­های نامتوازن یکی از چالش­های پیش روی طراحی سیستم­های پزشک‌یار برای طبقه­بندی و تعیین وضعیت بیمار محسوب می‌شود که در این پژوهش از روش­های سطح داده برای حل آن استفاده شد. روش بررسی: در این مطالعه برای طبقه­بندی داده­های 918 نفر، سه الگوریتم AdaBoost.M1، k تا نزدیک­ترین همسایه و شبکه عصبی احتمالی به خدمت گرفته شد. از آنجا که داده­های این مطالعه نامتوازن بود، برای حل این مساله از روش بیش نمونه‌برداری تصادفی کلاس اقلیت، زیرنمونه برداری تصادفی کلاس اکثریت و بیش نمونه‌برداری مصنوعی کلاس اقلیت استفاده شد. به منظور پیاده‌سازی الگوریتم­ها از امکانات و ابزارهای نرم­افزار «متلب» و «آر» استفاده گردید. همچنین برای ورودی الگوریتم­های طبقه­بندی از 60 متغیر مندرج در کاربرگ­­­های شرح حال و معاینه فیزیکی مراجعان استفاده شد. معیارهای دقت و F-measure به منظور ارزیابی در مرحله آزمون الگوریتم­ها مورد استفاده قرار گرفت. یافته‌ها: بر اساس معیارهای دقت و F-measure، بهترین عملکرد الگوریتم­های سه­گانه این مطالعه در مواجهه با مجموعه داده تولیدشده با روش بیش نمونه‌برداری مصنوعی کلاس اقلیت بود. در این راستا عملکرد الگوریتم­های AdaBoost.M1، k تا نزدیک­ترین همسایه و شبکه عصبی احتمالی در مواجهه با مجموعه داده مذکور و بر اساس معیارهای دقت و F-measure به ترتیب عبارتند از: 5/93 و 6/93، 5/79 و 7/87 و 86 و 9/91 بدست آمد. نتیجه‌گیری: روش­های مختلفی برای حل مساله عدم توازن مجموعه داده­ها به منظور طبقه­بندی وجود دارد؛ نمونه­گیری مجدد که از روش­های سطح داده محسوب می­شود یکی از متداول­ترین آنهاست. از سه روش نمونه­گیری مجددی که در این مطالعه استفاده شد، بهترین عملکرد طبقه‌بندها در مواجهه با مجموعه داده ایجاد شده در نتیجه نمونه­گیری مجدد به روش بیش نمونه‌برداری مصنوعی کلاس اقلیت بود. از بین الگوریتم­های به خدمت گرفته شده و بر اساس معیارهای دقت و F-measure بهترین عملکرد در تمامی مجموعه داده­های این مطالعه متعلق به الگوریتم AdaBoost.M1 بود.
کلیدواژه‌های فارسی مقاله

عنوان انگلیسی Imbalanced Data Classification for Primary Diagnosis of Breast Diseases by AdaBoost.M1, K-Nearest Neighbor and Probabilistic Neural Network
چکیده انگلیسی مقاله Abstract Introduction: Breast Cancer is one of the common cancers in Iran. Each Prediagnosis of that can survive women from different risks. The aim of this research is classifying imbalanced dataset for detecting normal vs. abnormal women who came to ACECR Breast Cancer Clinic. Imbalanced datasets are one of the main challenges for designing medical decision support system. So, in this article, imbalanced data classification was addressed via data level solutions. Methods: In this research for classifying of 918 women' breast situation, the "AdaBoost.M1", "K-nearest neighbor", and "probabilistic neural network" as triple algorithms were used. Because of facing with imbalanced dataset, for solving that, "random over sampling", "Random under sampling", and "Synthetic Minority Over-sampling Technique" were used as 3 re-sampling methods. So, Mat lab and R as software tools were used for implementing of methods and algorithms. Also, the values of 60 features that extracted from women's historical and physical exam forms were used as input data in triple algorithms. Finally, "precision" and "F-Measure" as two criteria were used for evaluating in test state of triple algorithms. Results: Based on "precision" and "F-Measure" as two useful criteria, the best performance of this research's classification algorithms were through dataset that generated by Synthetic Minority Over-sampling Technique. So, the performance of "AdaBoost.M1", "K-nearest neighbor", and "probabilistic neural network" for classification of that dataset based on "precision" and "F-Measure" were "93.5,93.6", "79.5,87.7",and "86,91.9"respectively. Conclusion: There are different methods for solving imbalanced datasets problem through classification of that. Re-Sampling is one of the popular data level methods. Through 3 re-sampling methods, the best classification algorithm performance belongs datasets that generated by "Synthetic Minority Over-sampling Technique", So among triple algorithms and four datasets that were used in this research and the based on "precision" and "F-Measure", AdaBoost.M1 had the best performance in classification.
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله محمد درزی | mohammad darzi


آسیه الفت بخش | asiye olfat bakhsh

سازمان اصلی تایید شده: جهاد دانشگاهی
سازمان های دیگر: مرکز تحقیقات سرطان پستان

سعید گرگین | saeid gorgin

سازمان اصلی تایید شده: جهاد دانشگاهی

فرید اویسی | farid oveisi

سازمان اصلی تایید شده: سازمان پژوهش های علمی و صنعتی ایران

عصمت هاشمی | esmat hashemi

سازمان اصلی تایید شده: جهاد دانشگاهی
سازمان های دیگر: مرکز تحقیقات سرطان پستان

نسرین علوی | nasrin alavi

سازمان اصلی تایید شده: جهاد دانشگاهی
سازمان های دیگر: مرکز تحقیقات سرطان پستان


نشانی اینترنتی http://www.ijbd.ir/browse.php?a_code=A-10-222-97&slc_lang=fa&sid=fa
فایل مقاله فایلی برای مقاله ذخیره نشده است
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده
نوع مقاله منتشر شده 1
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات