مجله دانشگاه علوم پزشکی شهید صدوقی یزد، جلد ۲۵، شماره ۴، صفحات ۳۰۰-۳۱۰

عنوان فارسی مطالعات درخت تصمیم در برآورد ریسک ابتلا به سرطان سینه با استفاده از چند شکلی‌های تک نوکلوئیدی
چکیده فارسی مقاله چکیده مقدمه: درختان تصمیم از ابزارهای داده‎کاوی برای جمع‎آوری ، پیش‌بینی دقیق و غربال کردن اطلاعات از حجم عظیم داده‎هاست که کاربرد گسترده‎ای در زمینه زیست‎شناسی محاسباتی و بیوانفورماتیک پیدا کرده‎اند. در بیوانفورماتیک می‎توان پیش‎بینی‎ هایی بر روی بیماریها ازجمله سرطان سینه را داشت. استفاده از داده های ‍ژنومی از جمله چند شکلی‎های تک نوکلئوتیدی در پیش‎بینی ریسک ابتلا به بیماریهای چند عامله از اهمیت خاصی برخوردار است. تعداد هفت SNP مهم  از بین صدها هزار مارکر ژنتیکی به عنوان عوامل مرتبط با سرطان سینه شناسایی شدند. هدف ازاین تحقیق بررسی داده‎های آموزش روی خطای درخت تصمیم پیش‎بینی کننده ریسک ابتلا به سرطان سینه با استفاده از ژنوتیپ چند شکلی‎های تک نوکلئوتیدی است. روش بررسی:احتمال ابتلا به سرطان‎سینه با استفاده از SNP های مرتبط با فرمول xj = fo *   محاسبه گردید. برای پیش‎بینی احتمال بیماری با استفاده از چندشکلی‎های تک نوکلئوتیدی در انسان می‎توان از درختان تصمیم استفاده کرد. هفت SNP با نسبت‎های مختلف بخت مرتبط با سرطان سینه درنظرگرفته و کد‎نویسی و طراحی درخت تصمیم مدل C4.5، با زبان برنامه نویسی Csharp2013 انجام‎شد. در درخت تصمیم ایجادشده با کدنویسی، چهار SNP مهم مرتبط لحاظ‎شد. خطای درخت تصمیم دردو حالت کدنویسی و استفاده از نرم‎افزارWEKAارزیابی و درصد دقت درخت تصمیم در پیش ‎بینی بروز سرطان سینه محاسبه گردید.  تعداد نمونه آموزش داده شده با نمونه‎گیری سیستماتیک استخراج گردید. باکدنویسی، دو سناریو و همچنین با نرم افزار WEKA ،  سه سناریو با تعداد مجموعه داده‎های مختلف، تعداد مجموعه آموزش و آزمایش مختلف،  مورد ارزیابی قرار گرفت. نتایج: با روش کدنویسی در دو سناریو با افزایش درصد آموزش از 66/66 به 42/86 ، خطا از 56/55 به 09/9 کاهش یافت. همچنین با اجرای نرم افزار WEKA در سه سناریو با تعداد مجموعه داده‎های مختلف، تعداد مجموعه آموزش مختلف، و آزمایش مختلف با افزایش تعداد رکوردها از  81 به 2187، میزان خطا از 15/48 به 46/13 کاهش یافت. همچنین در اکثر سناریوها درصد شیوع بیماری در میزان خطا در کد و WEKA تاثیری نداشت. نتیجه‎گیری: نتایج نشان می‎دهد با افزایش میزان آموزش، خطای درخت تصمیم کاهش و درنتیجه دقت پیش‎بینی ریسک ابتلا به سرطان سینه با استفاده از درخت تصمیم افزایش می‎یابد. در داده‎های بیولوژی به‎دلیل حساسیت مدلهای پیش‎بینی‎کننده، خطای درخت تصمیم حتی با  66/66% آموزش بالا است. از طرفی با افزایش تعداد SNP درخت تصمیم از 4 به 7 مارکر، خطای درخت تصمیم با 1/70 % آموزش،  به‎طور چشمگیری کاهش داشت. در مجموع می‎توان گفت که با افزایش رکوردهای مجموعه آموزش و همچنین افزایش تعداد ویژگی   SNPدر درخت تصمیم، دقت پیش بینی افزایش و خطا کاهش می‎یابد. همچنین درصد شیوع بیماری در میزان خطا به دلیل انتخاب مجموعه های آموزش و آزمایش به روش سیستماتیک،  در کد طراحی شده در این تحقیق  و نرم افزار موجود WEKA   تاثیری ندارد.
کلیدواژه‌های فارسی مقاله درخت تصمیم، سرطان سینه، چندشکلی تک نوکلئوتیدی

عنوان انگلیسی The Studies of Decision Tree in Estimation of Breast Cancer Risk by Using Polymorphism Nucleotide
چکیده انگلیسی مقاله Abstract Introduction:   Decision tree is the data mining tools to collect, accurate prediction and sift information from massive amounts of data that are used widely in the field of computational biology and bioinformatics. In bioinformatics can be predict on diseases, including breast cancer. The use of genomic data including single nucleotide polymorphisms is a very important factor in predicting the risk of diseases. The number of seven important SNP among hundreds of thousands genetic markers were identified as factors associated with breast cancer. The objective of this study is to evaluate the training data on decision tree predictor error of the risk of breast cancer by using single nucleotide polymorphism genotype. Methods: The risk of breast cancer were calculated associated with the use of SNP formula:xj = fo * In human,  The decision tree can be used To predict the probability of disease using single nucleotide polymorphisms .Seven SNP with different odds ratio associated with breast cancer considered and coding and design of decision tree model, C4.5, by  Csharp2013 programming language were done. In the decision tree created with the coding, the four important associated SNP was considered. The decision tree error in two case of coding and using WEKA were assessment and percentage of decision tree accuracy in prediction of breast cancer were calculated. The number of trained samples was obtained with systematic sampling. With coding, two scenarios as well as software WEKA, three scenarios with different sets of data and the number of different learning and testing, were evaluated. Results: In both scenarios of coding, by increasing the training percentage from 66/66 to 86/42, the error reduced from 55/56 to 9/09. Also by running of WEKA on three scenarios with different sets of data, the number of different education, and different tests by increasing records number from 81 to 2187, the error rate decreased from 48/15 to 13/46. Also in the majority of scenarios, prevalence of the disease, had no effect on errors in the WEKA and code. Conclusion: The results suggest that with increased training, and thus the accuracy of prediction error decision tree to reduce the risk of breast cancer increases with the use of decision trees. In Biological data, decision trees error is high even with a 66/66% training. On the other hand by increasing the number of SNP from 4 to 7 decision tree, decision tree error dramatically decreased at 70/1% training. In general we can say that with increased training and increasing the number of SNP in the decision tree, the prediction accuracy increased and errors reduced. In the CODING and WEKA, percentage of disease prevalence had no significant effect on errors," Because of selecting set of training and testing by systemic method ".
کلیدواژه‌های انگلیسی مقاله

نویسندگان مقاله فریدا سیدمیر | frida seyedmir
fseyedmir@yahoo.com
یزد صفاییه شهرک گلستان بلوار طراوت کوچه مهر 4 پلاک 1717

کمال میرزایی | kamal mirzaie
meybod azad university
گروه مهندسی کامپیوتر، واحد میبد، دانشگاه آزاد اسلامی، میبد
سازمان اصلی تایید شده: دانشگاه آزاد اسلامی میبد (Islamic azad university of maybod)

مرتضی بیطرف ثانی | morteza bitaraf sani
university of applied sciences amp; technology agriculture research and education center , yazd, iran
دانشگاه جامع علمی کاربردی یزد مرکز تحقیقات و آموزش کشاورزی و منابع طبیعی
سازمان اصلی تایید شده: دانشگاه جامع علمی کاربردی یزد


نشانی اینترنتی http://jssu.ssu.ac.ir/browse.php?a_code=A-10-2576-2&slc_lang=fa&sid=fa
فایل مقاله اشکال در دسترسی به فایل - ./files/site1/rds_journals/136/article-136-448538.pdf
کد مقاله (doi)
زبان مقاله منتشر شده fa
موضوعات مقاله منتشر شده خون و سرطان
نوع مقاله منتشر شده پژوهشی
برگشت به: صفحه اول پایگاه   |   نسخه مرتبط   |   نشریه مرتبط   |   فهرست نشریات