logo
logo
ArEn
عنوان :

مدل سازی و طراحی الگوریتم تشخیص و غربالگری بیماری مبتنی بر دسته بندی ماشین بردار پشتیبان خطی با قابلیت انتخاب ویژگی ترکیبی

ناشر :

مجله دانشکده پزشکی - Tehran University Medical Journal

سال :

1401/2022

چکیده

زمینه و هدف: در مطالعه حاضر، یک رویکرد انتخاب ویژگی ترکیبی از روش های فیلتر و بسته بندی، با هدف تشخیص وضعیت بیماری و بقای بیمار، برای تعدادی از مجموعه دادگان علوم زیستی با تعداد متفاوت نمونه، ویژگی و کلاس پیاده سازی می شود ؛ بنابراین، این راهبرد از مزایای هر دو روش، شامل سرعت عملکرد، تعمیم پذیری و دقت بالا بهره می برد. روش بررسی: الگوریتم های انتخاب ویژگی در چارچوب بازشناسی آماری الگو در نرم افزار Matlab R2021a طی فروردین و اردیبهشت 1401 مدل سازی شده اند. ابتدا ویژگی ها بر پایه اطلاعات متقابل بهنجار شده رتبه بندی می شوند و یک زیرمجموعه ویژگی بهینه با بالاترین دقت دسته بند انتخاب می شود. پس از خوشه بندی مجموعه داده به روش Mini Batch K-means و استخراج ویژگی های رتبه بندی شده، الگوریتم های شمول و خروج ویژگی به مجموعه دادگان اعمال می شوند. یافته ها: رویکردهای انتخاب ویژگی پیشنهادی برای مجموعه دادگان زیست شناسی مولکولی، ویروس هپاتیت C و باکتری E. coli، امتیاز صحت و فراخوانی بالای 98% را نتیجه می دهند، که به معنای حضور تعداد بسیار کم موارد مثبت کاذب و منفی کاذب در دسته بندی با ماشین بردار پشتیبان خطی است. برای مجموعه داده ویروس هپاتیت C، با انتخاب 9 ویژگی مرتبط از 13 ویژگی موجود با روش خروج ویژگی، دقت دسته بندی 92/98% و امتیاز F1 02/%99 به دست می آید. رویکرد شمول ویژگی نیز با یک اختلاف جزیی، دقت 78/98% را نتیجه می دهد. نتیجه گیری: نتایج حاصل نشان دهنده توانمندی رویکردهای انتخاب ویژگی به کار رفته برای مجموعه دادگان علوم زیستی با ابعاد بالای ویژگی همچون مجموعه داده بیان پروتیین می باشد. قابلیت تعمیم پذیری به سایر دسته بندها و تعیین خودکار تعداد ویژگی های بهینه در طول فرآیند انتخاب ویژگی، این رویکردها را در بسیاری از کاربردهای داده کاوی برای علوم زیستی انعطاف پذیر می سازد.