مجموعه داده‌ی تشخیص ریسک دیابت در مراحل اولیه (Early Stage Diabetes)

مدرس: مسعود کاویانی

دیابت یکی از بیماری‌هایی است که با سرعت زیادی در جهان در حال افزایش بوده و سالیانه باعث مرگ و میر افراد زیادی می‌شود. سازمان بهداشت جهانی، در سال ۲۰۱۸، تعداد ۴۲۲ میلیون نفر را دارای دیابت می‌داند. این بیماری دارای مرحله‌ی طولانیِ بدون نشانه است و به همین دلیل تشخیص زودهنگام دیابت می‌تواند کمکی بزرگ به بیماران باشد. نزدیک نیمی از افراد دیابتی، به دلیلِ همین طولانی بودنِ مرحله‌ی بدون نشانه، بدون تشخیص می‌مانند. به همین دلیل، مجموعه‌ی داده‌ای آماده شده است تا با استفاده از یک سری ویژگیِ ساده و عمومی، بتوان بیماری را در مراحل اولیه تشخیص داد و اقدام به درمان بیماران کرد.

مجموعه داده‌ی تشخیص ریسک دیابت در مراحل اولیه، این امکان را به متخصصین علم داده می‌دهد که با استفاده از متغیرهای مستقل (ابعاد مسئله) الگوریتمی را توسعه دهد که بتواند بیماریِ دیابت شخص را پیش‌بینی کند. متغیرهای مستقلِ این مسئله با پرسش از مراجعه کنندگان در بیمارستانی در بنگلادش و تایید توسط یک پزشک انجام گرفته است. کلاس (یا همان طبقه) هم پاسخ مثبت/منفی بودن دیابت این بیماران است. این متغیرها همراه برچسب (کلاس) به شرح زیر هستند:

نام ویژگی (ستون)نوعتوضیحات
Ageعددیسن مُراجع
Genderطبقه‌ای (باینری)جنسیت
Polyuriaطبقه‌ای (باینری)ادرار زیاد (بلی/خیر)
Polydipsiaطبقه‌ای (باینری)عطی یا تشنگی بیش از حد (بلی/خیر)
SuddenWeightLossطبقه‌ای (باینری)کاهش وزن سریع (بلی/خیر)
Weaknessطبقه‌ای (باینری)ضعف و حالت بیماری (بلی/خیر)
Polyphagiaطبقه‌ای (باینری)اشتهای زیاد (بلی/خیر)
GenitalThrushطبقه‌ای (باینری)برفک یا قارچ دستگاه تناسلی (بلی/خیر)
VisualBlurringطبقه‌ای (باینری)تاری دید (بلی/خیر)
Itchingطبقه‌ای (باینری)خارش (بلی/خیر)
Irritabilityطبقه‌ای (باینری)زود رنجی و کج خلقی (بلی/خیر)
DelayedHealingطبقه‌ای (باینری)تاخیر در بهبود (بلی/خیر)
PartialParesisطبقه‌ای (باینری)فلج موضعی (بلی/خیر)
MuscleStiffnessطبقه‌ای (باینری)سفتی ماهیچه (بلی/خیر)
Alopeciaطبقه‌ای (باینری)تاسی موضعی – آلوپسی (بلی/خیر)
Obesityطبقه‌ای (باینری)چاقی (بلی/خیر)
Classطبقه‌ای (باینری)کلاس یا همان طبقه (مثبت/منفی)

قسمتی از داده‌ها به صورت زیر در جدولی نشان داده شده است:

(برخی از سطرها و برخی از ستون‌ها نمایش داده شده‌اند)

همان‌طور که مشاهده می‌کنید، این مجموعه داده، قادر است با چند سوال ساده که در مراکز درمانی عادی هم قابل اجرا هستند، داده‌های مورد نیاز خود را تشکیل بدهد. الگوریتم‌های طبقه‌بندی می‌توانند با یادگیری از روی این مجموعه‌ی داده، نمونه‌های جدید (مُراجعان جدید) را به کلاس‌های (مثبت/منفی) طبقه‌بندی کنند.

«مشاهده‌ی گزارش EDA ابتدایی بر روی داده‌های تشخیص ریسک دیابت در مراحل اولیه»

«دانلود مجموعه‌ی داده با فرمت CSV (به همراه آنالیز مقدماتی)»

منابع این بحث و اطلاعات بیشتر

» لینک مقاله‌ی اصلی

» مجموعه‌ی داده از دانشگاه UCI

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *