دیابت یکی از بیماریهایی است که با سرعت زیادی در جهان در حال افزایش بوده و سالیانه باعث مرگ و میر افراد زیادی میشود. سازمان بهداشت جهانی، در سال ۲۰۱۸، تعداد ۴۲۲ میلیون نفر را دارای دیابت میداند. این بیماری دارای مرحلهی طولانیِ بدون نشانه است و به همین دلیل تشخیص زودهنگام دیابت میتواند کمکی بزرگ به بیماران باشد. نزدیک نیمی از افراد دیابتی، به دلیلِ همین طولانی بودنِ مرحلهی بدون نشانه، بدون تشخیص میمانند. به همین دلیل، مجموعهی دادهای آماده شده است تا با استفاده از یک سری ویژگیِ ساده و عمومی، بتوان بیماری را در مراحل اولیه تشخیص داد و اقدام به درمان بیماران کرد.
مجموعه دادهی تشخیص ریسک دیابت در مراحل اولیه، این امکان را به متخصصین علم داده میدهد که با استفاده از متغیرهای مستقل (ابعاد مسئله) الگوریتمی را توسعه دهد که بتواند بیماریِ دیابت شخص را پیشبینی کند. متغیرهای مستقلِ این مسئله با پرسش از مراجعه کنندگان در بیمارستانی در بنگلادش و تایید توسط یک پزشک انجام گرفته است. کلاس (یا همان طبقه) هم پاسخ مثبت/منفی بودن دیابت این بیماران است. این متغیرها همراه برچسب (کلاس) به شرح زیر هستند:
نام ویژگی (ستون) | نوع | توضیحات |
Age | عددی | سن مُراجع |
Gender | طبقهای (باینری) | جنسیت |
Polyuria | طبقهای (باینری) | ادرار زیاد (بلی/خیر) |
Polydipsia | طبقهای (باینری) | عطی یا تشنگی بیش از حد (بلی/خیر) |
SuddenWeightLoss | طبقهای (باینری) | کاهش وزن سریع (بلی/خیر) |
Weakness | طبقهای (باینری) | ضعف و حالت بیماری (بلی/خیر) |
Polyphagia | طبقهای (باینری) | اشتهای زیاد (بلی/خیر) |
GenitalThrush | طبقهای (باینری) | برفک یا قارچ دستگاه تناسلی (بلی/خیر) |
VisualBlurring | طبقهای (باینری) | تاری دید (بلی/خیر) |
Itching | طبقهای (باینری) | خارش (بلی/خیر) |
Irritability | طبقهای (باینری) | زود رنجی و کج خلقی (بلی/خیر) |
DelayedHealing | طبقهای (باینری) | تاخیر در بهبود (بلی/خیر) |
PartialParesis | طبقهای (باینری) | فلج موضعی (بلی/خیر) |
MuscleStiffness | طبقهای (باینری) | سفتی ماهیچه (بلی/خیر) |
Alopecia | طبقهای (باینری) | تاسی موضعی – آلوپسی (بلی/خیر) |
Obesity | طبقهای (باینری) | چاقی (بلی/خیر) |
Class | طبقهای (باینری) | کلاس یا همان طبقه (مثبت/منفی) |
قسمتی از دادهها به صورت زیر در جدولی نشان داده شده است:
همانطور که مشاهده میکنید، این مجموعه داده، قادر است با چند سوال ساده که در مراکز درمانی عادی هم قابل اجرا هستند، دادههای مورد نیاز خود را تشکیل بدهد. الگوریتمهای طبقهبندی میتوانند با یادگیری از روی این مجموعهی داده، نمونههای جدید (مُراجعان جدید) را به کلاسهای (مثبت/منفی) طبقهبندی کنند.
«مشاهدهی گزارش EDA ابتدایی بر روی دادههای تشخیص ریسک دیابت در مراحل اولیه»
«دانلود مجموعهی داده با فرمت CSV (به همراه آنالیز مقدماتی)»