منظور از داده‌های مستطیلی (Rectangular Data) چیست؟ | چیستیو

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

مدرس: مسعود کاویانی

آن‌هایی که با پایگاه داده‌های رابطه‌ای مانند SQL کار کرده‌اند بسیار خوب مفهوم جدول را می‌دانند و می‌دانند که یک جدول در واقع یک مستطیل از داده‌ها است که سطر و ستون دارد. حتی اگر با SQL هم کار نکرده باشید با Excel که آشنا هستید. جدول گسترده‌ای از صفحات که دارای سطر و ستون است. در داده‌کاوی معمولا سعی می‌شود که داده‌ها به صورت مستطیلی یا همان Rectangular شکل بگیرد تا بتوانند عملیات بندی مانند طبقه‌بندی یا خوشه‌بندی را بر روی آن‌ها انجام دهند. در مثال درس‌های طبقه‌بندی و خوشه‌بندی دو نوع داده‌ی مستطیلی دیدیم که هر کدام سطر و ستون خاص خود را داشتند.

سطر‌ها در داده‌های مستطیل همان نمونه‌ها (Samples) ما هستند. برای مثال یک مجموعه داده دانشجویان را در نظر بگیرید که کدام ویژگی‌های مشخصی دارند. مثلا سن، معدل، قد، جنسیت و… . به شکل زیر نگاه کنید:

در این شکل هر سطر یک نمونه یا Instance یا رکورد (Record) نامیده می‌شود که بیان‌گر یک دانشجو است. هر دانشجو می‌تواند چندین ویژگی (ستون‌ها) داشته باشد. در درس ویژگی یا بعد چیست کامل به این موضوع پرداخته‌ایم. به این ترتیب داده‌ها را می‌توان به شکل مستطیلی درآورد. حتی اگر داده‌ای شکل مستطیلی نداشت می‌توان آن را به حالت مستطیلی درآورد. برای این کار روش‌های مختلفی است که یکی از آن‌ها را برای سادگی اینجا می‌آوریم. One Hot Encoding در واقع روشی برای تبدیل داده‌های غیرعددی به عددی است که می‌توان از آن برای ساخت داده‌هایی با شکل مستطیلی استفاده کرد. برای مثال در همان شکل بالا جنسیت را در نظر بگیرید. اگر بخواهیم این جنسیت را هم به یک ویژگی عددی تبدیل کنیم تا مانند ستون‌های دیگر بتواند مقدار عددی بگیرد به صورت زیر تبدیل می‌شود:

چون دو جنس (مرد و زن) داریم باید دو ستون اضافه کنیم و آن‌جایی که دانشجو مرد است، ستون مرد برابر ۱قرار می‌گیرد و ستون زن برابر ۰ و برای بالعکس برای زن‌ها. به همین راحتی می‌توان تبدیل One Hot Encoding را انجام داد و تمامی ویژگی‌ها را به ویژگی‌های عددی تبدیل کرد.

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

3 دیدگاه دربارهٔ «منظور از داده‌های مستطیلی (Rectangular Data) چیست؟»

ممنون از دوره خوبتون؛
در مورد One Hot Encoding که برای ویژگی جنسیت انجام دادید یه سوال داشتم. آیا بهتر نبود به جای اینکه دو ستون تشکیل بدیم یکی برای مرد و دیگری برای زن (کاری که شما کردید)، همون یک ستون جنسیت رو داشته باشیم ولی به جای نوشتن جنسیت، از صفر (برای مرد) و یک (برای زن) در همون ستون جنسیت استفاده کنیم؟

پاسخ

حسین عزیززاده گفت:

نوامبر 26, 2019 در 1:10 ب.ظ

خب ابتدا باید مشخص کرد هر کدام از صفر و یک ها برای کدام ویژگی هست که خود نیازمند جدولی دیگر می شود

پاسخ

ممنون میشم آموزش هم در زمینه index برای SQL تهیه کنید

پاسخ

3 دیدگاه دربارهٔ «منظور از داده‌های مستطیلی (Rectangular Data) چیست؟»

دیدگاهتان را بنویسید لغو پاسخ