منظور از داده‌های مستطیلی (Rectangular Data) چیست؟

مدرس: مسعود کاویانی

آن‌هایی که با پایگاه داده‌های رابطه‌ای مانند SQL کار کرده‌اند بسیار خوب مفهوم جدول را می‌دانند و می‌دانند که یک جدول در واقع یک مستطیل از داده‌ها است که سطر و ستون دارد. حتی اگر با SQL هم کار نکرده باشید با Excel که آشنا هستید. جدول گسترده‌ای از صفحات که دارای سطر و ستون است. در داده‌کاوی معمولا سعی می‌شود که داده‌ها به صورت مستطیلی یا همان Rectangular شکل بگیرد تا بتوانند عملیات بندی مانند طبقه‌بندی یا خوشه‌بندی را بر روی آن‌ها انجام دهند. در مثال درس‌های طبقه‌بندی و خوشه‌بندی دو نوع داده‌ی مستطیلی دیدیم که هر کدام سطر و ستون خاص خود را داشتند.

سطر‌ها در داده‌های مستطیل همان نمونه‌ها (Samples) ما هستند. برای مثال یک مجموعه داده دانشجویان را در نظر بگیرید که کدام ویژگی‌های مشخصی دارند. مثلا سن، معدل، قد، جنسیت و… . به شکل زیر نگاه کنید:

در این شکل هر سطر یک نمونه یا Instance یا رکورد (Record) نامیده می‌شود که بیان‌گر یک دانشجو است. هر دانشجو می‌تواند چندین ویژگی (ستون‌ها) داشته باشد. در درس ویژگی یا بعد چیست کامل به این موضوع پرداخته‌ایم. به این ترتیب داده‌ها را می‌توان به شکل مستطیلی درآورد. حتی اگر داده‌ای شکل مستطیلی نداشت می‌توان آن را به حالت مستطیلی درآورد. برای این کار روش‌های مختلفی است که یکی از آن‌ها را برای سادگی اینجا می‌آوریم. One Hot Encoding در واقع روشی برای تبدیل داده‌های غیرعددی به عددی است که می‌توان از آن برای ساخت داده‌هایی با شکل مستطیلی استفاده کرد. برای مثال در همان شکل بالا جنسیت را در نظر بگیرید. اگر بخواهیم این جنسیت را هم به یک ویژگی عددی تبدیل کنیم تا مانند ستون‌های دیگر بتواند مقدار عددی بگیرد به صورت زیر تبدیل می‌شود:

چون دو جنس (مرد و زن) داریم باید دو ستون اضافه کنیم و آن‌جایی که دانشجو مرد است، ستون مرد برابر ۱قرار می‌گیرد و ستون زن برابر ۰ و برای بالعکس برای زن‌ها. به همین راحتی می‌توان تبدیل One Hot Encoding را انجام داد و تمامی ویژگی‌ها را به ویژگی‌های عددی تبدیل کرد.

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:
منابع این بحث و اطلاعات بیشتر

» فصل اول کتاب Practical Statistics For Data Scientists 

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

3 دیدگاه دربارهٔ «منظور از داده‌های مستطیلی (Rectangular Data) چیست؟»

  1. ممنون از دوره خوبتون؛
    در مورد One Hot Encoding که برای ویژگی جنسیت انجام دادید یه سوال داشتم. آیا بهتر نبود به جای اینکه دو ستون تشکیل بدیم یکی برای مرد و دیگری برای زن (کاری که شما کردید)، همون یک ستون جنسیت رو داشته باشیم ولی به جای نوشتن جنسیت، از صفر (برای مرد) و یک (برای زن) در همون ستون جنسیت استفاده کنیم؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *