آبالونها (Abalones) به صورت عمومی به صدفها یا حلزونهای دریایی گفته میشود. از گوشت آنها به عنوان خوراک و از پوستهی آنها به عنوان وسائل زینتی استفاده میشود. برای به دست آوردن سن این موجودات (که از اهمیتی فراوانی در بخشهای مختلف تجارت برخوردار است)، بایستی ابتدا پوستهی صدف را برش دهند، با وسائل خاصی رنگآمیزی کنند و سپس تعداد حلقههای موجود در آن را توسط میکروسکوپ به صورت دقیق بشمارند. این فرآیند بسیار طولانی و وقتگیر است. برای همین دانشمندان به فکر استفاده از علم داده برای تشخیص سن آبالونها افتادند.
مجموعه دادهی Abalone سعی دارد فرآیندِ تشخیصِ سنِ این موجودات را به وسیلهی طبقهبندی (Classification) بسیار سادهتر کند. به گونهای که با استفاده از چندین ویژگی (بُعد) که به سادگی به دست میآیند، بتوان سن این صدفهای دریایی را تخمین زد. با این کار دیگر نیازی به طی کردن فرآیند طولانیِ گفته شده در بالا نیست.
نمونهای از این مجموعهی داده به صورت زیر است:
ستونها، همان ویژگیها (ابعاد) و برچسب (کلاس) هستند و توضیحات آنها به صورت زیر است:
نام ویژگی (ستون) | نوع | توضیحات |
Sex | طبقهای | جنسیت صدف |
Length | عددی | طولانیترین اندازهی پوسته به میلیمتر |
Diameter | عددی | قطر که عمود بر طول (Length) است |
Height | عددی | قد (همراه با گوشت داخل پوسته) |
WholeWeight | عددی | وزن کل صدف |
ShuckedWeight | عددی | وزن گوشت صدف |
VisceraWeight | عددی | وزن رودهی صدف (بعد از خونریزی) |
ShellWeight | عددی | وزن پوسته بعد از خشک شدن |
Rings | عددی | تعداد حلقهها (که از روی آن سن را تشخیص میدهند) |
از روی ویژگیهای مختلف و با استفاده از یک الگوریتم طبقهبندی خوب، میتوانید ستون Rings را تخمین بزنید که با استفاده از آن سن صدف نیز تشخیص داده میشود. البته این مسئله را میتوان جزو دستهی مسائل رگرسیون نیز در نظر گرفت. چون ستون کلاس (در اینجا Rings) میتواند به صورت پیوسته در نظر گرفته شود که احتمالاً به مدلِ دقیقتری نیز خواهید رسید.
«مشاهدهی گزارش EDA ابتدایی بر روی دادههای Abalone»
«دانلود مجموعهی داده با فرمت CSV (به همراه آنالیز مقدماتی)»