کاربرد الگوریتم DBSCAN در تشخیص داده‌های پَرت (Outliers) | چیستیو

این درس از مجموعه داده‌های پَرت (Outliers) و الگوریتم‌های مختلف شناسایی داده‌های پرت است

پیش نیاز این درس:

مدرس: مسعود کاویانی

اگر دوره‌ی خوشه‌بندی و الگوریتم‌های متخلفِ آن را دنبال کرده باشید، احتمالاً الگوریتم DBSCAN برایتان آشنا باشد. این الگوریتم قادر بود که غلظت و تجمّع را در نقاطِ مختلف شناسایی کرده و به این ترتیب گروه‌های متفاوت را در بینِ داده‌ها کشف کند. اگر با این الگوریتم آشنایی بیشتری داشته باشید، متوجه می‌شوید که DBSCAN علاوه بر پیدا کردنِ خوشه‌ها، می‌تواند داده‌هایی را که در هیچ خوشه‌ای قرار نمی‌گیرند نیز کشف کند. می‌توانید دوباره نگاهی به درسِ خوشه‌بندی DBSCAN در دوره‌ی خوشه‌بندی بیندازید.

البته این درس بیشتر برای تکمیل سرفصل‌های بحثِ داده‌های پَرت قرار داده شده و می‌خواهیم مروری بر درسِ الگوریتمِ DBSCAN این بار با نگاهِ داده‌های پَرت داشته باشیم.

شکل زیر را از درسِ DBSCAN به یاد بیاوید (درس ویژگی چیست را نیز خوانده باشید):

گفتیم که الگوریتمِ خوشه‌بندیِ DBSCAN می‌تواند گروه‌ها را بر اساسِ غلظت دسته‌بندی کند و این دسته‌ها در کنارِ هم خوشه‌ها را تشکیل می‌دهند. اما نگاهی به نقطه‌ی مشخص شده در بالا بیندازید. الگوریتمی مانندِ DBSCAN این نقطه را به عنوان داده‌ای که به هیچ گروهی (بر اساس غلظت و تراکم) متصل نیست، یعنی یک داده‌ی پَرت (outlier) می‌شناسد. همان‌طور که نگاه می‌کنید این نقطه در یک منطقه‌ی خلوت قرار دارد که تراکمِ داده‌ها در آن‌جا کم است. پس به صورتِ شهودی نیز می‌توان دید که این نقطه یک داده‌ی پَرت است.

این درس از مجموعه داده‌های پَرت (Outliers) و الگوریتم‌های مختلف شناسایی داده‌های پرت است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

دیدگاهتان را بنویسید لغو پاسخ