مجموعه داده‌ی سرقت بیتکوین با استفاده از باج افزار

مدرس: مسعود کاویانی

بیکوین یک ارز مجازی است که به دلیل سختی در رهگیری، یکی از ارزهای مورد علاقه‌ی سارقان است. مشکل باج‌گیری با استفاده از بیتکوین یکی از معضلات جامعه‌ی نرم‌افزاری در جهان است. برای مثال، سارق با نصب نرم‌افزاری بر روی سیستم شما، عکس‌های شما را قفل کرده و به شما پیام می‌دهد که اگر عکس‌هایتان را می‌خواهید، بایستی مبلغی پول بیت‌کوین به حساب او واریز کنید (اطلاعات بیشتر در مورد باج‌افزار). این مشکل، دانشمندان حوزه‌ی علم داده را به این فکر فرو برد که شاید بتوانند با استفاده از روش‌های هوشمند داده‌کاوی، تراکنش‌هایی را که مشکوک به سو استفاده سارقان هستند را شناسایی کنند.

در مجموعه‌ی داده‌ی جاری، گرافِ دریافت/پرداخت بیتکوین، کمی‌سازی شده است. به این معنا که به جای نمایش گراف (که حالت بسیار پیچیده‌ای) دارد، داده‌ها از روی گراف به صورت مستطیلی طراحی شده‌اند تا کار را برای پردازش و تحلیل توسط انسان و الگوریتم، ساده‌تر کنند. نمایی از داده‌ها به صورت زیر است:

همان‌طور که مشاهده می‌کنید، این مجموعه‌ی داده در حدود ۳ میلیون تراکنشِ کمی‌سازی شده از روی گراف را در خود جای داده است. توضیحاتِ ویژگی‌های مختلفِ این مجموعه‌ی داده به شرح زیر است:

نام ویژگی (ستون)نوعتوضیحات
addressطبقه‌ای (رشته)آدرس بیتکوین
yearعددیسالی که تراکنش در آن جمع‌آوری شده است
dayعددیروز سال (یکی از ۳۶۵ روز سال)
lengthعددیطول تراکنش. تراکنش‌ها بعد از دریافت، به میزان یکسانی در نوبت‌های مختلف در اکانت‌های جدید متفاوت پخش می‌شوند. این کار برای گم شدن مبدا بیت‌کوین‌ها انجام می‌شود
weightعددیوزن تراکنش. تراکنش‌ها بعد از ترکیب شدن به اکانت‌های نهایی واریز می‌شوند. وزن برای مثال نشان می‌دهد که تراکنش بیشتر از آن‌که آدرسِ خروجی داشته باشد، آدرسِ ورودی دارد
dcountعددیمانند وزن است با این تفاوت که این ویژگی، تعداد تراکنش‌ها را نشان می‌دهد ولی وزن، مقدار آن‌ها را.
loopedعددیچرخه. چرخه نشان می‌دهد که چه تعداد تراکنش، ۱. سکه‌ها را تقسیم کرده‌اند، ۲. این سکه‌ها را در شبکه با استفاده از مسیرهای مختلف حرکت داده‌اند و ۳. آن‌ها را در یک آدرس ترکیب کرده اند
neighborsعددی
incomeعددیمقدار بیت‌کوین به ساتوشی
Labelطبقه‌ایبرچسب (این تراکنش از باج‌افزار بوده است یا خیر)

مسئله، جزو مسائل طبقه‌بندی است و انتظار می‌رود که الگوریتم طبقه‌بندی بتواند با استفاده از ویژگی‌ها (ابعاد) مسئله، کلاسِ این تراکنش را برچسب‌گذاری کند. اگر در ستون Label دقت کنید، متوجه می‌شوید که مقادیر مختلفی وجود دارد که هر کدام یکی از باج‌افزارها را نشان می‌دهد. اگر مقدار این ستون مقدار «white» بود به معنی سالم بودن تراکنش است (البته این سالم بودن ۱۰۰ درصد قطعی نیست). شکل زیر تعداد مقادیر این ستونِ Label را به تفکیک نشان می‌دهد (ستون سمت چپ برچسب است و ستون سمت راست تعداد آن برچسب در مجموعه‌ی داده):

مشاهده می‌کنید که اکثر تراکنش‌های ما (بیش از ۹۸درصد)، تراکنش‌های سالم (white) هستند و کمتر از ۲ درصد آن‌ها تراکنش‌هایی هستند که از طریق باج‌افزار اقدام به سرقت مال کرده‌اند. به این دست از داده‌ها که طبقه‌ی آن‌ها به این صورت پراکنده شده باشند، داده‌های نامتوازن می‌گویند که نیاز به الگوریتم‌ها و روش‌های مخصوص به خود را دارد.

«مشاهده‌ی گزارش EDA ابتدایی بر روی داده‌های تشخیص ریسک دیابت در مراحل اولیه»

«دانلود مجموعه‌ی داده با فرمت CSV (به همراه آنالیز مقدماتی)»

منابع این بحث و اطلاعات بیشتر

» مجموعه داده در وب‌سایت UCI

» مقاله مرتبط

 

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *