بیکوین یک ارز مجازی است که به دلیل سختی در رهگیری، یکی از ارزهای مورد علاقهی سارقان است. مشکل باجگیری با استفاده از بیتکوین یکی از معضلات جامعهی نرمافزاری در جهان است. برای مثال، سارق با نصب نرمافزاری بر روی سیستم شما، عکسهای شما را قفل کرده و به شما پیام میدهد که اگر عکسهایتان را میخواهید، بایستی مبلغی پول بیتکوین به حساب او واریز کنید (اطلاعات بیشتر در مورد باجافزار). این مشکل، دانشمندان حوزهی علم داده را به این فکر فرو برد که شاید بتوانند با استفاده از روشهای هوشمند دادهکاوی، تراکنشهایی را که مشکوک به سو استفاده سارقان هستند را شناسایی کنند.
در مجموعهی دادهی جاری، گرافِ دریافت/پرداخت بیتکوین، کمیسازی شده است. به این معنا که به جای نمایش گراف (که حالت بسیار پیچیدهای) دارد، دادهها از روی گراف به صورت مستطیلی طراحی شدهاند تا کار را برای پردازش و تحلیل توسط انسان و الگوریتم، سادهتر کنند. نمایی از دادهها به صورت زیر است:
همانطور که مشاهده میکنید، این مجموعهی داده در حدود ۳ میلیون تراکنشِ کمیسازی شده از روی گراف را در خود جای داده است. توضیحاتِ ویژگیهای مختلفِ این مجموعهی داده به شرح زیر است:
نام ویژگی (ستون) | نوع | توضیحات |
address | طبقهای (رشته) | آدرس بیتکوین |
year | عددی | سالی که تراکنش در آن جمعآوری شده است |
day | عددی | روز سال (یکی از ۳۶۵ روز سال) |
length | عددی | طول تراکنش. تراکنشها بعد از دریافت، به میزان یکسانی در نوبتهای مختلف در اکانتهای جدید متفاوت پخش میشوند. این کار برای گم شدن مبدا بیتکوینها انجام میشود |
weight | عددی | وزن تراکنش. تراکنشها بعد از ترکیب شدن به اکانتهای نهایی واریز میشوند. وزن برای مثال نشان میدهد که تراکنش بیشتر از آنکه آدرسِ خروجی داشته باشد، آدرسِ ورودی دارد |
dcount | عددی | مانند وزن است با این تفاوت که این ویژگی، تعداد تراکنشها را نشان میدهد ولی وزن، مقدار آنها را. |
looped | عددی | چرخه. چرخه نشان میدهد که چه تعداد تراکنش، ۱. سکهها را تقسیم کردهاند، ۲. این سکهها را در شبکه با استفاده از مسیرهای مختلف حرکت دادهاند و ۳. آنها را در یک آدرس ترکیب کرده اند |
neighbors | عددی | |
income | عددی | مقدار بیتکوین به ساتوشی |
Label | طبقهای | برچسب (این تراکنش از باجافزار بوده است یا خیر) |
مسئله، جزو مسائل طبقهبندی است و انتظار میرود که الگوریتم طبقهبندی بتواند با استفاده از ویژگیها (ابعاد) مسئله، کلاسِ این تراکنش را برچسبگذاری کند. اگر در ستون Label دقت کنید، متوجه میشوید که مقادیر مختلفی وجود دارد که هر کدام یکی از باجافزارها را نشان میدهد. اگر مقدار این ستون مقدار «white» بود به معنی سالم بودن تراکنش است (البته این سالم بودن ۱۰۰ درصد قطعی نیست). شکل زیر تعداد مقادیر این ستونِ Label را به تفکیک نشان میدهد (ستون سمت چپ برچسب است و ستون سمت راست تعداد آن برچسب در مجموعهی داده):
مشاهده میکنید که اکثر تراکنشهای ما (بیش از ۹۸درصد)، تراکنشهای سالم (white) هستند و کمتر از ۲ درصد آنها تراکنشهایی هستند که از طریق باجافزار اقدام به سرقت مال کردهاند. به این دست از دادهها که طبقهی آنها به این صورت پراکنده شده باشند، دادههای نامتوازن میگویند که نیاز به الگوریتمها و روشهای مخصوص به خود را دارد.
«مشاهدهی گزارش EDA ابتدایی بر روی دادههای تشخیص ریسک دیابت در مراحل اولیه»
«دانلود مجموعهی داده با فرمت CSV (به همراه آنالیز مقدماتی)»