در دروس گذشته به معرفی گشتاور اول (میانگین)، گشتاور دوم (واریانس) و گشتاور سوم (چولگی) پرداختیم. در این درس قصد داریم گشتاور چهارم از یک مجموعهی داده را با هم مشاهده کنیم. کشیدگی یا برجستگی (kurtosis) گشتاور چهارم در یک مجموعهی داده است که میزان برجستگی قله را در توزیع یک مجموعهی داده مشخص میکند.
فرض کنید سه مجموعهی داده داریم با توزیعهای زیر:
در مورد توزیعها و توزیع نرمال در این درس صحبت کردهایم. شکل شمارهی ۱ (سمت چپ) توزیعِ یک مجموعهی دادهی نرمال است. یعنی قلهی آن (همان مُد – mode) خیلی کم یا خیلی زیاد نیست و به سمت راست یا چپ هم چولگی ندارد. اما شکل شمارهی ۲ (وسط) قله یا همان مُد (mode) تیزتر از حد معمول است. به این حالت که قله تیزتر از حد معمول باشد kurtosis بالا میگویند. در حالی که شکل شمارهی ۳ (سمت راست) به دلیل اینکه قلهی کوتاهی دارد، kurtosis پایینی هم دارد. پس kurtosis به معنای تیزی، یا برجستگی قله (مُد) است و هر چقدر این مقدار بیشتر باشد، تیزیِ قله نیز بیشتر خواهد شد.
در آمار معمولاً به جای برجستگی (kurtosis) از برجستگی مازاد (excess kurtosis) استفاده میکنند. در واقع برجستگی برای دادههای کاملاً نرمال برابر ۳ است. ولی در برجستگی مازاد یا همان excess kurtosis ما یک منهای ۳ (۳-) به فرمول اضافه میکنیم تا برجستگیِ دادههای نرمال (مانند شکل بالا سمت چپ) برابر با صفر شود. پس دادههایی که از حالت نرمال قلهی تیزتری دارند، دارای برجستگیِ مازاد (excess kurtosis) مثبت هستند و دادههایی که از حالت نرمال پهنترند، برجستگیِ مازادِ منفی خواهند داشت. فرمول برجستگیِ مازاد به صورت زیر است:
در کل با توجه به فرمول بالا، سه نوع برجستگی (kurtosis) در دادهها موجود است:
۱. برجستگی Mesukurtic:
اگر برجستگیِ مازاد یا همان excess kurtosis برابر صفر باشد یعنی قله در توزیع دادهها به صورت نرمال باشد، حالت Mesukurtic داریم
۲. برجستگی Leptokurtic:
اگر برجستگیِ مازاد یا همان excess kurtosis بالاتر از صفر باشد، یعنی قله در توزیع دادهها تیزتر از حالت نرمال باشد، برجستگی Leptokurtic رخ داده است
۳. برجستگی Platykurtic:
اگر برجستگیِ مازاد یا همان excess kurtosis کمتر از صفر باشد، یعنی قله در توزیع دادهها پهنتر از حالت نرمال باشد، برجستگی Platykurtic رخ داده است
همانطور که در ابتدای درس اشاره کردیم، به برجستگی (kurtosis) گشتاور چهارم نیز گفته میشود چون در فرمولش توان چهار موجودست.
برجستگی زیاد (leptokurtic) نشان میدهد که دادههای ما به صورت متراکم نزدیک به قله جمع شدهاند. برای مثال فرض کنید شکل زیر، توزیع سود دو شرکت در سالیان مختلف است:
همانطور که میبینید توزیع سودِ شرکت «الف»، به نوعی leptokurtic محسوب میشود در حالی که توزیع سودِ شرکت «ب»، playkurtic است. سرمایهگذاران معمولاً با مشاهدهی شرکت «ب» درمیابند که ریسک سرمایهگذاری در آن بالاست زیرا قابلیت پیشبینی کمتری دارد. در واقع احتمال اینکه سود خیلی زیاد یا سود خیلی کم از آن بگیرند، بیشتر است. ولی سرمایهگذاری در شرکت «الف» ریسک کمتری دارد چون پیشبینیپذیر تر است. البته برای مثال یک سرمایهگذار میتواند بخشی از پولش را در شرکتهایی سرمایهگذاری کند که سود آنها leptokurtic هستند و بخشی دیگر را برای اطمینان در شرکتهایی با توزیع سود platykurtic سرمایهگذاری کند.
- ۱ » تحلیل اکتشافی دادهها (Exploratory Data Analysis) چیست؟
- ۲ » انواع مختلف دادهها در دادهکاوی کدامند؟
- ۳ » منظور از دادههای مستطیلی (Rectangular Data) چیست؟
- ۴ » داده پرت (Outlier) در دادهکاوی چیست؟
- ۵ » تخمین مکان دادهها (Estimation Of Location) چیست و انواع مختلف آن کدامند؟
- ۶ » تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن
- ۷ » چارک (Quartile) و IQR در دادهها و کاربردهای آن
- ۸ » چولگی (Skewness) در دادهها
- ۹ » کشیدگی یا برجستگی (kurtosis) در دادهها
- ۱۰ » چگونه با EDA در دادهها اکتشاف کنیم؟
- ۱۱ » نمونهگیری آماری و محاسبهی حداقل تعداد نمونه (Min Sample Size)
- ۱۲ » توزیعهای آماری (Statistical Distributions)
- ۱۳ » فاصلهی آماری (Statistical Distance) و کاربردهای آن
- ۱۴ » واگرایی کولبک-لیبلر (Kullback-Leibler Divergence) و کاربرد آن در فاصلهی آماری
- ۱۵ » فاصلهی جنسون-شنون (Jenson-Shannon) برای مقایسهی توزیعهای آماری
نوشتید که:
سرمایهگذاران معمولاً با مشاهدهی شرکت «الف» درمیابند که ریسک سرمایهگذاری در آن بالاست. زیرا احتمال اینکه سود خیلی زیاد یا سود خیلی کم از آن بگیرند، بیشتر است. ولی سرمایهگذاری در شرکت «ب» ریسک کمتری دارد. پس برای مثال یک سرمایهگذار میتواند بخشی از پولش را در شرکتهایی سرمایهگذاری کند که سود آنها leptokurtic هستند (دارای ریسک بالا) و بخشی دیگر را برای اطمینان در شرکتهایی با توزیع سود platykurtic سرمایهگذاری کند.
شرکت الف که دامنه تغییرات حول میانیگش کمتر از شرکت ب هست
چجوری ریسک شرکت الف از ب بیشتره؟؟
سلام علی جان
ممنون از تصحیح شما، الف و ب جابهجا شده بود که اصلاح شد
خسته نباشید
بنده در مورد شکل ایراد دارم، دوستی ایراد گرفته بودند و شما تصحیح کردید. اما به نظرم من همون حالت اول درست بوده.
برای بنده قابل تحلیل نیست که چرا (ب) ریسک بالایی دارد؟
برای (ب) گفته شده: “در واقع احتمال اینکه سود خیلی زیاد یا سود خیلی کم از آن بگیرند، بیشتر است ”
این جمله که دقیقا با نمودار (الف) منطبق هست نه (ب). چون یا قله خیلی بالاست یا کناره ها خیلی پایینن. یعنی یا سود بالا یا هیچی طرف بیچاره میشه. پس ریسک (الف) بالاست نه (ب).
(ب) که کاملا امن هست، از رو نمودار مشخصه. یعنی یکهو ضربه نمیزنه.
میشه لطفا این رو بررسی کنید؟
خدا قوت
منم موافقم حالت اول درست بوده