-
آنالیز داده های اکتشافی
- EDA یک روش نیست بلکه یک رویکرد و فلسفه ی قوی در تجزیه و تحلیل داده هاست (Tukey, 1977). که شامل مجموعه ای از آمار توصیفی است و بیشتر از ابزار گرافیکی استفاده می شود برای (الف) بدست آوردن دید کلی از مجموعه ای از داده ها، (ب) کشف ساختار داده ها،(پ) تعریف متغییرهای قابل توجه در داده ها، (ت) تعیین مقادیر خارج از ردیف و ناهنجاریها، (ث) فرضیه سازی و آزمون فرضیه ها، (ج) توسعه مدل های محتاطانه و (چ) شناسایی بهترین عملیات ممکن و تفسیر داده ها. با توجه به اینکه توالی تجزیه و تحلیل آماری کلاسیک داده ها مشکل است داده ―› مدل سازی —› آنالیز —› نتیجه گیری. و توالی تجزیه و تحلیل داده های احتمالاتی مشکل است —› داده —› مدل سازی —› آنالیز توزیع داده های اولیه —› نتیجه گیری. تجزیه و تحلیل داده های اکتشافی مشکل است —› داده —› آنالیز —› مدل سازی —› نتیجه گیری. بنابراین تجزیه و تحلیل آماری کلاسیک داده ها و تجزیه و تحلیل احتمالاتی داده ها روش های تاییدی تجزیه و تحلیل داده ها می باشند.(براساس پیش فرض هایی از مدل توزیع داده ها می باشند). در حالیکه EDA همان طور که از نام آن پیداست، رویکرد اکتشافی برای تجزیه و تحلیل داده هاست.
- هدف از EDA شناسایی موثر الگوی داده ها (Good, 1983) از میان کاربردهای قوی آمار توصیفی و ابزار گرافیکی که به طور مشخص از نظر کیفی از ابزارهای آمار کلاسیک مجزا هستند می باشد. از نقطه نظر آماری، آماری قوی است که (الف) تنها یا تحت تاثیر تعداد کمی اشتباهات بزرگ و یا تعداد زیادی اشتباهات کوچک باشد (مقاومت) و (ب) تنها تحت تاثیر تعداد کمی داده های خارج از ردیف باشد(نیرومندی) (Huber, 1981; Hampel et al., 1986). آمار توصیفی و ابزار گرافیکی استفاده شده در EDA براساس خود داده ها و توزیعشان هستند (توزیع نرمال) ، در عین حال آنها تعریف محکمی از آمار داده های تک متغییره و خارج از ردیف فراهم می کنند.
-
3-1- ابزار گرافیکی در EDA
- تاکید در EDA تعامل بین شناخت انسان و محاسبات به صورت گرافیک آماری است که اجازه می دهد کاربر رفتار و ساختار داده را درک کند.
- در میان انواع مختلفی از ابزارهای گرافیکی EDA،(Tukey, 1977; Velleman And Hoaglin, 1981; Chambers et al., 1983)
- شاخص چگالی، نمودار پراکندگی تک بعدی و نمودار جعبه ای معمولا در تجزیه و تحلیل داده های ژئوشیمیایی تک عنصری استفاده می شوند (Howarth and Turner, 1987; Kürzl, 1988; Reimann et al., 2005; Grunsky, 2006). این سه نمودار EDA ، که به آسانی می توانند روی یکدیگر قرار بگیرند (شکل1)، اغلب با هم به همراه یک هیستوگرام استفاده می شوند. علت آن است که برداشت بصری از رفتار و ساختار داده تک متغییره که از یک هیستوگرام بدست می آید تنها متاثر از انتخاب تعداد کلاس های لازم برای بدست آوردن هیستوگرام هاست. ترکیبی از سه نمودار EDA با هیستوگرام دید بهتری از رفتار و ساختار داده تک متغییره نسبت به هیستوگرام تنها فراهم می کند. برخلاف یک هیستوگرام، سه نمودار EDA به آسانی می توانند هر اختلال در مجموعه داده تک متغییره را نشان دهند.
شکل 1- هیستوگرام و نمودارهای EDA(شاخص چگالی، نمودار پراکندگی تک بعدی، نمودار جعبه ای) .
- شاخص چگالی شبیه یک هیستوگرام است اما آن توزیع چگالی تجربی داده های تک متغییره را به شیوه ای بسیار واقعی تر توصیف می کند و با تغییر در تعداد کلاس ها تغییر قابل توجهی در شکل آن ایجاد نمی کند. تعداد مناسب از کلاس ها برای ساخت یک هیستوگرام را می توان با ساخت یک نمودار پراکندگی تک بعدی کنترل کرد که در آن داده های تک متغییره در موقعیت های تصادفی در یک باند باریک (معمولا با طیف وسیعی از 1-0) عمود بر محور داده ی تک متغییره رسم می شود. به دلیل آنکه نمودار پراکندگی تک بعدی براساس کلاس های داده های تک متغییره نیست، آن اطلاعات اضافی در مورد داده ها فراهم می کند (ساختار، رفتار، تراکم محلی، شکاف، نقاط خارج از ردیف) که باید توسط یک هیستوگرام و شاخص چگالی به تصویر کشیده شود. نمودار جعبه ای(box plot) اطلاعاتی درباره ویژگی های توزیع چگالی تجربی(تمایل مرکزی، گسترش و …) از مجموعه داده های تک متغییره را نمایش می دهد. همچنین احتمالا مفیدترین ابزار گرافیکی EDA در تجزیه و تحلیل داده های اکتشافی است و بنابراین اینجا توجه خاصی به آن شده است….
-
ادامه مطلب در کتاب “به نقشه درآوردن آنومالی های ژئوشیمیایی در GIS”