اساسا در علم تجزیه و تحلیل آماری و روش تحقیق یکی از موضوعاتی که می تواند فرآیند تحلیل را منحرف کرده نتایج و دستاوردهای تحقیق را دچار مشکل کند، وجود داده های پرت یا Outlier ها هستند. یکی از روش های بسیار مهم در ارزیابی سلامت داده های گردآوری شده مربوط به شناسایی داده های پرت در تحقیق است.
هر چقدر این داده ها در تحقیق بیشتر باشند سلامت داده ها پایین تر و در نتیجه خروجی های بدست آمده دچار نقصان خواهد بود. ما در این مطلب قصد داریم به شما چند روش کاربردی برای شناسایی داده های پرت در SPSS را آموزش بدهیم تا بواسطه آن سلامت داده های خودتان را پیش از تجزیه و تحلیل تضین نمایید.
1. شناسایی داده های پرت بر اساس نمودار توزیع نرمال: این روش از شناسایی داده ها، مختص داده های نرمال بوده و برای روش های ناپارمتریک کاربرد ندارد. در این روش میزان انحراف یک پاسخ از میانگین کلی جامعه محاسبه و مشخص می شود. در این روش ابتدا میانگین داده های گردآوری شده (X) را محاسبه میکنید و سپس انحراف معیار (SD) آن را بدست می آورید و از طریق این فرمول می توانید کران بالا (X+3*SD) و کران پایین (X-3*SD) را محاسبه کنید. هر عددی که در این بازه کران بالا و پایین قرار بگیرد مناسب بوده و خارج از آن پرت یا Outlier می باشد به این روش اصطلاحا سه سیگما نیز اطلاق می شود. چنانچه از نرمال بودن داده های خودتان اطمینان دارید می توانید از نمودار Histogarm نیز برای شناسایی Outlier ها در این روش استفاده کنید.
2. شناسایی داده های پرت بر اساس نمودارهای کنترل کیفی آماری: این روش بیشتر در داده های گردآوری شده در خط تولید و سیستم های کنترل کیفی و یا هر داده های که مبتنی بر سیر زمانی است کاربرد دارد. در این روش نمودار خطی یا Line کشیده می شود که محور افقی آن شماره داده و محور عمودی آن زمان ثبت شده را شامل می شود پس از رسم نمودار تمامی داده ها باید در یک محدوده بین کران بالا (UCL) و کران پایین (LCL) مبتنی بر روش قبلی قرار بگیرند. این دو کران به صورت دو خط موازی بر روی نمودار زمان مشخص می شود و هر نقطه ای که خارج از باشد به عنوان داده پرت شناخته شده و می تواند حذف شود.
3. شناسایی داده های پرت بر اساس شاخص های ناپارامتری: چنانچه داده های شما ناپارمتری است و قصد دارید سلامت آن را مورد ارزیابی و بررسی قرار دهید دیگر نمیتوان از میانگین و انحراف معیار برای آن استفاده کرد و بهترین روش استفاده از میانه و دامنه چارکی است، نقطه برآورد و نقطه چارکی در هر داده مشخص کننده داده های پرت یا Outlier است. با توجه به همان فرمول سه سیگما ابتدا چارک اول (Q1) و چارک سوم (Q3) را محاسبه کرده و آنها را از هم کم کنید و IQ را بدست آورید.
سپس کران بالا (Q3+3*IQ) و کران پایین (Q1-3*IQ) را محاسبه نمایید. هر مقداری از داده های ناپارمتریک که بین این دو مقدار قرار نگیرند Outlier محسوب می شوند. همانطور که نمودار هیستوگرام برای مشخص کردن داده های پرت در وضعیت نرمال مناسب بود، در وضعیت ناپارمتریک می توانید از نمودار Boxplot استفاده نمایید. تمامی مقادیری که خارج از این نمودار قرار میگیرند داده های پرت تحقیق را تشکیل می دهند.
4. شناسایی داده پرت در روابط بین متغیرها: تشخیص داده های پرت یا Outlier در زمان بررسی روابط بین دو متغیر یکی از رایج ترین روش ها برای ارزیابی سلامت دیتا و بهبود کیفیت آن می باشد. معمولا در این روش از همبستگی یا Corrolation استفاده می کنند که در آن هرچه نزدیکی و تشابه رفتار متغیرها به یکدیگر نزدیک باشد عدد به 1 نزدیک و هرچه رفتار آنها در تضاد با هم باشد عدد به 1- نزدیکتر است.
یکی از بهترین روش ها برای بررسی سلامت داده به روش همبستگی، رسم کردن نمودار پراکندگی یا ScatterPlot است. پس از رسم نمودار مشاهده خواهید کرد که تمامی داده ها در یک خط همبستگی مشخص و منظم در ارتباط با یکدیگر قرار دارند و تنها داده هایی به صورت پراکنده در خارج از خط روند همبستگی جای گرفته اند که اصطلاحا داده های پرت به آنها اطلاق می شود که سلامت داده ها را دچار مشکل می کنند.
آموزش نرم افزار SPSS - علم تجزیه و تحلیل آماری