مطالب اسناد بالادستی ایران

مهارت های کاربردی تحلیل آماری

  • تحلیل آماری مهارتی ویژه است تحلیل آماری علاوه بر جنبه های کاربردی و ضرورت آن در فرآیند نگارش پایان نامه و یا رساله دکتری، برای بسیاری از کسب و کارها در خارج از محیط دانشگاه، یک مهارت اساسی محسوب می شود. بسیاری از کسب و کارها در جهان به این نتیجه رسیده اند که استفاده از استراتژی های مبتنی بر داده های آماری می تواند به تصمیم گیری و برنامه ریزی دقیق تر کمک کند. طرح کسب و کار (Business Plan)، طرح استراتژیک (Strategic Plan)، طرح تبلیغات (Marketing Plan) و سایر برنامه های درون سازمانی از جمله طرح هایی هستند که نیاز اساسی به تحقیقات بازار و تحلیل داده ها و یافته ها دارند. شرکت هایی که فرآیند تصمیم گیری آنها کاملا برنامه ریزی شده و مبتنی بر نیازهای مشتریان است به دنبال افرادی هستند که در تحلیل آماری مهارت و تسلط بالایی داشته باشند. چرا که به صورت مداوم نظرات مشتریان را به صورت داده های خام جمع آوری کرده و مورد تحلیل و بررسی قرار می دهند. علاوه بر اهمیت و کاربرد تحلیل های آماری به معرفی مهارت های مرتبط با آن نیز اشاره کنیم.

    تحلیل آماری به معنای گردآوری، طبقه بندی، آنالیز و تجزیه داده های خام جمع آوری شده از جامعه هدف به منظور دستیابی به نتایج و نظرات نهفته در تحقیق است. این نتایج برای تصمیم گیری های مدیریتی و برنامه ریزی های کوتاه، میان و بلند مدت اهمیت بسیار بالایی دارند. گزارشات حاصل از تحلیل های آماریمی بایست در قالب نمودار، جدول و یا گراف در اختیار تصمیم گیران قرار بگیرند که به همراه تفسیرها و استدلالهای حاصل از خروجی های نرم افزار کاربرد پیدا می کنند. لازم به ذکر است داده های خام آماری ممکن است گزارشات سازمانی، یافته های آزمایشگاهی و یا نتایج حاصل از گردآوری پرسشنامه باشند. تمامی این داده ها به روش های متفاوت و با نرم افزارهای مختلف آماری تحلیل شده و یافته های آن تفسیر می شوند. به طور کلی فرآیند تحلیل آماری در سه مرحله کلی انجام و پیاده می شود:

    گردآوری و مرتب سازی داده ها: اولین و مهمترین فرآیند مربوط به مهارت تحلیل آماری، نحوه گردآوری و مرتب سازی داده ها است. هر پژوهشگری باید تسلط کافی به ابزارهای گردآوری داده ها و شناسایی جامعه آماری و روش نمونه گیری داشته باشد. هر تحقیقی بسته به اهداف و موضوع آن باید روش و ابزار مشخصی را برای گردآوری داده ها استفاده کند. از جمله این روش ها می توان به مطالعات کتابخانه ای، بررسی اسناد، مصاحبه، پرسشنامه و غیره اشاره کرد. پس از مشخص کردن ابزار گردآوری داده ها نوبت به شناسایی جامعه آماری و تعیین نمونه می رسد که نقش بسیار مهمی در نتایج و یافته های تحقیق دارد.

    انتخاب نمونه تحقیق باید به گونه ای باشد که نماینده مناسبی از جامعه آماری محسوب شده و پوشش دهنده نظرات جامعه آماری باشد. برای مثال فرض کنید جامعه آماری تحقیق شما در برگیرنده طیف سنی 18-65 سال است و شما باید یک نمونه آماری از آن انتخاب کنید. آیا می توانید فقط از افراد بین 18-30 سال تحقیق کنید؟ جواب این سوال خیر است چرا که نمونه شما پوشش دهنده جامعه آماری نیست. در نهایت پس از مشخص کردن این موارد و طی شدن فرآیند گردآوری داده ها نوبت به مرتب سازی آنها می رسد که می بایست داده های اشتباه، پرسشنامه های ناقص، اطلاعات نامربوط به تحقیق و سایر عوامل بی ارتباط به تحقیق از مجموعه داده های اولیه و خام حذف شوند تا فرآیند تحلیل آماری به درستی و دقت انجام پذیرد.

    ورود به نرم افزار و کد گذاری داده ها: دومین مرحله از مهارت تحلیل آماری مربوط به طریقه کارکردن با نرم افزارهای آماری و وارد کردن داده های خام برای انجام آنالیزهای مربوط به آن است. تمامی تحلیل های آمارینیازمند استفاده از نرم افزارهای خاصی برای پیاده سازی آنالیزهای مربوطه هستند. از جمله این نرم افزارهای آماری می توان به SPSS, Smart PLS, R, Liserel, Eviews و غیره اشاره کرد. برای وارد کردن یا کد گذاری داده های خام روش های مشخصی وجود دارد که در ابتدا باید متغیرها را در نرم افزار تعریف کنید و در مرحله بعد این متغیرها را در قالب مفاهیم عددی تبیین نمایید. این کار برای تجزیه تحلیل آماری و درک نظرات بسیار ضروری است چرا که این نظرات معمولا در قالب طیف لیکرت یا سایر مقیاس های عددی طراحی می شوند.

    تحلیل و تفسیر داده ها: آخرین مرحله از فرآیند تحلیل آماری مربوط به انجام آنالیز، گرفتن خروجی، ارائه خروجی های نرم افزار در قالب جدول، گراف و نمودار و در نهایت تفسیر و نتیجه گیری از خروجی های بدست آمده است. این فرآیند معمولا به دانش بسیار بالایی از علم آمار و مفاهیم آماری نیاز دارد. برای مثال اهمیت آلفای کرونباخ، مقیاس KMO یا تحلیل عاملی (factor loading) در برازش داده ها و شناسایی فاکتورهای تاثیرگذار در تحقیق چیست؟ یا اینکه چطور باید تشخیص بدهیم که از آزمونهای پارامتریک استفاده کنیم و یا آزمون های ناپارامتریک؟. پس از روش شناسی و نحوه استفاده از آزمون های آماری نوبت به سختترین مرحله یعنی تفسیر مفاهیم آماری میرسد که در این مرحله باید به زبانی کاملا ساده و شفاف تشریح کنید که یافته های تحقیق شما چه چیزهایی هستند و خروجی های نرم افزار چه معنایی می دهند.

    همانطور که پیشتر بیان کردیم، مهارت های کاربردی تحلیل آماری نه تنها برای اهداف آکادمیک بلکه در دنیای رقابتی امروز برای کسب و کارهای مختلف نیز به یک ضرورت تبدیل شده اند. بر اساس تحقیق انجام گرفته توسط دانشگاه Northeastern در سال 2020 مشخص شد که بیش از 70 درصد از مدیران کسب و کارهای خدماتی در آمریکا ترجیح می دهند افرادی را استخدام کنند که تسلط بالایی به نرم افزارهای آماری و علم آمار داشته باشند. در حال حاضر بسیاری از دانشگاه ها در سراسر جهان تمرکز خودشان را بر روی آموزش تحلیل های آماری به دانشجویان گذاشته اند تا از این طریق بتوانند به آنها کمک کنند تا هر چه سریعتر جذب بازار کار شوند. از جمله مهارت عمده که در فرآیند تحلیل آماری آموزش داده می شود عبارتند از:

    زبان پرسمان یا اس کیو ال (SQL)
    ماکروسافت اکسل (Microsoft Excel)
    تفکر انتقادی (Critical thinking)
    نرم افزارهای آماری (Statistical Programs)
    تصویر سازی داده (Data Visualization)
    مهارت ارائه (Presentation Skill)
    یادگیری ماشین یا داده کاوی (Machine Learning)

    زبان اس کیو ال (SQL):یک زبان رایج مربوط به پایگاه داده استاندارد صنعتی است و شاید یکی از مهمترین مهارت های تحلیل آماری در نظر گرفته می شود. بسیاری از محققان باور دارند که زبان اس کیو ال (SQL) نمونه پیشرفته تر نرم افزار اکسل است که می تواند طیف وسیعی از داده های آماری را سازماندهی کند که نرم افزار اکسل براحتی قادر به انجام آن نخواهد بود.

    بسیاری از کسب و کارها نیاز به شخصی دارند که تسلط بالایی به زبان اس کیو ال (SQL) برای مدیریت و ذخیره داده ها از پایگاه داده های چندگانه (Multiple Database) داشته باشد. بر اساس تعریف موسسه استاندارد ملی آمریکا، زبان اس کیو ال (SQL) یک سیستم مدیریت ارتباط دیتابیس است که با اهداف مختلف از جمله بروزرسانی داده ها در چندین دیتابیس و یا بازیابی آنها مورد استفاده قرار می گیرد. بر اساس تحقیقات انجام گرفته میانگین دستمزدی که کارفرمایان آمریکای حاضرند برای کارکنان مسلط به SQL بپردازند چیزی در حدود 75000 دلار است.

    ماکروسافت اکسل (Microsoft Excel):شاید اولین چیزی که بعد از شنیدن نام نرم افزار اکسل به ذهنتان برسد یک صفحه خالی سفید رنگ جدول بندی شده است. اما مهارت های تحلیل آماری بسیار زیادی را می توان در قالب همین جداول یاد گرفته و طراحی نمود. اگرچه زبان برنامه نویسی R یا Python برای تحلیل و مدیریت داده های با اندازه بسیار بزرگ مناسب هستند ولی نرم افزار اکسل مناسب انجام آنالیزهای سریع و با حجم کم تا متوسط بسیار مناسب است. اگر در مراحل آغازین یادگیری مهارت آماری هستید و یا در یک شرکت تازه تاسیس کار میکنید ممکن است دیتا بیس شما در قالب یک فایل اکسل طراحی شده باشد.

    تفکر انتقادی (Critical thinking):تفکر انتقادی بدین معناست که شما با دید پرسشگرانه به پدیده های اجتماعی و طبیعی اطراف خودتان نگاه کنید. دید انتقادی قوی موجب مطرح کردن سوالات درست و در نهایت پیاده سازی تحلیل های دقیق خواهد شد. برای موفقیت در مهارت تحلیل آماری نیاز است که همچون یک منتقد به پدیده ها و اتفاقات محیط اطراف نگاه کنید و جنبه مختلف آن را مورد بررسی قرار دهید. اگر چه ممکن است این مهارت کاربردی تا حدی عجیب و خارج از دسترس به نظر برسد اما چند روش مختلف برای بهبود آن وجود دارد. اولین روش این است که سعی کنید سوالاتی کاملا ساده در مورد پدیده ها و اتفاقات مطرح کنید بجای اینکه به دنبال راه حل بگردید.

    مطرح کردن سوال موجب جهت دهی به تفکر شما می شود و شما را به سمت تحلیل و بررسی سوق می دهد اما مطرح کردن راه حل در همان مرحله اول موجب قضاوت سریع و انحراف شما از واقعیت موجود می شود. دومین روش بر روی میزان تمرکز شما بر رو موضوع تاکید دارد. هر چه تمرکز و دقت خودتان را بر روی یک موضوع بیشتر کنید موجب درگیری ذهنی و طرح سوالات مختلف در مورد آن موضوع خواهد شد.

    نرم افزارهای آماری (Statistical Programs): یادگیری نرم افزارهای آماری یکی از ضرورت های مهارت تحلیل آماری است. شما به عنوان یک محقق هرچقدر هم که به دانش و علوم آماری تسلط داشته باشید باز هم بدون استفاده از نرم افزار آماری نمی توانید پژوهش خودتان را به نتیجه برسانید. فرض کنید کنید که شما برای تحلیل های AHP و TOPSIS از نرم افزار اکسل استفاده می کنید، اما اگر همین فرآیند را بخواهید روی کاغذ و به صورت دستی انجام دهید ممکن است هفته ها وقت شما را بگیرد. حال تصور کنید که پلتفرم هایی مانند R یا Python نیز ده ها برابر سریعتر از اکسل اقدام به تجزیه و تحلیل و آنالیز داده ها میکنند.

    برای اینکه بتوانید به یک آنالیزور یا تحلیلگر حرفه ای تبدیل شوید باید بتوانید با نرم افزارهایی مانند SQL, R و Python به راحتی کار کنید چرا که خروجی های آماری را در زمانی بسیار کمتر و با دقتی بسیار بالا در اختیار تصمیمگیران سازمانی قرار می دهند. در میان نرم افزارهایی تحلیل آماری، پلتفرم های دیگری مانند SAS, SPSS, Smart PLS, Eviews و Liserel هم وجود دارند که میتوان بسته به اهداف تحقیق و یا میزان راحتی در یادگیری یکی از آنها را برای تحلیل آماری انتخاب نمود.

    تصویر سازی داده (Data Visualization):همواره به محققان توصیه می شود که در ابتدای انجام تحقیق سعی کنید یک تصویر کلی از فرآیندهای موردنظرتان در ذهن مجسم کنید. این کار به شما کمک می کند که بتوانید مرحله به مرحله و به صورت سازمان یافته قادام به جمع آوری و تحلیل دادهکنید و در نهایت نتایج مورد انتظار را بدست آورید. مهارت تصویر سازی به شما کمک می کند که علاوه بر سازماندهی فرآیند بتوانید استدلال های منطقی و دقیقی در مورد یافته های تحقیق داشته باشید. سعی کنید مهارت تصویر سازی را مبتنی بر واقعیت و خروجی های موجود انجام دهید و از محدوده تحقیق خارج نشوید.

    مهارت ارائه (Presentation Skill):یادگیری مهارت ارائه یکی از دشوارترین و در عین حال زمانبر ترین مهارت است که به تمرین زیادی نیاز دارد. علاوه بر توانمندی های ذاتی برای یادگیری این مهارت باید بتوانید نیازهای مخاطبان را نیز به درستی شناسایی کنید. مهارت ارائه هم در قالب نوشتاری و هم در قالب سخنرانی نیاز به تسلط بالایی دارد. شما باید بتوانید در عین ارائه مطالب به زبان ساده، مفاهیم علمی را نیز منتقل کنید. سعی کنید بجای تمرکز بر روی خودتان و نحوه ارائه تان بر روی مخاطبان تمرکز کنید تا فکرتان از استرس و اشتباهات احتمالی دور شود.

    یادگیری ماشین یا داده کاوی (Machine Learning): هوش مصنوعی (Artificial Intelligence) و تحلیل پیش بینانه (Predictive Analytics) دو مورد از جدیدترین و داغ ترین مباحثی هستند که در سالهای اخیر توجه بسیاری از متخصصان و کارفرمایان را به خود جلب کرده اند. اگر چه بسیاری از آنالیزورها و تحلیلگران حرفه ای آشنایی کمی با این دو مهارت دارند اما برای بهترین بودن در زمینه تحلیل های آماری بهتر است تا حدی در این رشته های جدید دانش بدست بیاورید. شاید بتوانید برای شروع کار از نرم افزارهای داده کاوی (Data Mining) مانند Orange نیز در این زمینه استفاده کنید.

    نمونه تحقیق - مقاله علمی پژوهشی - نگارش ادبیات موضوع در پایان نامه - رساله دکتری 

  • دیتاست چیست؟

    دیتاست یک مجموعه داده یا مدیریت مجموعه‌ای از داده‌هاست. این مجموعه معمولاً در یک الگوی جدولی ارائه می‌شود. اجزای این جدول به صورت زیر می‌باشند:

    • ستون‌های جدول: هر ستون، یک متغیر خاص را توصیف می‌کند.
    • ردیف‌های جدول: هر ردیف، متناظر با یک عضو داده شده از مجموعه داده‌ها، طبق سؤال داده‌شده است.

    تعریف‌های متفاوتی از دیتاست وجود دارد که ما تنها یک تعریف از آن را گفتیم. مجموعه داده‌ها، مقادیر هر متغیر را برای کمیت‌های ناشناخته مانند قد، وزن، دما، حجم و غیره یک اندازه‌گیری واقعی یا آزمایشگاهی توصیف می‌کنند.

    هر جزء از مقادیر این مجموعه به‌عنوان یک دیتا یا داده شناخته می‌شوند. مجموعه داده‌ها شامل تمامی این دیتاها یا به عبارتی دیگر، شامل تمام ردیف‌های این جدول می‌باشند.

    در ادامه، تعریف مجموعه داده‌ها، انواع مختلف مجموعه داده‌ها و ویژگی‌های آن‌ها را با مثال‌های حل‌شده بسیاری می‌آموزیم.

    خلاصه مطالبی که در ادامه می‌خوانید به شرح زیر است:

    معنا و مفهوم دیتاست
    انواع دیتاست:

    • مجموعه داده‌های عددی
    • مجموعه داده‌های دومتغیره
    • مجموعه داده چند متغیره
    • مجموعه داده‌های طبقه‌بندی‌شده
    • مجموعه داده‌های همبستگی
    • میانگین، میانه، حالت و محدوده

    میانگین، میانه، حالت و محدوده داده‌ها
    ویژگی‌های دیتاست
    مثال‌های کاربردی
    سؤالات متداول
      

    معنای دیتاست

    دیتاست یک مجموعه مرتب از داده‌ها است. همان‌طور که می‌دانیم، مجموعه‌ای از اطلاعات به‌دست‌آمده از طریق مشاهدات، اندازه‌گیری‌ها، مطالعه یا تحلیل، داده نامیده می‌شود. این اطلاعات می‌تواند شامل اطلاعاتی مانند حقایق، اعداد، ارقام، نام‌ها یا حتی توصیفات پایه‌ای اشیا باشد. برای مطالعه ما، داده‌ها می‌توانند به شکل نمودار، نمودار یا جدول سازمان‌دهی شوند. دانشمندان از طریق داده‌کاوی به تجزیه‌وتحلیل داده‌های جمع‌آوری‌شده کمک می‌کنند.

    یک مجموعه داده مجموعه‌ای از اعداد یا مقادیر است که به یک موضوع خاص مربوط می‌شود. برای مثال، یک مجموعه داده، نمرات آزمون هر دانش‌آموز در یک کلاس خاص است. مجموعه داده‌ها می‌توانند به‌ صورت لیستی از اعداد صحیح به ترتیب تصادفی، جدول، یا با براکت های مجعد در اطراف آن‌ها نوشته شوند. مجموعه داده‌ها معمولاً برچسب‌گذاری می‌شوند تا شما بفهمید که داده‌ها چه چیزی را نشان می‌دهند، بااین‌حال، هنگامی‌که با مجموعه داده‌ها سروکار دارید، لزوماً نیازی نیست که بفهمید داده‌ها نشان‌دهنده چه چیزی هستند تا مشکل را حل کنید.

    انواع مجموعه داده‌ها

    در آمار، ما انواع مختلفی از مجموعه داده‌ها را برای انواع مختلف اطلاعات در دسترس داریم؛ که عبارت‌اند از:

    • مجموعه داده‌های عددی
    • مجموعه داده‌های دومتغیره
    • مجموعه داده‌های چندمتغیره
    • مجموعه داده‌های طبقه‌بندی‌شده
    • مجموعه داده‌های همبستگی

    اجازه دهید در مورد تمام این مجموعه داده‌ها با مثال بحث کنیم.

    مجموعه داده‌های عددی

    مجموعه داده‌های عددی یک مجموعه از داده‌هاست که در آن داده‌ها با اعداد بیان می‌شوند. داده‌های عددی گاهی داده‌های کمی نامیده می‌شوند. مجموعه تمام داده‌های کمی/داده‌های عددی را مجموعه داده‌های عددی می‌نامند. داده‌های عددی همیشه به شکل اعداد هستند، به‌طوری‌که می‌توانیم عملیات ریاضی را روی آن انجام دهیم.

    وزن و قد فرد
    شمارش RBC در یک گزارش پزشکی
    تعداد صفحات موجود در یک کتاب

    مجموعه داده‌های دو متغیره

    یک مجموعه داده که دو متغیر دارد، مجموعه داده دو متغیره نامیده می‌شود. مجموعه داده‌های دو متغیره معمولاً شامل دو نوع داده مرتبط است.

    مثال: یافتن درصد نمره و سن دانش آموزان در یک کلاس. امتیاز و سن را می‌توان به‌عنوان دو متغیر در نظر گرفت.

    فروش بستنی در مقابل دما در آن روز. در اینجا دو متغیر مورد استفاده بستنی و دما هستند.

    (توجه: درصورتی‌که تنها یک مجموعه داده داشته باشید مثلاً دما، آنگاه مجموعه داده تک متغیره نامیده می‌شود)

    مجموعه داده‌های چند متغیره

    یک مجموعه داده با چندین متغیر. هنگامی که مجموعه داده شامل سه یا بیش از سه نوع داده (متغیر) باشد، آنگاه مجموعه داده یک مجموعه داده چند متغیره نامیده می‌شود؛ به عبارت دیگر، مجموعه داده‌های چند متغیره شامل اندازه‌گیری‌های فردی است که به‌عنوان تابعی از سه یا بیش از سه متغیر به دست می‌آیند.

    مثال: اگر بخواهیم طول، عرض، ارتفاع، حجم یک جعبه مستطیلی را اندازه‌گیری کنیم، باید از متغیرهای متعددی برای تمایز بین آن موجودیت‌ها استفاده کنیم.

    مجموعه داده‌های طبقه‌بندی‌شده

    مجموعه داده‌های طبقه‌بندی‌شده نشان‌دهنده ویژگی‌های یک شخص یا یک شی است. مجموعه داده طبقه‌ای شامل یک متغیر طبقه‌بندی است که متغیر کیفی نیز نامیده می‌شود که می‌تواند دقیقاً دو مقدار داشته باشد. از این رو، آن را یک متغیر دوگانه می‌نامند. داده‌ها/متغیرهای دسته‌بندی با بیش از دو مقدار ممکن، متغیرهای چندجمله‌ای نامیده می‌شوند. متغیرهای کیفی/طبقه‌ای اغلب به‌عنوان متغیر چندجمله‌ای فرض می‌شوند، مگر اینکه طور دیگری مشخص‌شده باشد.

    مثال:

    جنسیت فرد (مرد یا زن)
    وضعیت ازدواج (متأهل / مجرد)

    مجموعه داده‌های همبستگی

    مجموعه مقادیری که رابطه‌ای را با یکدیگر نشان می‌دهند، مجموعه داده‌های همبستگی را نشان می‌دهند. در اینجا مشخص می‌شود که مقادیر به یکدیگر وابسته هستند.

    به‌طور کلی، همبستگی به عنوان یک رابطه آماری بین دو ماهیت / متغیر تعریف می‌شود. در برخی سناریوها، ممکن است مجبور شوید همبستگی بین چیزها را پیش‌بینی کنید. درک چگونگی کارکرد همبستگی ضروری است. همبستگی به سه نوع طبقه‌بندی می‌شود که عبارت‌اند از:

    - همبستگی مثبت - دو متغیر در یک جهت حرکت می‌کنند (هر دو بالا هستند یا هر دو یا پایین)

    - همبستگی منفی - دو متغیر در جهت مخالف حرکت می‌کنند. (یک متغیر بالا و متغیر دیگر پایین است و بالعکس)

    - همبستگی صفر یا صفر - هیچ رابطه‌ای بین دو متغیر وجود ندارد.

    مثال: یک فرد بلند قد سنگین‌تر از یک فرد کوتاه قد در نظر گرفته می‌شود؛ بنابراین در اینجا متغیرهای وزن و قد به یکدیگر وابسته هستند.

    میانگین، میانه، حالت و محدوده مجموعه داده‌ها

    میانگین، میانه و مد همراه با دامنه، موضوعات اصلی در آمار هستند؛ به عبارت دیگر، محاسبه میانگین، میانه و حالت مجموعه داده‌ها سه روش برای کار با آن‌ها هستند. با این حال، قبل از اینکه بتوانیم این سه معیار مجموعه داده را محاسبه کنیم، ابتدا باید مجموعه داده‌های خود را با بازنویسی آن‌ها به ترتیب صعودی از حداقل تا بیش‌ترین آماده کنیم.

    میانگین یک مجموعه داده میانگین تمام مشاهدات موجود در جدول است. این نسبت مجموع مشاهدات به تعداد کل عناصر موجود در مجموعه داده‌ها است. فرمول میانگین به‌صورت زیر است:

    میانگین= حجم مشاهدات / تعداد کل عناصر در مجموعه داده‌ها

    میانه یک مجموعه داده، مقدار میانه جمع‌آوری داده‌ها زمانی است که به ترتیب صعودی و نزولی مرتب‌شده باشند.

    مود یک مجموعه داده، متغیر یا عدد یا مقداری است که حداکثر چند بار در مجموعه تکرار می‌شود.

    محدوده یک مجموعه داده، تفاوت بین مقدار بیشینه و مقدار کمینه است.

    محدوده= حداکثر مقدار - حداقل مقدار

    ویژگی‌های مجموعه داده

    قبل از انجام هر تحلیل آماری, درک ماهیت داده‌ها ضروری است. ما می‌توانیم از تکنیک‌های مختلف تحلیل داده اکتشافی (EDA) استفاده کنیم که به شناسایی ویژگی‌های داده‌ها کمک می‌کند, به‌طوری‌که روش‌های آماری مناسب می‌توانند بر روی داده‌ها اعمال شوند. با کمک تکنیک های EDA می‌توانیم ویژگی‌های زیر را در مجموعه داده‌ها بررسی کنیم.

    - مرکز داده‌ها
    - Skewness of data
    - پخش در میان اعضای داده
    - حضور خارجی‌ها
    - همبستگی میان داده‌ها
    - نوع توزیع احتمال که داده‌ها از آن پیروی می‌کنند

    مثال مجموعه داده‌ها

    مثال ۱: میانگین، حالت، میانه و دامنه مجموعه داده‌های داده‌شده را پیدا کنید. { ۲، ۴، ۶، ۸، ۲، ۱۰، ۱۲}

    راه‌حل: با توجه به اینکه { ۲، ۴، ۶، ۸، ۲، ۱۰، ۱۲ } مجموعه‌ای از داده‌ها است.

    میانگین ۲+۴+۶+۸+۲+۱۰+۱۲/۷ = ۴۴/۷

    برای یافتن میانه ابتدا باید داده‌های داده شده را به ترتیب صعودی یا نزولی مرتب کنیم.

    بنابراین{ ۲، ۲، ۴، ۶، ۸، ۱۰، ۱۲ }

    بنابراین، میانه= ۶ مود= ۲ محدوده ۱۲-۲=۱۰

    مثال ۲: مود مجموعه داده‌های داده شده را پیدا کنید: ۲، ۳، ۳، ۴، ۶، ۷

    راه‌حل: مجموعه داده‌های داده شده: ۲، ۳، ۳، ۴، ۶، ۷

    می‌دانیم که مود مقدار تکرار شونده در مجموعه داده‌ها است.

    از مجموعه داده‌های داده شده، مشاهده می‌شود که داده "۳" دو بار تکرار می‌شود؛ بنابراین، مود برای مجموعه داده‌های داده شده ۳ است.

    سؤالات متداول در دیتابیس

    منظور از مجموعه داده چیست؟

    مجموعه یا مجموعه‌ای از داده‌ها و اطلاعات را مجموعه داده می‌نامند؛ به عبارت دیگر، مجموعه داده‌ها مجموعه مرتب اطلاعات و داده‌ها است.

    ویژگی‌های مختلف مورد استفاده برای اندازه‌گیری مجموعه داده‌ها چیست؟

    در آمار، ویژگی‌های مختلف مورد استفاده برای اندازه‌گیری مجموعه داده‌ها عبارت‌اند از میانگین، میانه، مود، دامنه و غیره.

    چگونه دامنه مجموعه داده‌های داده شده را محاسبه کنیم؟

    محدوده مجموعه داده‌های داده شده، تفاوت بین مقدار بیشینه و کمینه مجموعه داده‌ها است.

    انواع مختلف مجموعه داده‌ها چیست؟

    انواع مختلف مجموعه داده‌ها عبارت‌اند از:

    • مجموعه داده‌های عددی
    • مجموعه داده‌های دو متغیره
    • مجموعه داده‌های چند متغیره
    • مجموعه داده‌های طبقه‌بندی‌شده
    • مجموعه داده‌های همبستگی

    میانه مجموعه داده‌ها چیست؟

    میانه مقدار میانی مجموعه داده است که در آن داده‌ها به ترتیب صعودی مرتب می‌شوند.

    تفاوت بین داده، مجموعه داده و پایگاه داده چیست؟

    داده‌ها مشاهدات یا اندازه‌گیری‌هایی (پردازش نشده یا پردازش نشده) هستند که به صورت متن، اعداد یا چندرسانه‌ای نشان داده می‌شوند. یک مجموعه داده مجموعه‌ای ساختار یافته از داده‌ها است که به طور کلی با یک مجموعه کار منحصر به فرد در ارتباط است.

    پایگاه داده مجموعه‌ای سازمان یافته از داده‌های ذخیره شده به صورت مجموعه داده‌های چندگانه است. این مجموعه داده‌ها عموماً به صورت الکترونیکی از یک سیستم کامپیوتری ذخیره و در دسترس هستند که اجازه می‌دهد داده‌ها به‌راحتی قابل دسترسی، دستکاری و به روز رسانی باشند.

    این مقادیر ممکن است اعدادی مانند اعداد حقیقی یا اعداد صحیح باشند، برای مثال نشان‌دهنده قد یک شخص در سانتی‌متر باشند، اما ممکن است داده‌های اسمی نیز باشند (شامل مقادیر عددی نباشند)، برای مثال نشان‌دهنده قومیت یک شخص. به طور کلی، مقادیر ممکن است از هر یک از انواعی باشند که به عنوان سطحی از اندازه‌گیری توصیف می‌شوند. برای هر متغیر، مقادیر به طور معمول همگی از یک نوع هستند. با این حال، ممکن است مقادیر گم شده ای نیز وجود داشته باشد که باید به نحوی نشان داده شوند.

    در آمار، مجموعه داده‌ها معمولاً از مشاهدات واقعی به دست آمده از نمونه‌گیری یک جامعه آماری به دست می‌آیند و هر ردیف مربوط به مشاهدات یک عنصر از آن جامعه است. مجموعه داده‌ها ممکن است بیشتر توسط الگوریتم‌ها به منظور آزمایش انواع خاصی از نرم‌افزارها تولید شوند. برخی از نرم‌افزارهای تحلیل آماری مدرن مانند SPSS هنوز هم داده‌های خود را به شیوه مجموعه داده‌های کلاسیک ارائه می‌دهند. اگر داده‌ها گم شده یا مشکوک باشند، می‌توان از یک روش ایمن‌سازی برای تکمیل یک مجموعه داده استفاده کرد.

    چندین مجموعه داده کلاسیک به طور گسترده در منابع آماری مورد استفاده قرار گرفته‌اند:

    مجموعه داده‌های گل آیریس - مجموعه داده‌های چند متغیره معرفی‌شده توسط رونالد فیشر (۱۹۳۶).

    پایگاه داده MNIST - تصاویر ارقام دست‌نویس که معمولاً برای آزمایش الگوریتم‌های طبقه‌بندی، خوشه‌بندی و پردازش تصویر استفاده می‌شوند.

    تجزیه‌وتحلیل دسته‌ای داده‌ها - مجموعه داده‌های مورداستفاده در کتاب، مقدمه‌ای بر تجزیه‌وتحلیل دسته‌ای داده‌ها.

    آمار قوی - مجموعه داده‌های مورداستفاده در رگرسیون قوی و تشخیص دور از دسترس (روسسو و لروی، ۱۹۶۸). در دانشگاه کلن ارائه شد.

    سری‌های زمانی - داده‌های مورد استفاده در کتاب چاتفیلد، تجزیه و تحلیل سری‌های زمانی، به صورت آنلاین توسط StatLib ارائه می‌شوند.

    مقادیر افراطی - داده‌های مورد استفاده در این کتاب، مقدمه‌ای بر مدل‌سازی آماری مقادیر افراطی، تصویری از داده‌هایی است که توسط استوارت کولز، نویسنده کتاب، به‌صورت آنلاین ارائه شده است.

    تجزیه و تحلیل داده‌های بیزی - داده‌های مورد استفاده در این کتاب توسط اندرو گلمن، یکی از نویسندگان کتاب به صورت آنلاین ارائه شده است.

    داده‌های باگ بانتی در چندین مقاله در منابع یادگیری ماشین (داده کاوی) مورد استفاده قرار می‌گیرند.

    مجموعه داده‌های کوچک - کوارتت آنسکامب نشان‌دهنده اهمیت نمودار کردن داده‌ها برای جلوگیری از مغالطه‌های آماری است.

    درگاه‌های متعددی وجود دارند که به مجموعه داده‌ها دسترسی دارند:

    • داده‌کاوی در بریتانیا
    • داده‌کاوی در آمریکا
    • دنیای ما در داده‌ها
    • پنج و سی‌ وهشت
    • کار با داده‌ها