خلاصه مطالبی که در ادامه میخوانید به شرح زیر است:
معنا و مفهوم دیتاست
انواع دیتاست:
- مجموعه دادههای عددی
- مجموعه دادههای دومتغیره
- مجموعه داده چند متغیره
- مجموعه دادههای طبقهبندیشده
- مجموعه دادههای همبستگی
- میانگین، میانه، حالت و محدوده
- میانگین، میانه، حالت و محدوده دادهها
- ویژگیهای دیتاست
- مثالهای کاربردی
- سؤالات متداول
معنای دیتاست
دیتاست یک مجموعه مرتب از دادهها است. همانطور که میدانیم، مجموعهای از اطلاعات بهدستآمده از طریق مشاهدات، اندازهگیریها، مطالعه یا تحلیل، داده نامیده میشود. این اطلاعات میتواند شامل اطلاعاتی مانند حقایق، اعداد، ارقام، نامها یا حتی توصیفات پایهای اشیا باشد. برای مطالعه ما، دادهها میتوانند به شکل نمودار، نمودار یا جدول سازماندهی شوند. دانشمندان از طریق دادهکاوی به تجزیهوتحلیل دادههای جمعآوریشده کمک میکنند.
یک مجموعه داده مجموعهای از اعداد یا مقادیر است که به یک موضوع خاص مربوط میشود. برای مثال، یک مجموعه داده، نمرات آزمون هر دانشآموز در یک کلاس خاص است. مجموعه دادهها میتوانند بهصورت لیستی از اعداد صحیح به ترتیب تصادفی، جدول، یا با براکت های مجعد در اطراف آنها نوشته شوند. مجموعه دادهها معمولاً برچسبگذاری میشوند تا شما بفهمید که دادهها چه چیزی را نشان میدهند، بااینحال، هنگامیکه با مجموعه دادهها سروکار دارید، لزوماً نیازی نیست که بفهمید دادهها نشاندهنده چه چیزی هستند تا مشکل را حل کنید.
انواع مجموعه دادهها
در آمار، ما انواع مختلفی از مجموعه دادهها را برای انواع مختلف اطلاعات در دسترس داریم؛ که عبارتاند از:
- مجموعه دادههای عددی
- مجموعه دادههای دومتغیره
- مجموعه دادههای چندمتغیره
- مجموعه دادههای طبقهبندیشده
- مجموعه دادههای همبستگی
اجازه دهید در مورد تمام این مجموعه دادهها با مثال بحث کنیم.
مجموعه دادههای عددی
مجموعه دادههای عددی یک مجموعه از دادههاست که در آن دادهها با اعداد بیان میشوند. دادههای عددی گاهی دادههای کمی نامیده میشوند. مجموعه تمام دادههای کمی/دادههای عددی را مجموعه دادههای عددی مینامند. دادههای عددی همیشه به شکل اعداد هستند، بهطوریکه میتوانیم عملیات ریاضی را روی آن انجام دهیم.
وزن و قد فرد
شمارش RBC در یک گزارش پزشکی
تعداد صفحات موجود در یک کتاب
مجموعه دادههای دو متغیره
یک مجموعه داده که دو متغیر دارد، مجموعه داده دو متغیره نامیده میشود. مجموعه دادههای دو متغیره معمولاً شامل دو نوع داده مرتبط است.
مثال: یافتن درصد نمره و سن دانش آموزان در یک کلاس. امتیاز و سن را میتوان بهعنوان دو متغیر در نظر گرفت.
فروش بستنی در مقابل دما در آن روز. در اینجا دو متغیر مورد استفاده بستنی و دما هستند.
(توجه: درصورتیکه تنها یک مجموعه داده داشته باشید مثلاً دما، آنگاه مجموعه داده تک متغیره نامیده میشود)
مجموعه دادههای چند متغیره
یک مجموعه داده با چندین متغیر. هنگامی که مجموعه داده شامل سه یا بیش از سه نوع داده (متغیر) باشد، آنگاه مجموعه داده یک مجموعه داده چند متغیره نامیده میشود؛ به عبارت دیگر، مجموعه دادههای چند متغیره شامل اندازهگیریهای فردی است که بهعنوان تابعی از سه یا بیش از سه متغیر به دست میآیند.
مثال: اگر بخواهیم طول، عرض، ارتفاع، حجم یک جعبه مستطیلی را اندازهگیری کنیم، باید از متغیرهای متعددی برای تمایز بین آن موجودیتها استفاده کنیم.
مجموعه دادههای طبقهبندیشده
مجموعه دادههای طبقهبندیشده نشاندهنده ویژگیها یا ویژگیهای یک شخص یا یک شی است. مجموعه داده طبقهای شامل یک متغیر طبقهبندی است که متغیر کیفی نیز نامیده میشود که میتواند دقیقاً دو مقدار داشته باشد. از این رو، آن را یک متغیر دوگانه مینامند. دادهها/متغیرهای دستهبندی با بیش از دو مقدار ممکن، متغیرهای چندجملهای نامیده میشوند. متغیرهای کیفی/طبقهای اغلب بهعنوان متغیر چندجملهای فرض میشوند، مگر اینکه طور دیگری مشخصشده باشد.
مثال:
جنسیت فرد (مرد یا زن)
وضعیت ازدواج (متأهل / مجرد)
مجموعه دادههای همبستگی
مجموعه مقادیری که رابطهای را با یکدیگر نشان میدهند، مجموعه دادههای همبستگی را نشان میدهند. در اینجا مشخص میشود که مقادیر به یکدیگر وابسته هستند.
بهطور کلی، همبستگی به عنوان یک رابطه آماری بین دو ماهیت / متغیر تعریف میشود. در برخی سناریوها، ممکن است مجبور شوید همبستگی بین چیزها را پیشبینی کنید. درک چگونگی کارکرد همبستگی ضروری است. همبستگی به سه نوع طبقهبندی میشود که عبارتاند از:
- همبستگی مثبت - دو متغیر در یک جهت حرکت میکنند (هر دو بالا هستند یا هر دو یا پایین)
- همبستگی منفی - دو متغیر در جهت مخالف حرکت میکنند. (یک متغیر بالا و متغیر دیگر پایین است و بالعکس)
- همبستگی صفر یا صفر - هیچ رابطهای بین دو متغیر وجود ندارد.
مثال: یک فرد بلند قد سنگینتر از یک فرد کوتاه قد در نظر گرفته میشود؛ بنابراین در اینجا متغیرهای وزن و قد به یکدیگر وابسته هستند.
میانگین، میانه، حالت و محدوده مجموعه دادهها
میانگین، میانه و مد همراه با دامنه، موضوعات اصلی در آمار هستند؛ به عبارت دیگر، محاسبه میانگین، میانه و حالت مجموعه دادهها سه روش برای کار با آنها هستند. با این حال، قبل از اینکه بتوانیم این سه معیار مجموعه داده را محاسبه کنیم، ابتدا باید مجموعه دادههای خود را با بازنویسی آنها به ترتیب صعودی از حداقل تا بیشترین آماده کنیم.
میانگین یک مجموعه داده میانگین تمام مشاهدات موجود در جدول است. این نسبت مجموع مشاهدات به تعداد کل عناصر موجود در مجموعه دادهها است. فرمول میانگین بهصورت زیر است:
میانگین= حجم مشاهدات / تعداد کل عناصر در مجموعه دادهها
میانه یک مجموعه داده، مقدار میانه جمعآوری دادهها زمانی است که به ترتیب صعودی و نزولی مرتبشده باشند.
مود یک مجموعه داده، متغیر یا عدد یا مقداری است که حداکثر چند بار در مجموعه تکرار میشود.
محدوده یک مجموعه داده، تفاوت بین مقدار بیشینه و مقدار کمینه است.
محدوده= حداکثر مقدار - حداقل مقدار
ویژگیهای مجموعه داده
قبل از انجام هر تحلیل آماری, درک ماهیت دادهها ضروری است. ما میتوانیم از تکنیکهای مختلف تحلیل داده اکتشافی (EDA) استفاده کنیم که به شناسایی ویژگیهای دادهها کمک میکند, بهطوریکه روشهای آماری مناسب میتوانند بر روی دادهها اعمال شوند. با کمک تکنیک های EDA میتوانیم ویژگیهای زیر را در مجموعه دادهها بررسی کنیم.
- مرکز دادهها
- Skewness of data
- پخش در میان اعضای داده
- حضور خارجیها
- همبستگی میان دادهها
- نوع توزیع احتمال که دادهها از آن پیروی میکنند
مثال مجموعه دادهها
مثال ۱: میانگین، حالت، میانه و دامنه مجموعه دادههای دادهشده را پیدا کنید. { ۲، ۴، ۶، ۸، ۲، ۱۰، 12}
راهحل: با توجه به اینکه { ۲، ۴، ۶، ۸، ۲، ۱۰، ۱۲ } مجموعهای از دادهها است.
میانگین 2+4+6+8+2+10+12/7 = 44/7
برای یافتن میانه ابتدا باید دادههای داده شده را به ترتیب صعودی یا نزولی مرتب کنیم.
بنابراین{ ۲، ۲، ۴، ۶، ۸، ۱۰، ۱۲ }
بنابراین، میانه= ۶ مود= ۲ محدوده 12-2=10
مثال ۲: مود مجموعه دادههای داده شده را پیدا کنید: ۲، ۳، ۳، ۴، ۶، ۷
راهحل: مجموعه دادههای داده شده: ۲، ۳، ۳، ۴، ۶، ۷
میدانیم که مود مقدار تکرار شونده در مجموعه دادهها است.
از مجموعه دادههای داده شده، مشاهده میشود که داده "۳" دو بار تکرار میشود؛ بنابراین، مود برای مجموعه دادههای داده شده ۳ است.
سؤالات متداول در دیتابیس
منظور از مجموعه داده چیست؟
مجموعه یا مجموعهای از دادهها و اطلاعات را مجموعه داده مینامند؛ به عبارت دیگر، مجموعه دادهها مجموعه مرتب اطلاعات و دادهها است.
ویژگیهای مختلف مورد استفاده برای اندازهگیری مجموعه دادهها چیست؟
در آمار، ویژگیهای مختلف مورد استفاده برای اندازهگیری مجموعه دادهها عبارتاند از میانگین، میانه، مود، دامنه و غیره.
چگونه دامنه مجموعه دادههای داده شده را محاسبه کنیم؟
محدوده مجموعه دادههای داده شده، تفاوت بین مقدار بیشینه و کمینه مجموعه دادهها است.
انواع مختلف مجموعه دادهها چیست؟
انواع مختلف مجموعه دادهها عبارتاند از:
- مجموعه دادههای عددی
- مجموعه دادههای دو متغیره
- مجموعه دادههای چند متغیره
- مجموعه دادههای طبقهبندیشده
- مجموعه دادههای همبستگی
- میانه مجموعه دادهها چیست؟
میانه مقدار میانی مجموعه داده است که در آن دادهها به ترتیب صعودی مرتب میشوند.
تفاوت بین داده، مجموعه داده و پایگاه داده چیست؟
دادهها مشاهدات یا اندازهگیریهایی (پردازش نشده یا پردازش نشده) هستند که به صورت متن، اعداد یا چندرسانهای نشان داده میشوند. یک مجموعه داده مجموعهای ساختار یافته از دادهها است که به طور کلی با یک مجموعه کار منحصر به فرد در ارتباط است.
پایگاه داده مجموعهای سازمان یافته از دادههای ذخیره شده به صورت مجموعه دادههای چندگانه است. این مجموعه دادهها عموماً به صورت الکترونیکی از یک سیستم کامپیوتری ذخیره و در دسترس هستند که اجازه میدهد دادهها بهراحتی قابل دسترسی، دستکاری و به روز رسانی باشند.
این مقادیر ممکن است اعدادی مانند اعداد حقیقی یا اعداد صحیح باشند، برای مثال نشاندهنده قد یک شخص در سانتیمتر باشند، اما ممکن است دادههای اسمی نیز باشند (شامل مقادیر عددی نباشند)، برای مثال نشاندهنده قومیت یک شخص. به طور کلی، مقادیر ممکن است از هر یک از انواعی باشند که به عنوان سطحی از اندازهگیری توصیف میشوند. برای هر متغیر، مقادیر به طور معمول همگی از یک نوع هستند. با این حال، ممکن است مقادیر گم شده ای نیز وجود داشته باشد که باید به نحوی نشان داده شوند.
در آمار، مجموعه دادهها معمولاً از مشاهدات واقعی به دست آمده از نمونهگیری یک جامعه آماری به دست میآیند و هر ردیف مربوط به مشاهدات یک عنصر از آن جامعه است. مجموعه دادهها ممکن است بیشتر توسط الگوریتمها به منظور آزمایش انواع خاصی از نرمافزارها تولید شوند. برخی از نرمافزارهای تحلیل آماری مدرن مانند SPSS هنوز هم دادههای خود را به شیوه مجموعه دادههای کلاسیک ارائه میدهند. اگر دادهها گم شده یا مشکوک باشند، میتوان از یک روش ایمنسازی برای تکمیل یک مجموعه داده استفاده کرد.
چندین مجموعه داده کلاسیک به طور گسترده در منابع آماری مورد استفاده قرار گرفتهاند:
مجموعه دادههای گل آیریس - مجموعه دادههای چند متغیره معرفیشده توسط رونالد فیشر (۱۹۳۶).
پایگاه داده MNIST - تصاویر ارقام دستنویس که معمولاً برای آزمایش الگوریتمهای طبقهبندی، خوشهبندی و پردازش تصویر استفاده میشوند.
تجزیهوتحلیل دستهای دادهها - مجموعه دادههای مورداستفاده در کتاب، مقدمهای بر تجزیهوتحلیل دستهای دادهها.
آمار قوی - مجموعه دادههای مورداستفاده در رگرسیون قوی و تشخیص دور از دسترس (روسسو و لروی، ۱۹۶۸). در دانشگاه کلن ارائه شد.
سریهای زمانی - دادههای مورد استفاده در کتاب چاتفیلد، تجزیه و تحلیل سریهای زمانی، به صورت آنلاین توسط StatLib ارائه میشوند.
مقادیر افراطی - دادههای مورد استفاده در این کتاب، مقدمهای بر مدلسازی آماری مقادیر افراطی، تصویری از دادههایی است که توسط استوارت کولز، نویسنده کتاب، بهصورت آنلاین ارائه شده است.
تجزیه و تحلیل دادههای بیزی - دادههای مورد استفاده در این کتاب توسط اندرو گلمن، یکی از نویسندگان کتاب به صورت آنلاین ارائه شده است.
دادههای باگ بانتی در چندین مقاله در منابع یادگیری ماشین (داده کاوی) مورد استفاده قرار میگیرند.
مجموعه دادههای کوچک - کوارتت آنسکامب نشاندهنده اهمیت نمودار کردن دادهها برای جلوگیری از مغالطههای آماری است.
درگاههای متعددی وجود دارند که به مجموعه دادهها دسترسی دارند:
- دادهکاوی در بریتانیا
- دادهکاوی در آمریکا
- دنیای ما در دادهها
- پنج و سی وهشت
- کار با دادهها