ستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعال
 

دیتاست چیست؟

دیتاست یک مجموعه داده یا مدیریت مجموعه‌ای از داده‌هاست. این مجموعه معمولاً در یک الگوی جدولی ارائه می‌شود. اجزای این جدول به صورت زیر می‌باشند:

  • ستون‌های جدول: هر ستون، یک متغیر خاص را توصیف می‌کند.
  • ردیف‌های جدول: هر ردیف، متناظر با یک عضو داده شده از مجموعه داده‌ها، طبق سؤال داده‌شده است.

تعریف‌های متفاوتی از دیتاست وجود دارد که ما تنها یک تعریف از آن را گفتیم. مجموعه داده‌ها، مقادیر هر متغیر را برای کمیت‌های ناشناخته مانند قد، وزن، دما، حجم و غیره یک اندازه‌گیری واقعی یا آزمایشگاهی توصیف می‌کنند.

هر جزء از مقادیر این مجموعه به‌عنوان یک دیتا یا داده شناخته می‌شوند. مجموعه داده‌ها شامل تمامی این دیتاها یا به عبارتی دیگر، شامل تمام ردیف‌های این جدول می‌باشند.

در ادامه، تعریف مجموعه داده‌ها، انواع مختلف مجموعه داده‌ها و ویژگی‌های آن‌ها را با مثال‌های حل‌شده بسیاری می‌آموزیم.

خلاصه مطالبی که در ادامه می‌خوانید به شرح زیر است:

معنا و مفهوم دیتاست
انواع دیتاست:

  • مجموعه داده‌های عددی
  • مجموعه داده‌های دومتغیره
  • مجموعه داده چند متغیره
  • مجموعه داده‌های طبقه‌بندی‌شده
  • مجموعه داده‌های همبستگی
  • میانگین، میانه، حالت و محدوده

میانگین، میانه، حالت و محدوده داده‌ها
ویژگی‌های دیتاست
مثال‌های کاربردی
سؤالات متداول
  

معنای دیتاست

دیتاست یک مجموعه مرتب از داده‌ها است. همان‌طور که می‌دانیم، مجموعه‌ای از اطلاعات به‌دست‌آمده از طریق مشاهدات، اندازه‌گیری‌ها، مطالعه یا تحلیل، داده نامیده می‌شود. این اطلاعات می‌تواند شامل اطلاعاتی مانند حقایق، اعداد، ارقام، نام‌ها یا حتی توصیفات پایه‌ای اشیا باشد. برای مطالعه ما، داده‌ها می‌توانند به شکل نمودار، نمودار یا جدول سازمان‌دهی شوند. دانشمندان از طریق داده‌کاوی به تجزیه‌وتحلیل داده‌های جمع‌آوری‌شده کمک می‌کنند.

یک مجموعه داده مجموعه‌ای از اعداد یا مقادیر است که به یک موضوع خاص مربوط می‌شود. برای مثال، یک مجموعه داده، نمرات آزمون هر دانش‌آموز در یک کلاس خاص است. مجموعه داده‌ها می‌توانند به‌ صورت لیستی از اعداد صحیح به ترتیب تصادفی، جدول، یا با براکت های مجعد در اطراف آن‌ها نوشته شوند. مجموعه داده‌ها معمولاً برچسب‌گذاری می‌شوند تا شما بفهمید که داده‌ها چه چیزی را نشان می‌دهند، بااین‌حال، هنگامی‌که با مجموعه داده‌ها سروکار دارید، لزوماً نیازی نیست که بفهمید داده‌ها نشان‌دهنده چه چیزی هستند تا مشکل را حل کنید.

انواع مجموعه داده‌ها

در آمار، ما انواع مختلفی از مجموعه داده‌ها را برای انواع مختلف اطلاعات در دسترس داریم؛ که عبارت‌اند از:

  • مجموعه داده‌های عددی
  • مجموعه داده‌های دومتغیره
  • مجموعه داده‌های چندمتغیره
  • مجموعه داده‌های طبقه‌بندی‌شده
  • مجموعه داده‌های همبستگی

اجازه دهید در مورد تمام این مجموعه داده‌ها با مثال بحث کنیم.

مجموعه داده‌های عددی

مجموعه داده‌های عددی یک مجموعه از داده‌هاست که در آن داده‌ها با اعداد بیان می‌شوند. داده‌های عددی گاهی داده‌های کمی نامیده می‌شوند. مجموعه تمام داده‌های کمی/داده‌های عددی را مجموعه داده‌های عددی می‌نامند. داده‌های عددی همیشه به شکل اعداد هستند، به‌طوری‌که می‌توانیم عملیات ریاضی را روی آن انجام دهیم.

وزن و قد فرد
شمارش RBC در یک گزارش پزشکی
تعداد صفحات موجود در یک کتاب

مجموعه داده‌های دو متغیره

یک مجموعه داده که دو متغیر دارد، مجموعه داده دو متغیره نامیده می‌شود. مجموعه داده‌های دو متغیره معمولاً شامل دو نوع داده مرتبط است.

مثال: یافتن درصد نمره و سن دانش آموزان در یک کلاس. امتیاز و سن را می‌توان به‌عنوان دو متغیر در نظر گرفت.

فروش بستنی در مقابل دما در آن روز. در اینجا دو متغیر مورد استفاده بستنی و دما هستند.

(توجه: درصورتی‌که تنها یک مجموعه داده داشته باشید مثلاً دما، آنگاه مجموعه داده تک متغیره نامیده می‌شود)

مجموعه داده‌های چند متغیره

یک مجموعه داده با چندین متغیر. هنگامی که مجموعه داده شامل سه یا بیش از سه نوع داده (متغیر) باشد، آنگاه مجموعه داده یک مجموعه داده چند متغیره نامیده می‌شود؛ به عبارت دیگر، مجموعه داده‌های چند متغیره شامل اندازه‌گیری‌های فردی است که به‌عنوان تابعی از سه یا بیش از سه متغیر به دست می‌آیند.

مثال: اگر بخواهیم طول، عرض، ارتفاع، حجم یک جعبه مستطیلی را اندازه‌گیری کنیم، باید از متغیرهای متعددی برای تمایز بین آن موجودیت‌ها استفاده کنیم.

مجموعه داده‌های طبقه‌بندی‌شده

مجموعه داده‌های طبقه‌بندی‌شده نشان‌دهنده ویژگی‌های یک شخص یا یک شی است. مجموعه داده طبقه‌ای شامل یک متغیر طبقه‌بندی است که متغیر کیفی نیز نامیده می‌شود که می‌تواند دقیقاً دو مقدار داشته باشد. از این رو، آن را یک متغیر دوگانه می‌نامند. داده‌ها/متغیرهای دسته‌بندی با بیش از دو مقدار ممکن، متغیرهای چندجمله‌ای نامیده می‌شوند. متغیرهای کیفی/طبقه‌ای اغلب به‌عنوان متغیر چندجمله‌ای فرض می‌شوند، مگر اینکه طور دیگری مشخص‌شده باشد.

مثال:

جنسیت فرد (مرد یا زن)
وضعیت ازدواج (متأهل / مجرد)

مجموعه داده‌های همبستگی

مجموعه مقادیری که رابطه‌ای را با یکدیگر نشان می‌دهند، مجموعه داده‌های همبستگی را نشان می‌دهند. در اینجا مشخص می‌شود که مقادیر به یکدیگر وابسته هستند.

به‌طور کلی، همبستگی به عنوان یک رابطه آماری بین دو ماهیت / متغیر تعریف می‌شود. در برخی سناریوها، ممکن است مجبور شوید همبستگی بین چیزها را پیش‌بینی کنید. درک چگونگی کارکرد همبستگی ضروری است. همبستگی به سه نوع طبقه‌بندی می‌شود که عبارت‌اند از:

- همبستگی مثبت - دو متغیر در یک جهت حرکت می‌کنند (هر دو بالا هستند یا هر دو یا پایین)

- همبستگی منفی - دو متغیر در جهت مخالف حرکت می‌کنند. (یک متغیر بالا و متغیر دیگر پایین است و بالعکس)

- همبستگی صفر یا صفر - هیچ رابطه‌ای بین دو متغیر وجود ندارد.

مثال: یک فرد بلند قد سنگین‌تر از یک فرد کوتاه قد در نظر گرفته می‌شود؛ بنابراین در اینجا متغیرهای وزن و قد به یکدیگر وابسته هستند.

میانگین، میانه، حالت و محدوده مجموعه داده‌ها

میانگین، میانه و مد همراه با دامنه، موضوعات اصلی در آمار هستند؛ به عبارت دیگر، محاسبه میانگین، میانه و حالت مجموعه داده‌ها سه روش برای کار با آن‌ها هستند. با این حال، قبل از اینکه بتوانیم این سه معیار مجموعه داده را محاسبه کنیم، ابتدا باید مجموعه داده‌های خود را با بازنویسی آن‌ها به ترتیب صعودی از حداقل تا بیش‌ترین آماده کنیم.

میانگین یک مجموعه داده میانگین تمام مشاهدات موجود در جدول است. این نسبت مجموع مشاهدات به تعداد کل عناصر موجود در مجموعه داده‌ها است. فرمول میانگین به‌صورت زیر است:

میانگین= حجم مشاهدات / تعداد کل عناصر در مجموعه داده‌ها

میانه یک مجموعه داده، مقدار میانه جمع‌آوری داده‌ها زمانی است که به ترتیب صعودی و نزولی مرتب‌شده باشند.

مود یک مجموعه داده، متغیر یا عدد یا مقداری است که حداکثر چند بار در مجموعه تکرار می‌شود.

محدوده یک مجموعه داده، تفاوت بین مقدار بیشینه و مقدار کمینه است.

محدوده= حداکثر مقدار - حداقل مقدار

ویژگی‌های مجموعه داده

قبل از انجام هر تحلیل آماری, درک ماهیت داده‌ها ضروری است. ما می‌توانیم از تکنیک‌های مختلف تحلیل داده اکتشافی (EDA) استفاده کنیم که به شناسایی ویژگی‌های داده‌ها کمک می‌کند, به‌طوری‌که روش‌های آماری مناسب می‌توانند بر روی داده‌ها اعمال شوند. با کمک تکنیک های EDA می‌توانیم ویژگی‌های زیر را در مجموعه داده‌ها بررسی کنیم.

- مرکز داده‌ها
- Skewness of data
- پخش در میان اعضای داده
- حضور خارجی‌ها
- همبستگی میان داده‌ها
- نوع توزیع احتمال که داده‌ها از آن پیروی می‌کنند

مثال مجموعه داده‌ها

مثال ۱: میانگین، حالت، میانه و دامنه مجموعه داده‌های داده‌شده را پیدا کنید. { ۲، ۴، ۶، ۸، ۲، ۱۰، ۱۲}

راه‌حل: با توجه به اینکه { ۲، ۴، ۶، ۸، ۲، ۱۰، ۱۲ } مجموعه‌ای از داده‌ها است.

میانگین ۲+۴+۶+۸+۲+۱۰+۱۲/۷ = ۴۴/۷

برای یافتن میانه ابتدا باید داده‌های داده شده را به ترتیب صعودی یا نزولی مرتب کنیم.

بنابراین{ ۲، ۲، ۴، ۶، ۸، ۱۰، ۱۲ }

بنابراین، میانه= ۶ مود= ۲ محدوده ۱۲-۲=۱۰

مثال ۲: مود مجموعه داده‌های داده شده را پیدا کنید: ۲، ۳، ۳، ۴، ۶، ۷

راه‌حل: مجموعه داده‌های داده شده: ۲، ۳، ۳، ۴، ۶، ۷

می‌دانیم که مود مقدار تکرار شونده در مجموعه داده‌ها است.

از مجموعه داده‌های داده شده، مشاهده می‌شود که داده "۳" دو بار تکرار می‌شود؛ بنابراین، مود برای مجموعه داده‌های داده شده ۳ است.

سؤالات متداول در دیتابیس

منظور از مجموعه داده چیست؟

مجموعه یا مجموعه‌ای از داده‌ها و اطلاعات را مجموعه داده می‌نامند؛ به عبارت دیگر، مجموعه داده‌ها مجموعه مرتب اطلاعات و داده‌ها است.

ویژگی‌های مختلف مورد استفاده برای اندازه‌گیری مجموعه داده‌ها چیست؟

در آمار، ویژگی‌های مختلف مورد استفاده برای اندازه‌گیری مجموعه داده‌ها عبارت‌اند از میانگین، میانه، مود، دامنه و غیره.

چگونه دامنه مجموعه داده‌های داده شده را محاسبه کنیم؟

محدوده مجموعه داده‌های داده شده، تفاوت بین مقدار بیشینه و کمینه مجموعه داده‌ها است.

انواع مختلف مجموعه داده‌ها چیست؟

انواع مختلف مجموعه داده‌ها عبارت‌اند از:

  • مجموعه داده‌های عددی
  • مجموعه داده‌های دو متغیره
  • مجموعه داده‌های چند متغیره
  • مجموعه داده‌های طبقه‌بندی‌شده
  • مجموعه داده‌های همبستگی

میانه مجموعه داده‌ها چیست؟

میانه مقدار میانی مجموعه داده است که در آن داده‌ها به ترتیب صعودی مرتب می‌شوند.

تفاوت بین داده، مجموعه داده و پایگاه داده چیست؟

داده‌ها مشاهدات یا اندازه‌گیری‌هایی (پردازش نشده یا پردازش نشده) هستند که به صورت متن، اعداد یا چندرسانه‌ای نشان داده می‌شوند. یک مجموعه داده مجموعه‌ای ساختار یافته از داده‌ها است که به طور کلی با یک مجموعه کار منحصر به فرد در ارتباط است.

پایگاه داده مجموعه‌ای سازمان یافته از داده‌های ذخیره شده به صورت مجموعه داده‌های چندگانه است. این مجموعه داده‌ها عموماً به صورت الکترونیکی از یک سیستم کامپیوتری ذخیره و در دسترس هستند که اجازه می‌دهد داده‌ها به‌راحتی قابل دسترسی، دستکاری و به روز رسانی باشند.

این مقادیر ممکن است اعدادی مانند اعداد حقیقی یا اعداد صحیح باشند، برای مثال نشان‌دهنده قد یک شخص در سانتی‌متر باشند، اما ممکن است داده‌های اسمی نیز باشند (شامل مقادیر عددی نباشند)، برای مثال نشان‌دهنده قومیت یک شخص. به طور کلی، مقادیر ممکن است از هر یک از انواعی باشند که به عنوان سطحی از اندازه‌گیری توصیف می‌شوند. برای هر متغیر، مقادیر به طور معمول همگی از یک نوع هستند. با این حال، ممکن است مقادیر گم شده ای نیز وجود داشته باشد که باید به نحوی نشان داده شوند.

در آمار، مجموعه داده‌ها معمولاً از مشاهدات واقعی به دست آمده از نمونه‌گیری یک جامعه آماری به دست می‌آیند و هر ردیف مربوط به مشاهدات یک عنصر از آن جامعه است. مجموعه داده‌ها ممکن است بیشتر توسط الگوریتم‌ها به منظور آزمایش انواع خاصی از نرم‌افزارها تولید شوند. برخی از نرم‌افزارهای تحلیل آماری مدرن مانند SPSS هنوز هم داده‌های خود را به شیوه مجموعه داده‌های کلاسیک ارائه می‌دهند. اگر داده‌ها گم شده یا مشکوک باشند، می‌توان از یک روش ایمن‌سازی برای تکمیل یک مجموعه داده استفاده کرد.

چندین مجموعه داده کلاسیک به طور گسترده در منابع آماری مورد استفاده قرار گرفته‌اند:

مجموعه داده‌های گل آیریس - مجموعه داده‌های چند متغیره معرفی‌شده توسط رونالد فیشر (۱۹۳۶).

پایگاه داده MNIST - تصاویر ارقام دست‌نویس که معمولاً برای آزمایش الگوریتم‌های طبقه‌بندی، خوشه‌بندی و پردازش تصویر استفاده می‌شوند.

تجزیه‌وتحلیل دسته‌ای داده‌ها - مجموعه داده‌های مورداستفاده در کتاب، مقدمه‌ای بر تجزیه‌وتحلیل دسته‌ای داده‌ها.

آمار قوی - مجموعه داده‌های مورداستفاده در رگرسیون قوی و تشخیص دور از دسترس (روسسو و لروی، ۱۹۶۸). در دانشگاه کلن ارائه شد.

سری‌های زمانی - داده‌های مورد استفاده در کتاب چاتفیلد، تجزیه و تحلیل سری‌های زمانی، به صورت آنلاین توسط StatLib ارائه می‌شوند.

مقادیر افراطی - داده‌های مورد استفاده در این کتاب، مقدمه‌ای بر مدل‌سازی آماری مقادیر افراطی، تصویری از داده‌هایی است که توسط استوارت کولز، نویسنده کتاب، به‌صورت آنلاین ارائه شده است.

تجزیه و تحلیل داده‌های بیزی - داده‌های مورد استفاده در این کتاب توسط اندرو گلمن، یکی از نویسندگان کتاب به صورت آنلاین ارائه شده است.

داده‌های باگ بانتی در چندین مقاله در منابع یادگیری ماشین (داده کاوی) مورد استفاده قرار می‌گیرند.

مجموعه داده‌های کوچک - کوارتت آنسکامب نشان‌دهنده اهمیت نمودار کردن داده‌ها برای جلوگیری از مغالطه‌های آماری است.

درگاه‌های متعددی وجود دارند که به مجموعه داده‌ها دسترسی دارند:

  • داده‌کاوی در بریتانیا
  • داده‌کاوی در آمریکا
  • دنیای ما در داده‌ها
  • پنج و سی‌ وهشت
  • کار با داده‌ها