متغیرها می توانند کمی یا طبقه بندی شوند. متغیرهای کمی مقدار یا شمارش هستند. به عنوان مثال ، سن ، تعداد کودکان و درآمد همه متغیرهای کمی هستند. متغیرهای طبقه بندی شده گروهی را نشان می دهند. به عنوان مثال ، نوع حیوان خانگی ، رتبه بندی توافق نامه و مارک کفش همه متغیرهای طبقه بندی شده است.

متغیرهای کمی
متغیرهای کمی از نظر ماهیت عددی هستند و می توانند مداوم یا گسسته باشند. متغیرهای مداوم حاوی اندازه گیری هایی با دقت اعشاری هستند ، به عنوان مثال قد یا وزن یک شخص. متغیرهای گسسته حاوی شماری هستند که باید ارزش کامل عدد صحیح مانند تعداد اعضای خانواده یک شخص یا تعداد اهدافی که یک تیم بسکتبال در یک بازی به ثمر رساند ، باشد.

متغیرهای طبقه بندی
متغیرهای طبقه بندی شده از داده هایی تشکیل شده است که می توانند در دسته های مجزا قرار بگیرند و نظم یا اسمی هستند. متغیرهای طبقه بندی منظم که گروه هایی هستند که دارای رتبه بندی ذاتی هستند ، مانند رتبه بندی نمایشنامه ها یا پاسخ به یک سؤال نظرسنجی با مقیاس نقطه به عنوان مثال ، در مقیاس 1-7 ، اکنون چقدر خوشحال هستید؟متغیرهای طبقه بندی اسمی از دسته ها بدون نظم ذاتی ساخته شده اند ، نمونه هایی از متغیرهای اسمی گونه های مورچه ها یا رنگ مو افراد هستند.

ترتیب در مقابلمتغیرهای گسسته
یک تمایز اساسی بین متغیرهای طبقه بندی نظم و متغیرهای کمی گسسته این است که در متغیرهای کمی گسسته یک درجه یکنواخت از تفاوت وجود دارد. تفاوت بین یک و دو بچه گربه همان تفاوت بین پنج و شش بچه گربه است. با این حال ، با متغیرهای طبقه بندی نظم ، تفاوت بین دسته ها می تواند بسیار متفاوت باشد. تفاوت بین رتبه یک ستاره و یک امتیاز دو ستاره به عنوان مثال می تواند متفاوت از رتبه سه ستاره و یک امتیاز چهار ستاره باشد.
متغیرهای طبقه بندی باینری
متغیرهای طبقه بندی شده همچنین می توانند متغیرهای باینری یا دوگانگی باشند. متغیرهای باینری متغیرهای طبقه بندی اسمی هستند که فقط شامل دو دسته متقابل منحصر به فرد هستند. نمونه هایی از متغیرهای باینری در صورت بارداری فرد است ، یا اینکه قیمت خانه بالاتر یا پایین تر از قیمت خاص است.
بازرسی از انواع متغیر
یکی از مهمترین مراحل اول هنگام کار با مجموعه داده ، بازرسی از انواع متغیر و شناسایی متغیرهای مربوطه است. یک روش کارآمد برای استفاده در هنگام بازرسی از متغیرها ، روش . head () است که اولین ردیف های یک مجموعه داده را برمی گرداند.
چاپ(df.سر())
تطبیق انواع متغیر و انواع داده ها
اطمینان از بیان متغیرهای موجود در مجموعه داده های شما با نوع داده مناسب به شما در مدیریت موثر داده های خود کمک می کند و به شما امکان می دهد هرگونه عملیات لازم را در متغیرهای خود انجام دهید. هنگام استفاده از پایتون ، انواع داده های Pandas Dataframes را می توان با دسترسی به . dtypes بازرسی کرد. معمولاً ، متغیرهای کمی مداوم به عنوان شناورها ، متغیرهای کمی گسسته به عنوان عدد صحیح ، متغیرهای باینری به عنوان بولی ، متغیرهای طبقه بندی اسمی به عنوان رشته ها و متغیرهای طبقه بندی منظم به عنوان عدد صحیح یا رشته ها نشان داده می شوند.
چاپ(df.dtypes)
ذخیره دسته های ترتیب
غالباً برای ذخیره متغیرهای طبقه بندی منظم به عنوان رشته و عدد صحیح مفید است. به عنوان مثال ، فرض کنید یک پاسخ به نام متغیر وجود دارد که حاوی پاسخ به سؤال "توافق شما با بیانیه است: ثروتمندان باید مالیات های بالاتری بپردازند" ، جایی که گزینه های پاسخ "به شدت مخالف" ، "مخالف" ، "خنثی" هستند ،"موافق" و "کاملاً موافق". سپس برای انجام محاسبات آینده ، ممکن است بخواهیم آن دسته از مقادیر را به عنوان مقادیر عددی مانند 0 ، 1 ، 2 ، 3 و 4 ذخیره کنیم.
نوع داده دسته Pandas
هنگام کار با متغیرهای طبقه بندی شده در پایتون ، به ویژه متغیرهای طبقه بندی شده ، استفاده از Datatype دسته خاص Pandas ، که به شما امکان می دهد نام های دسته بندی را با مقادیر و رتبه بندی های مرتبط ذخیره کنید ، می تواند سودمند باشد.
df['column_cat'] = pd.مقفد(df["ستون"], ['cat1', 'cat2', 'cat3'], سفارش داده شده = درست است، واقعی)
تغییر نوع داده متغیر
غالباً هنگام کار با مجموعه داده ها ، متغیرها به یک داده نامناسب داده می شوند. به عنوان مثال ممکن است متغیر مداوم داشته باشید که به Datatype Str اختصاص داده شده است. در این سناریو ، انجام عملیات عددی بر روی آن متغیر امکان پذیر نخواهد بود. در این حالت لازم است که داده های مناسب تر مانند شناور را تغییر دهید.
روش های تغییر انواع داده ها
در صورت نیاز به تغییر داده متغیر در پایتون ، می توانید از روش . astype () استفاده کنید ، که به شما امکان می دهد یک داده جدید را به یک متغیر در مجموعه داده خود اختصاص دهید. با این وجود ممکن است مواردی وجود داشته باشد که مقادیر خاصی به شما امکان پیاده سازی را نمی دهند. ASTYPE () به عنوان مثال یک مقدار گمشده در یک متغیر گسسته که به DATATYPE STR اختصاص داده شده است. برای تغییر داده های این متغیر به int ، شما نیاز به استفاده از روش . replace () دارید تا مقادیر گمشده را به چیزی مناسب تر تغییر دهید ، سپس نوع داده متغیر را تغییر دهید.
df["ستون"] = df["ستون"].نای("int")
df["ستون"] = df["ستون"].جایگزین کردن(["گمشده"], هیچ یک)
رمزگذاری یک داغ با پایتون
هنگام کار با متغیرهای طبقه بندی اسمی در پایتون ، استفاده از رمزگذاری یک داغ می تواند مفید باشد ، که این تکنیکی است که به طور موثری متغیرهای باینری را برای هر یک از دسته های اسمی ایجاد می کند. این متغیر را بدون ایجاد سفارش در بین دسته ها رمزگذاری می کند. برای رمزگذاری متغیر در یک پانداس Dataframe ، می توانیم از . get_dummies () استفاده کنیم.
df = pd.get_dummies(داده ها = df, ستون ها= ["ستون 1", "ستون 2")
کتاب آموزش بورس...
ما را در سایت کتاب آموزش بورس دنبال می کنید
برچسب :
نویسنده : محمود استادمحمد
بازدید : 26
تاريخ : پنجشنبه
19 مرداد
1402 ساعت: 23:24