رگرسیون خطی در تجزیه و تحلیل قیمت گذاری ، چیزهای اساسی برای دانستن

ساخت وبلاگ

این امر به ویژه در مورد محصولات پیچیده بزرگ ، مشترک در تجارت برای فروش تجارت (B2B) صادق است. فروشندگان B2B ممکن است فاقد اطلاعات مهم باشند (به عنوان مثال تخمین های دقیق از بودجه مشتری یا "خیابان" برای تنظیمات مختلف محصولات خود - بخش چالش های قیمت گذاری در مورد سایر محدودیت های داخلی و خارجی در تعیین قیمت ها بحث می کند). با این حال ، سازمانها به طور معمول داده های تاریخی در مورد معاملات فروش داخلی و همچنین رهبری با تمایل شدید به بینش در مورد رفتار قیمت گذاری دارند. در حال حاضر من این سؤال را در مورد چگونگی استفاده از رویکردهای اقتصاد سنجی برای تعیین قیمت های ایده آل کنار می گذارم. در عوض ، من برخی از روشهای آماری را طی می کنم که فقط به اطلاعات فروش تاریخی متکی هستند و می توانند برای تجزیه و تحلیل تفاوت ها ، روندها و ناهنجاری ها در قیمت گذاری سازمان های شما استفاده شوند.

با داده های داخلی 1 شما هنوز هم می توانید از پاسخ به بسیاری از سؤالات مهم پشتیبانی کرده و یک مکان شروع را برای استراتژی های پیشرفته تر قیمت گذاری یا تجزیه و تحلیل ارائه دهید. من در حال نوشتن یک سری پست در مورد قیمت گذاری خواهم بود (برای موضوعات احتمالی به بخش پست های قیمت گذاری آینده مراجعه کنید). در این پست ، من در هنگام استفاده از مدل های رگرسیون برای درک قیمت ها به ایده ها و ملاحظات اساسی مهم خواهم پرداخت.

من از داده های بازار مسکن Ames ، آیووا استفاده خواهم کرد. بخش ملاحظات مجموعه داده را ببینید که چرا من از مجموعه داده های AMES به عنوان آنالوگ برای سناریوهای فروش / قیمت گذاری B2B (و همچنین مشکلات این انتخاب) استفاده می کنم. نمونه های من با استفاده از زبان برنامه نویسی R ساخته شده است ، می توانید کد منبع را در صفحه GitHub من پیدا کنید.

چه چیزی بر قیمت تأثیر می گذارد؟

محصولات دارای ویژگی هایی هستند. از این ویژگی های 2 می توان برای آموزش یک مدل برای برآورد قیمت استفاده کرد. برای یک مدل خطی ، ضرایب خروجی مرتبط با این ویژگی ها می تواند به عنوان پروکسی برای دلار مورد انتظار در هر واحد تغییر در مؤلفه 3 (ceteris paribus) عمل کند. در زمینه های قیمت گذاری ، این ایده که ضرایب رگرسیون مربوط به ارزش (یعنی "قیمت ضمنی") اجزای تشکیل دهنده محصول است ، گاهی اوقات مدل سازی Hedonic 4 نامیده می شود. فرض در مدل سازی هیدونیک این است که مدل ما شامل کلیه متغیرهایی است که برای قیمت 5 اهمیت دارند. این فرض از این نظر مهم است که نشان می دهد:

  1. مدل سازی رگرسیون قیمت به خوبی برای زمینه هایی مناسب نیست که در آن شما نمی توانید بخش معقولی از واریانس قیمت محصول خود را توضیح دهید.
  2. شما باید در مورد متغیرهایی که در مدل خود درج می کنید ، به خصوص متفکرانه باشید و از متغیرهایی که نشان دهنده اطلاعات همپوشانی/کپی شده در مورد محصول خود هستند ، خودداری کنید.

برای بحث کامل تر در مورد مدل سازی Hedonic 6 به کتابچه راهنمای شاخص های قیمت املاک مسکونی مراجعه کنید. در این پست مدلهای بسیار ساده ای خواهم ساخت که بدیهی است همه عوامل مرتبط را نشان نمی دهد یا برخی از فرضیات قوی را در مدل سازی هیدونیک برآورده می کند. در عوض ، تمرکز من بر نشان دادن برخی ملاحظات اساسی در رگرسیون است که در زمینه های قیمت گذاری بسیار مهم هستند.

مدل رگرسیون خطی ساده

بیایید مدلی را برای قیمت خانه بسازیم که فقط از فیلم های مربع خانه استفاده می کند ، که توسط GR_LIV_AREA 7 نشان داده شده است ، به عنوان ویژگی ای برای پیش بینی قیمت خانه.

ضریب قیمت فروش 112 اندازه گیری دلار مورد انتظار در واحد تغییر در فوت مربع است. اگر مدل را بدون رهگیری 8 بسازید ، ضریب مستقیم تر با دلار در هر فوت مربع 9 برابر است. با این حال به طور معمول مناسب تر است که رهگیری را در مدل 10 ترک کنید.

استنباط و چالش ها

در ارزیابی تأثیر یک مؤلفه بر قیمت ، ما فقط یک تخمین از بزرگی تأثیر را نمی خواهیم. درعوض ما می خواهیم اندازه گیری از دامنه احتمالی این برآورد در درون باشد. روش سنتی برای محاسبه این امر با استفاده از خطای استاندارد مرتبط با برآورد ما است.

 

مدت، اصطلاح تخمین زدن std. error
(رهگیری) 13289. 6 3269. 7
gr_liv_area 111. 7 2.1

ما می توانیم +/- 2 ( cdot ) را انجام دهیم تا یک فاصله اطمینان 95 ٪ برای جایی که ما معتقدیم تخمین "واقعی" برای سقوط GR_LIV_AREA را بدست آوریم. در این حالت ، این بدان معنی است که در بین مشاهدات ما ، میانگین تغییر قیمت در هر فوت مربع (در حالی که فقط با در نظر گرفتن این متغیرها) تقریباً بین 108 تا 116 11 است.

نقض فرضیات مدل

رگرسیون خطی تعدادی فرض مدل را دارد. در زیر این موارد هنگام استفاده از مدل برای پیش بینی ها در مقایسه با استنتاج 12 از اهمیت کمتری برخوردار است. اما اگر ضرایب را به عنوان بازنمایی از مقدار مرتبط با اجزای یک محصول (مانند مورد ما) تفسیر می کنید ، فرضیات مدل موضوع 13. من آن را به شما و گوگل واگذار می کنم تا در مورد فرضیات مدل 14 بیشتر بخوانید.

جنگی بین ورودی های colinear

بیایید به مدل رگرسیون خود متغیر دیگری ، تعداد حمام های ارائه شده توسط متغیر حمام اضافه کنیم.

 

مدت، اصطلاح تخمین زدن std. error
(رهگیری) 5491. 2 3356. 2
gr_liv_area 94. 0 2.9
حمام 19555. 3 2284. 9

ضریب متراژ مربع کاهش یافته است - این به این دلیل است که تعداد حمام و فوت مربع خانه همبستگی دارند (همبستگی 0. 71 دارند). برخی از تأثیرات روی قیمت خانه که قبلاً به طور کامل در ضریب Gr_Liv_Area وجود داشت، اکنون با متغیر حمام مرتبط مشترک است. همچنین، خطای استاندارد در Gr_Liv_Area افزایش یافته است - نشان دهنده عدم قطعیت بیشتر در مورد تأثیر میانگین متغیر در مدل (در مقایسه با مثال رگرسیون خطی ساده قبلی).

بیایید مدلی را با متغیر دیگری در نظر بگیریم: TotRms_AbvGrd، تعداد کل اتاق ها (بالای زمین و به استثنای حمام) در خانه. این متغیر با Gr_Liv_Area و تعداد حمام نیز همبستگی دارد (همبستگی~0. 8 و~به ترتیب 0. 6).

 

مدت، اصطلاح تخمین زدن std. error
(رهگیری) 35600. 0 4384. 3
gr_liv_area 121. 8 3.9
حمام 20410. 7 2245. 6
TotRms_AbvGrd -11389. 4 1093. 6

توجه کنید که ضریب TotRms_AbvGrd منفی 11792. 2 است. این بدان معنا نیست که خانه هایی با تعداد اتاق خواب های بیشتر با قیمت خانه های منفی مرتبط هستند. اگرچه نشان می دهد خانه ای با مساحت و تعداد حمام یکسان، اگر اتاق های بیشتری داشته باشد، ارزان تر خواهد بود.

چالش نظری:

وانمود کنید که متغیر دیگری قرار داده ایم: half_bathrooms که تعداد نیمی از حمام های خانه را نشان می دهد. حمام های متغیر قبلی ما قبلاً شامل حمام های کامل و نیمه بود. این یک مشکل نظری برای مدل ارائه می کند: حمام ها در دو متغیر مختلف نشان داده می شوند که دارای همپوشانی ضروری 16 با یکدیگر هستند. درک ما از ارزش حمام به عنوان مقدار ضریب آن کمتر روشن می شود 17 .

فراتر از این چالش نظری، ورودی های تکراری یا بسیار مرتبط نیز چالش های عددی ایجاد می کنند. بقیه این پست بر چالش های عددی و ملاحظات در برازش مدل های رگرسیون متمرکز خواهد بود. این درس ها را می توان به طور گسترده در زمینه های استنباطی به کار برد، اما به ویژه در تحلیل قیمت گذاری مهم است.

چالش عددی:

مدل های رگرسیون خطی این «طناب کشی» را بین بزرگی ضرایب نشان می دهند که به موجب آن متغیرهای همبسته تأثیرات کلی را در مدل به اشتراک می گذارند. گاهی اوقات این باعث می شود که متغیرهای مشابه تأثیرات متضادی داشته باشند 18 . هنگام ارزیابی ضرایب برای تمرینات تحلیل قیمت 19، این رقابت بین ضرایب دارای اشکالات بالقوه است:

  • همانطور که شما تعداد متغیرهای موجود در مدل را افزایش می دهید ، Colinearity می تواند مدلهایی با درجه بالایی از بی ثباتی / واریانس در برآورد پارامتر ایجاد کند - به این معنی که ضرایب موجود در مدل شما (و پیش بینی های حاصل از شما) حتی می تواند به طرز چشمگیری تغییر کند حتی از تغییرات کوچک در تغییرات کوچکداده های آموزش 20 ، که اعتماد به نفس در تخمین ها را تضعیف می کند.
  • ممکن است بخواهید روش هایی را که منجر به مدل هایی با روابط متغیر غیرعادی می شود محدود کنید (به عنوان مثال در مواردی که عوامل مرتبط دارای ضرایب هستند که به نظر می رسد در جهت های مخالف عمل می کنند).

بهبود مدل ، ملاحظات

من در مورد موضوع انتخاب متغیر بحث نمی کنم ، اما فصل مرتبط را در مهندسی و انتخاب ویژگی های کتاب درسی آنلاین توسط Max Kuhn و Kjell Johnson توصیه می کنم.

دگرگونی داده ها

قبل از مدل سازی ، تبدیل به داده های اساسی اغلب به یکی از دلایل مختلف اعمال می شود:

  • برای کمک به برآورده کردن فرضیات مدل یا به حداقل رساندن تأثیر دور و نقاط تأثیرگذار بر تخمین ها.
  • برای بهبود تناسب مدل.
  • برای کمک به تفسیر مدل 21.
  • برای تسهیل الزامات پیش پردازش مهم برای روش مناسب 22.

مهم در زمینه های قیمت گذاری ، تبدیل به داده ها معنی ضرایب 23 را تغییر می دهد. تحولات داده ممکن است تناسب مدل را بهبود بخشد ، اما ممکن است تفسیر ضریب را پیچیده کند. در بعضی موارد این ممکن است در موارد دیگر مفید باشد - همه اینها به اهداف مدل بستگی دارد و انواع تفسیرهایی که تحلیلگر امیدوار است 24 را بسازد. به عنوان بخشی از ارائه داخلی در NetApp در مورد قیمت گذاری ، من برخی از تحولات متغیر متغیر را شرح می دهم و اینکه چگونه اینها بر تفسیر حاصل از ضرایب تأثیر می گذارند:

روشهای پیشرفته تر یادگیری ماشین:

هنگام استفاده از تکنیک های پیشرفته تر یادگیری ماشین ، اصطلاح تبدیل داده ها گاهی اوقات با اصطلاح مهندسی ویژگی انجام می شود (اگرچه دومی به طور معمول تغییرات بیشمار یا پیچیده تری را برای داده های ورودی نشان می دهد). برخی از تکنیک های یادگیری ماشین 25 همچنین می توانند برای یافتن روابط یا نیاز به تحولات پیچیده داده ها که برای تولید مدل خوب متناسب با یک مدل خطی 26 مورد نیاز است ، تشخیص دهند. این ممکن است یک تحلیلگر را صرفه جویی کند یا به آنها اجازه دهد مدل هایی با تناسب بهتر تولید کنند اما ممکن است با هزینه ای برای سهولت در تفسیر مدل همراه باشند. برای یک بحث مختصر ، به بخش تفسیر روشهای یادگیری ماشین مراجعه کنید. برای این پست ، من به مدل های خطی می چسبم.

روشهای متناسب

گزینه های دیگر برای تکنیک بهینه سازی استاندارد برای رگرسیون خطی ، حداقل مربعات معمولی (OLS) ، ممکن است برای مدل سازی فرضیات و نقاط تأثیرگذار قوی تر باشد یا تمایل به تولید تخمین های پایدارتر 27 داشته باشد. چند گزینه:

  • تنظیم مجدد: محدودیت هایی را بر روی مدل خطی قرار می دهد که سطح بالایی از واریانس را در برآوردهای ضریب شما دلسرد می کند. برای بحث کاملتر در مورد چگونگی تأثیر مجازات های L1 و L2 بر برآوردهای ورودی های مختلف 28 ، بخش تنظیم و متغیرهای Colinear را مشاهده کنید.
  • رویکردهای بیزی: می تواند از PRIORS و روش های تخمین دقیق برای محدود کردن تخمین های بیش از حد و فرورفتگی استفاده کند.
  • رگرسیون قوی: به طور معمول به استفاده از مربعات حداقل وزنی (یا روشهای مشابه) اشاره دارد که امکان کاهش وزن مختلف به مشاهدات را فراهم می کند (به طور معمول برای کاهش وزن نقاط شدید و تأثیرگذار).

هر یک از این روشهای مناسب دارای مزایا و معایب متفاوتی است و تخمین های ضریب متفاوت 29 را تعدیل می کند.

بسته بندی یادداشت ها و نکات

می توانید از مدل های رگرسیون برای ارزیابی تأثیر عوامل مختلف بر قیمت استفاده کنید. با این وجود مهم است که در نظر بگیرید که چگونه تخمین های ضریب به داده های ورودی خاص شما پاسخ می دهند (به عنوان مثال چند رنگ بودن ورودی ها یا نقض فرضیات مدل شما) و استفاده از تکنیک هایی که یک مدل مناسب برای نیازهای شما تولید می کند. در زمینه های قیمت گذاری به ویژه باید انواع استنتاج هایی را که از شما خواسته می شود در نظر بگیرید و مدل خود را به گونه ای متناسب با نیازهای تجاری شما در نظر بگیرید.

برخی از نکات مربوط به مدل های ساختمانی برای استنباط در زمینه های قیمت گذاری:

  • اگر مدل شما بخش زیادی از داده ها را توضیح نمی دهد ، مراقب باشید که در مورد ارزش مربوط به اجزای 30 به ذینفعان می گویید.
  • گرفتن یک مدل خوب باید یک نیروی محرک باشد. با این حال ، به روشی مشابه با چگونگی ترجیح متغیرهای کمتری یا یک تکنیک مدل سازی ساده تر ، ممکن است تحولات متغیر کمتری و کمتری را نیز ترجیح دهید 31.
  • هنگام ارزیابی تأثیر مؤلفه های محصول خود ، تغییرپذیری در برآوردهای ضریب خود را مرور کنید و نه فقط خود تخمین ها.
  • ساخت مدل های خطی را با استفاده از تکنیک های متناسب با مدل چند مدل 3233 در نظر بگیرید.
  • حتی اگر قصد استفاده از یک مدل خطی را دارید ، استفاده از یک مدل یادگیری ماشین پیچیده تر می تواند به عنوان یک بررسی عقل مفید باشد. اگر عملکرد مدل بین مدل های شما تفاوت چندانی ندارد ، خوب هستید ، اگر اینگونه باشد ، ممکن است رابطه مهمی وجود داشته باشد که از دست رفته و نیاز به شناسایی دارید.

برای پست های قیمت گذاری آینده در مورد موضوعات مرتبط با ما همراه باشید.

ضمیمه

چالش های قیمت گذاری

قیمت نهایی پرداخت شده توسط مشتری ممکن است در یک محصول معین متفاوت باشد. این تغییرپذیری اغلب به میزان بالایی از پیچیدگی ذاتی در محصول و پیکربندی های مختلف بین مشتریان 34 است. نوسانات تقاضای محصول و عوامل کلان اقتصادی تأثیرات مهم دیگری است ، مانند عوامل مرتبط با مهارت مذاکره خریدار / فروشنده و توانایی استفاده از اطلاعات بازار برای بهره گیری از تخفیف بالاتر یا پایین.

قیمت نهایی پرداخت شده همچنین ممکن است تحت تأثیر تعداد بیشماری از منافع داخلی رقابتی باشد. نمایندگان فروش ممکن است در دستورالعمل های قیمت تمایل داشته باشند تا بتوانند به سهمیه خود برسند. رهبری ممکن است نگران فرسایش بالقوه برند باشد که اغلب با کاهش قیمت ها همراه است. دارندگان سهام ممکن است بر سودآوری فوری متمرکز شوند یا ممکن است مایل به قربانی کردن حاشیه برای گسترش سهم بازار باشند. به طور مؤثر تنظیم دستورالعمل های قیمت مستلزم استفاده از اصول مختلف اقتصادی ، ریاضی و جامعه شناختی 35 است که ممکن است برای تنظیم 36 امکان پذیر نباشد. اجرای آن به داده های قابل اعتماد نیاز دارد ، که به دلیل:

  • اطلاعات بازار ممکن است نادرست یا در دسترس 37 باشد.
  • کل هزینه های تولید ممکن است در دسترس نباشد (از موقعیت شما در سازمان).
  • اهداف سازمانی فعلی ممکن است به خوبی تعریف نشده باشد.
  • اطلاعات در مورد معاملات موفق ممکن است قابل اطمینان تر از اطلاعات مربوط به معاملات از دست رفته باشد.

این (یا تعداد زیادی از شکافهای دیگر در اطلاعات) ممکن است تعریف یک عملکرد عینی برای شناسایی دستورالعمل های بهینه قیمت را دشوار کند.

پست های قیمت گذاری آینده

در یک سری از پست ها ، من به سؤالات مختلفی خواهم پرداخت که ذینفعان در مورد قیمت گذاری سازمانی می پرسند. برخی از مباحث احتمالی عبارتند از:

  1. چگونه تفاوت در مؤلفه های محصول با تفاوت در قیمت ارتباط دارد؟میزان تأثیر این عوامل چقدر است؟
  2. این عوامل با گذشت زمان چگونه تغییر کرده است؟
  3. کدام مشتریان با توجه به قیمتی که دریافت می کنند ، خارج از رفتار "عادی" قرار می گیرند؟
  4. چگونه می توان پیچیدگی های استراتژی قیمت گذاری را توسط یک چارچوب مدل سازی آماری دقیق (به عنوان مثال وقتی حجم قیمت را دیکته می کند) ضبط کرد؟

ملاحظات مجموعه داده

خصوصیات مربوط به یک مجموعه داده که به دنبالش بودم عبارت بودند از:

  1. چندین سال داده
  2. بسیاری از ویژگی ها ، با چند متغیر کلیدی مرتبط با بخش بزرگی از واریانس

مجموعه داده های مسکن ایمز با این مدارک تحصیلی مطابقت دارد و من قبلاً با آن آشنا بودم. ارزیابی قیمت خانه می تواند به عنوان یک آنالوگ عملی برای مشکل ما باشد. هم فروش خانه و هم برای فروش مشاغل ، اغلب نشان دهنده خریدهای بزرگی است که دارای بسیاری از ویژگی های تأثیرگذار است. شما می توانید وانمود کنید که ردیف های جداگانه معاملات B2B را برای یک شرکت بزرگ که یک خط تولید پیچیده (به جای فروش خانه های فردی) را می فروشد ، نشان می دهد.

همچنین تفاوتهای مهمی بین فروش خانه و فروش B2B وجود دارد که این امر را به یک آنالوگ ضعیف تر تبدیل می کند. چندتا را نام بردن:

  • در زمینه های B2B ، فروش تکرار معمولاً از فروش اولیه مهمتر است. در بازار مسکن ، فروش تکرار وجود ندارد.
  • اطلاعات در مورد قیمت خانه و فروش قبلی در خانه هم برای خریدار و هم برای فروشنده قابل دسترسی است - به این معنی که هیچ گزینه ای برای قیمت گذاری هدفمند وجود ندارد.
  • در زمینه های B2B ، یک خریدار تأثیرگذار ممکن است بتواند از احتمال مشارکت به نوعی استفاده کند تا بتواند معامله بهتری را در یک خرید بزرگ 38 انجام دهد.
  • طرح های فروش حجم و سایر استراتژی های قیمت گذاری ممکن است در مقایسه با تنظیمات B2B تأثیر کمتری بر قیمت خانه داشته باشد.

برای یادداشت های موجود در این پست اول ، اینها مهم نیستند.

تفسیر روشهای یادگیری ماشین

در برخی از سناریوهای قیمت گذاری روشهای مبتنی بر درخت ممکن است به ویژه در مدل سازی قیمت مفید باشد-به ویژه در زمینه هایی که قیمت یک محصول را می توان با بیانیه های IF-سپس به خوبی تعریف کرد. این ممکن است در مواردی که قیمت گذاری حجم وجود داشته باشد مفید باشد - به عنوان مثالرویکرد قیمت گذاری بسته به مبلغی که خریداری می کنید متفاوت است. شاید بهتر باشد مدل های کوبیستی که به عنوان درختان تصمیم گیری شروع می شوند اما سپس به مدلهای خطی فردی خاتمه می یابند (اجازه می دهد تا مدل های مختلف خطی مبتنی بر بیانیه های پیش از آن تعریف شده از قبل تعریف شده).

(نادیده گرفتن نوع ایده آل مدل یا هنگ مهندسی ویژگی 39 برای مشکل شما) ترکیب معمولی بین مدل های خطی و تکنیک های پیشرفته تر یادگیری ماشین در تفسیر آنها آسان است. روشهای پیشرفته یادگیری ماشین (که گاهی اوقات به عنوان "جعبه سیاه 40" توصیف می شود ، قابل تفسیر است. تفسیر به طور معمول شامل رویکردی است که چگونگی تغییر پیش بینی ها در رابطه با برخی از تغییر در داده های اساسی را ارزیابی می کند. این پیش بینی با تمرکز روش تفسیر یک مدل از این مزیت برخوردار است که در انواع مدل استاندارد تر باشد. این استدلال پیش می آید که صرف نظر از ساختار مدل ، شما همیشه پیش بینی می کنید ، از این رو باید از این پیش بینی ها برای هدایت تفسیرهای خود از مدل استفاده کنید. این امر شما را قادر می سازد تا بدون در نظر گرفتن نوع مدلی که استفاده می کنید ، مدل ها (در موارد غیر از عملکرد خام) را با یکدیگر مقایسه کنید.

مدل های خطی مزیت این است که شکل مدل خود بسیار قابل تفسیر است. بر خلاف سایر مدل ها ، پارامترهای مدل های خطی به طور مستقیم قابل جمع شدن هستند. با یک مدل خطی می توانید راحت تر بگویید که یک جزء یک محصول به قیمت چقدر ارزش می دهد. با انواع دیگر مدل ها این ترجمه معمولاً دشوارتر است.

مدل های خطی را می توان توسط مخاطبان وسیع تر درک کرد و همچنین ممکن است به عنوان منطقی یا عادلانه تر 41 42 مشاهده شود. با این حال ، اگر شما یک مدل خطی با تحولات بسیار پیچیده ، تعامل یا اصطلاحات غیر خطی ایجاد کنید ، مفاهیم این "مزیت تفسیر" شروع به وخامت 43 می کنند.

به طور خلاصه ، تجزیه رگرسیون خطی در مقابل مدل های یادگیری ماشین پیچیده ممکن است در زمینه های قیمت گذاری مشابه باشد همانطور که در سایر فضاهای مشکل وجود دارد:

  • اگر فقط به صحت پیش بینی های خود اهمیت می دهید (یعنی برآورد قیمت گذاری) یا می خواهید در مهندسی ویژگی های پیچیده تر در زمان مهندسی تکنیک های پیشرفته تر یادگیری ماشین صرفه جویی کنید.
  • اگر به تفسیر اهمیت می دهید یا در مورد قیمت ها الزامات حسابرسی دارید ، مدل های خطی مزایای خاصی دارند.

متغیرهای منظم و کالری

منظم سازی به طور معمول در دو طعم وجود دارد. یا پنالتی L1 (رگرسیون لاسو) یا مجازات L2 (رگرسیون ریج) ، یا ترکیبی از این (شبکه الاستیک) به مدل خطی اعمال می شود. این مجازات ها هزینه ای را برای ضریب بزرگتر فراهم می کند که برای کاهش واریانس در برآوردهای ما 44 عمل می کند. در شرایط ورودی های Colinear ، این دو مجازات با برآورد ضریب ویژگی های Colinear متفاوت عمل می کنند:

  • رگرسیون کمند تمایل به انتخاب یک متغیر "بهترین" (در میان زیرمجموعه ای از متغیرهای خطی) دارد که ضریب آن "بقا" است، در حالی که ضرایب سایر متغیرهای مرتبط به سمت صفر رانده می شوند.
  • برای رگرسیون پشته، ضرایب متغیرهای مشابه به یک مقدار مشابه جذب می شوند

ضرایب یک مدل منظم

ورودی های متغیر معمولاً قبل از اعمال منظم سازی استاندارد می شوند. از این رو، از آنجایی که ورودی ها (اساسا) در یک مقیاس قرار می گیرند، تخمین های ضریب را می توان به طور مستقیم با یکدیگر به عنوان معیارهای تأثیر نسبی آنها بر هدف (قیمت خانه) مقایسه کرد. این سهولت مقایسه ممکن است راحت باشد. با این حال، اگر هدف ما تفسیر برآوردهای ضرایب بر حسب تغییر دلار در واحد افزایش باشد، باید ضرایب را تغییر دهیم.

  1. داده های فروش داخلی به تنهایی از این جهت محدود است که به جای در نظر گرفتن تصویر کامل، تنها بر یک جزء از فروش متمرکز شده است - این تحلیلگر را در موقعیتی آشنا با اطلاعات ناقص و دامنه نفوذ محدود قرار می دهد.↩︎
  2. مجموعه داده باید به گونه ای ساخته شود که هر ویژگی یک ستون و هر ردیف یک مشاهده باشد، به عنوان مثال. فروش.↩︎
  3. به نوعی، و تحت شرایط خاص…↩︎
  4. https://en. wikipedia. org/wiki/Hedonic_regression↩︎
  5. از دست دادن اجزای مهم یا عدم نسبت دادن تأثیر نادرست قیمت می تواند باعث سوگیری در مدل شود (سوگیری متغیر حذف شده).↩︎
  6. و همچنین چگونه می توان از آن برای مواردی مانند ایجاد شاخص های قیمت استفاده کرد↩︎
  7. شامل زیرزمین نمی شود.↩︎
  8. یعنیآن را صفر کنید تا ارزش مورد انتظار یک خانه 0 فوت مربعی 0↩︎ $ باشد
  9. در این حالت، ضریب مدل در صورت صفر تنظیم شدن ضریب 119. 7 می شود.↩︎
  10. مدل سازی لذت گرا همچنین دارای رویکردهای متنوعی است که با ارزیابی تغییرات در اصطلاح بین مدل ها مرتبط است که (دوباره) می تواند در کتاب راهنمای شاخص های قیمت املاک مسکونی خوانده شود.↩︎
  11. توجه داشته باشید که رویکردهای مدرن تری برای تخمین این محدوده با استفاده از روش های بیزی یا مبتنی بر شبیه سازی وجود دارد.↩︎
  12. حداقل تا حدی که ارضای آنها پیش بینی های شما را بهبود نمی بخشد یا مدل متفاوتی را پیشنهاد نمی کند.↩︎
  13. اگرچه برخی استدلال می کنند که شما نیازی به نگرانی بیش از حد در مورد هیچ یک از فرضیات خود ندارید، به جز اینکه مشاهدات شما مستقل از یکدیگر هستند.↩︎
  14. مفروضات مدل رگرسیون خطی با حداقل مربعات معمولی قبلاً به طور گسترده در هر آموزش و کتاب درسی مقدمه ای بر آمار در مورد رگرسیون پوشش داده شده است.↩︎
  15. شاید نشان دهنده اولویت برای اتاق های بزرگتر یا فضای باز در بین خریداران یا تأثیر مخدوش با متغیر دیگر باشد. برای اهداف این پست می خواهم به این نکته اشاره کنم که چگونه مقادیر ضریب می توانند در شرایط کلینیته متفاوت باشند.
  16. (هرچند که کاملاً کامل نیست)
  17. از این رو اهمیت متفکر بودن به متغیرهایی که به مدل وارد می کنید و از متغیرهایی که تقریباً یکدیگر را کپی می کنند جلوگیری می کند.
  18. یک قانون شست مشترک برای زمانی که متغیرها "بیش از حد همبسته" هستند 0. 90 است - حداقل در زمینه های رگرسیون و مواردی که شما روی استنتاج متمرکز هستید. در زمینه های دیگر (به عنوان مثال مواردی که در مسابقات پیش بینی Kaggle ظاهر می شوند) این آستانه می تواند بسیار بالاتر باشد. با این حال ، همانطور که بحث شد ، سطح پایین همبستگی هنوز هم می تواند به بی ثباتی در برآورد ضریب شما کمک کند
  19. جایی که شما به برآورد پارامتر فردی اهمیت می دهید و می خواهید آنها معنی دار باشد.
  20. این به معنای "واریانس" در تجارت تعصب و تغییر در توسعه مدل است. این همچنین ممکن است به عنوان ناپایداری در مدل یا برآورد پارامتر گفته شود.
  21. نمونه ای از این موارد ممکن است استاندارد سازی داده های اساسی باشد تا تخمین ضریب مستقیماً با یکدیگر مقایسه شود (زیرا داده های زیرین همه در همان مقیاس هستند).
  22. استاندارد سازی داده ها برای بسیاری از روش های مناسب نیز مهم است ، به عنوان مثالتنظیم منظم.
  23. به عنوان مثال. تبدیل ورود به سیستم در یک ورودی ، تفسیر ضریب را تغییر می دهد تا چیزی نزدیک به دلار در هر درصد تغییر نقطه ورودی باشد. ورود به سیستم به معنای تغییر درصد در قیمت در واحد تغییر در ورودی است. اگر هر دو ورودی و هدف خود را به ثبت برسانید ، ضریب نشان دهنده درصد تغییر در x مربوط به درصد تغییر در Y است ، همچنین به عنوان یک مدل "خاصیت خاصیت" در اقتصاد سنج شناخته می شود.
  24. ممکن است اولویت برای صحبت کردن به ساده ترین شرایط وجود داشته باشد: تغییر در قیمت به عنوان تابعی از تغییر واحد در مؤلفه - که ممکن است برای محدود کردن تحولات داده به تحلیلگر فشار بیاورد. این کار تحلیلگران است و سپس تعادل صحیح بین تولید مدلی متناسب با داده ها و مواردی که توسط ذینفعان قابل درک است ، اعتراض می کند.
  25. به طور خاص شبکه های عصبی.
  26. بسیاری از روشهای غیرخطی هنوز هم نیازهای پیش پردازش پیشرفته دارند. اگرچه اینها گاهی اوقات عمومی تر هستند - به معنای کار کمتری برای سفارشی کردن بین مشکلات برای رسیدن به حداقل به حداقل سطح تناسب بین مشکلات (دوباره ، در برخی زمینه ها).
  27. به نظر می رسید برخی از آنچه در مدل سازی هیدونیک خوانده ام ، استفاده از روشهای غیر از حداقل مربعات معمولی را دلسرد می کند (به عنوان مثال حداقل مربعات وزنی) اما من روش های دیگری را پیدا کردم که مفید باشند.
  28. تنظیم مجدد با مجازات L1 ، امتیاز دیگری را برای انجام انتخاب متغیر نیز فراهم می کند.
  29. برای روشهای قوی و منظم سازی ، روشهای کمتری برای تولید فواصل اطمینان وجود دارد. ممکن است شما نیاز به استفاده از روش های شبیه سازی (که از نظر محاسباتی فشرده تر هستند) استفاده کنید.
  30. به طور کلی ایده خوبی است که خطای میانگین یا برخی از اقدامات دیگر را توصیف کنید ، به طوری که آنها می توانند این حس را پیدا کنند که چگونه مدل شما را توصیف می کنید متناسب با داده ها است ، یا اینکه آیا تأثیراتی که در مورد آنها صحبت می کنید عمومی است ، اما به خصوص نیست. برای پیش بینی ها مفید است.
  31. و اولویت برای تحولات که یک تفسیر شهودی را برای مدل حفظ می کنند.
  32. سپس برآوردهای ضریب را در سراسر آنها مرور کنید.
  33. من تمایل دارم که به تکنیک های منظم متکی باشم.
  34. عوامل مختلف اگرچه سازمان ها را به ساده سازی محصولات خود و این روند سوق می دهد - برای اهداف این پست ، من یک نمونه کارها پیچیده محصول را فرض می کنم.
  35. برای بحث کاملتر در مورد این مفاهیم ، به تخصص UVA Coursera در مورد هزینه و اقتصاد در استراتژی قیمت گذاری مراجعه کنید.
  36. سازمان ها ممکن است فاقد پول یا وصیت نامه باشند.
  37. شاید شرکت شما بخواهد قیمت های گران قیمت را که فروشندگان داده ها برای این اطلاعات تعیین کرده اند بپردازد (اگر شما یک سازمان کوچک با بودجه اندک باشید ، ممکن است این مشکل باشد.
  38. در حالی که یک فروشنده خانه ممکن است نسبت به برخی از خریداران نسبت به برخی دیگر دلسوز تر باشد (به عنوان مثال یک زوج تازه عروسی که به دنبال راه اندازی خانواده از طریق یک مغول املاک و مستغلات هستند که به دنبال املاک سرمایه گذاری است) ، چنین ترجیحات احتمالاً بر قیمت کمتر از آنالوگ در زمینه های B2B تأثیر می گذارد. فروشندگان به دنبال ایجاد جزئیات با مارک های محبوب به عنوان وسیله ای برای ایجاد ارتباط محصول و امکان بازاریابی بیشتر و فرصت های همکاری بالقوه هستند. توجه به این نکته حائز اهمیت است که "قانون کلیتون" و "قانون رابینسون پاتمن" باعث تبعیض قیمت در زمینه های B2B غیرقانونی می شوند (به جز در شرایط خاص).
  39. تجزیه و تحلیل PCA یا عاملی به نظر می رسد یک رویکرد بالقوه مفید در زمینه های قیمت گذاری در مواردی که متغیرهای شما به وضوح نمایانگر اجزای گسسته محصول نیستند - امیدوارم PCA به شناسایی این مؤلفه های ضمنی کمک کند.
  40. به دلیل عدم شفافیت در نحوه تولید پیش بینی ها.
  41. یا حداقل در مکانهایی که قیمت آن ناعادلانه به نظر می رسد ، ممکن است تشخیص سریع در محل مسئله آسانتر باشد.
  42. کتی اونیل یک کتاب سلاح های نابودی ریاضی وجود دارد که به عدم تفسیر به عنوان یکی از مهمترین نگرانی های الگوریتم های یادگیری مدرن اشاره دارد.
  43. همچنین ممکن است در این مرحله از یک روش یادگیری ماشین استفاده کنید.
  44. در هر دو مورد ، رگرسیونرهای غیر آگاهانه به سمت صفر تمایل خواهند داشت (در مورد رگرسیون ریج ، آنها هرگز به صفر نمی رسند). این رویکردها به طور معمول برای شناسایی وزن ایده آل (یعنی فشار) که به مجازات اختصاص داده شده است ، نیاز به تنظیم دارد.
کتاب آموزش بورس...
ما را در سایت کتاب آموزش بورس دنبال می کنید

برچسب : نویسنده : محمود استادمحمد بازدید : 22 تاريخ : شنبه 11 شهريور 1402 ساعت: 20:47