اعمال می شود:
SQL Server 2019 and earlier Analysis Services
Azure Analysis Services
Power BI Premium
داده کاوی در خدمات تجزیه و تحلیل SQL Server 2017 کاهش یافته و اکنون در خدمات تجزیه و تحلیل SQL Server 2022 قطع شده است. مستندات برای ویژگی های مستهلک و قطع شده به روز نمی شود. برای کسب اطلاعات بیشتر ، به خدمات تجزیه و تحلیل سازگاری به عقب مراجعه کنید.
نمودار آسانسور به صورت گرافیکی نشان دهنده پیشرفتی است که یک مدل معدن در مقایسه با یک حدس تصادفی مقایسه می کند و تغییر را از نظر نمره آسانسور اندازه گیری می کند. با مقایسه نمرات آسانسور برای مدل های مختلف ، می توانید تعیین کنید که کدام مدل بهترین است. همچنین می توانید نقطه ای را تعیین کنید که پیش بینی های مدل کمتر مفید می شوند. به عنوان مثال ، با بررسی نمودار آسانسور ، ممکن است متوجه شوید که یک کمپین تبلیغاتی در برابر تنها 30 ٪ از مشتریان شما مؤثر است و از این رقم برای محدود کردن دامنه کمپین استفاده می کند.
در SQL Server Data Cining ، نمودار آسانسور می تواند دقت مدل های مختلفی را که دارای یک ویژگی قابل پیش بینی یکسان هستند ، مقایسه کند. همچنین می توانید دقت پیش بینی را برای یک نتیجه واحد (یک مقدار واحد از ویژگی قابل پیش بینی) یا برای همه نتایج (تمام مقادیر ویژگی مشخص شده) ارزیابی کنید.
نمودار سود یک نوع نمودار مرتبط است که شامل همان اطلاعات با نمودار آسانسور است ، اما همچنین افزایش پیش بینی شده سود را که با استفاده از هر مدل همراه است ، نشان می دهد.
درک نمودار آسانسور
درک نمودارهای آسانسور در خلاصه می تواند دشوار باشد. بنابراین ، برای نشان دادن استفاده از ابزارهای نمودار آسانسور و اطلاعات موجود در نمودار ، این بخش سناریویی را ارائه می دهد که در آن از یک نمودار آسانسور برای تخمین پاسخ به یک کمپین پستی هدفمند استفاده می شود.
بخش بازاریابی در این سناریو می داند که نرخ پاسخ 10 درصدی کم و بیش برای کمپین های پستی معمولی است. آنها لیستی از 10،000 مشتری بالقوه ذخیره شده در یک جدول در پایگاه داده دارند. بر اساس نرخ پاسخ معمولی ، آنها معمولاً فقط می توانند انتظار داشته باشند که حدود 1000 از مشتریان بالقوه پاسخ دهند. با این حال ، پول بودجه برای این پروژه برای رسیدن به همه 10،000 مشتری در پایگاه داده کافی نیست و آنها می خواهند نرخ پاسخ خود را بهبود بخشند. برای این سناریو فرض کنید که بودجه آنها به آنها اجازه می دهد تا یک تبلیغ را فقط به 5000 مشتری ارسال کنند. بخش بازاریابی دو گزینه دارد:
- به طور تصادفی 5،000 مشتری را برای هدف انتخاب کنید.
- برای هدف قرار دادن 5000 مشتری که به احتمال زیاد پاسخ می دهند ، از یک مدل معدن استفاده کنید.
با استفاده از نمودار آسانسور ، می توانید نتایج مورد انتظار هر دو گزینه را مقایسه کنید. به عنوان مثال ، اگر شرکت به طور تصادفی 5000 مشتری را انتخاب کند ، ممکن است انتظار داشته باشد که فقط 500 پاسخ را بر اساس نرخ پاسخ معمولی دریافت کند. این سناریو همان چیزی است که خط تصادفی در نمودار آسانسور نشان می دهد. با این حال ، اگر بخش بازاریابی از یک مدل معدن برای هدف قرار دادن پستی خود استفاده کرده است ، می تواند انتظار پاسخ بهتری داشته باشد زیرا این مدل مشتریانی را که به احتمال زیاد پاسخ می دهند شناسایی می کند. اگر این مدل عالی باشد ، پیش بینی هایی را ایجاد می کند که هرگز اشتباه نیست ، و شرکت می تواند با ارسال نامه ارسال نامه فقط به 1000 مشتری بالقوه توصیه شده توسط مدل ، 1000 پاسخ دریافت کند. این سناریو همان چیزی است که خط ایده آل در نمودار آسانسور نشان می دهد.
واقعیت این است که مدل معدن به احتمال زیاد بین این دو افراط قرار می گیرد. بین یک حدس تصادفی و یک پیش بینی کامل. هرگونه پیشرفت از حدس تصادفی آسانسور در نظر گرفته می شود.
هنگامی که یک نمودار آسانسور ایجاد می کنید ، می توانید یک مقدار خاص را هدف قرار دهید و فقط برای این نتیجه آسانسور اندازه گیری کنید ، یا می توانید یک ارزیابی کلی از مدل ایجاد کنید که برای همه نتایج ممکن ، آسانسورها را اندازه گیری می کند. این انتخاب ها بر روی نمودار نهایی تأثیر می گذارد ، همانطور که در بخش های بعدی توضیح داده شده است.
نمودار بلند کردن با مقدار هدف
نمودار زیر نمودار آسانسور را برای مدل پستی هدفمند که در آموزش اصلی داده کاوی ایجاد می کنید ، نشان می دهد. در این نمودار ، ویژگی هدف [خریدار دوچرخه] و مقدار هدف 1 است ، به این معنی که مشتری پیش بینی می شود دوچرخه بخرد. بنابراین نمودار آسانسور پیشرفتی را که مدل هنگام شناسایی این مشتریان بالقوه ارائه می دهد ، نشان می دهد.
این نمودار شامل چندین مدل بر اساس همان داده ها است. یکی از این مدل ها برای هدف قرار دادن مشتریان خاص سفارشی شده است. می توانید با اضافه کردن فیلترها بر روی داده های مورد استفاده برای آموزش حالت ، یک مدل را سفارشی کنید. این فیلتر موارد مورد استفاده در آموزش و ارزیابی را برای مشتریانی که زیر 30 سال هستند محدود می کند. توجه کنید که یکی از تأثیر فیلتر کردن این است که مدل اصلی و مدل فیلتر شده از مجموعه داده های مختلف استفاده می کنند ، و بنابراین تعداد موارد مورد استفاده برای ارزیابیدر نمودار آسانسور نیز متفاوت است. این نکته مهم است که هنگام تفسیر نتایج پیش بینی و سایر آمار به یاد داشته باشید.

محور X نمودار درصد از مجموعه داده های آزمون را که برای مقایسه پیش بینی ها استفاده می شود ، نشان می دهد. محور y نمودار درصد مقادیر پیش بینی شده را نشان می دهد.
خط مستقیم مورب، که در اینجا به رنگ آبی نشان داده شده است، در هر نمودار ظاهر می شود. این نشان دهنده نتایج حدس زدن تصادفی است و خط پایه ای است که بر اساس آن لیفت ارزیابی می شود. برای هر مدلی که به نمودار بالابر اضافه می کنید، دو خط اضافی دریافت می کنید: یک خط نتایج ایده آل را برای مجموعه داده های آموزشی نشان می دهد، اگر بتوانید مدلی ایجاد کنید که همیشه به طور کامل پیش بینی می کرد، و خط دوم افزایش یا بهبود واقعی را نشان می دهد. در نتایج، برای مدل.
در این مثال، خط ایده آل برای مدل فیلتر شده با رنگ آبی تیره و خط برای بلند کردن واقعی به رنگ زرد نشان داده شده است. از نمودار می توانید بفهمید که خط ایده آل در حدود 40 درصد به اوج خود می رسد، به این معنی که اگر یک مدل کامل داشتید، می توانید با ارسال پستی تنها به 40 درصد از کل جمعیت، به 100 درصد از مشتریان هدف خود برسید. افزایش واقعی مدل فیلتر شده زمانی که شما 40 درصد از جمعیت را هدف قرار می دهید بین 60 تا 70 درصد است، به این معنی که می توانید با ارسال نامه به 40 درصد از کل جمعیت مشتریان به 60 تا 70 درصد از مشتریان هدف خود برسید.
Mining Legend حاوی مقادیر واقعی در هر نقطه از منحنی ها است. با کلیک کردن روی نوار خاکستری عمودی و حرکت دادن آن، می توانید مکان اندازه گیری شده را تغییر دهید. در نمودار، خط خاکستری به 30 درصد منتقل شده است، زیرا این نقطه ای است که هر دو مدل فیلتر شده و فیلتر نشده بیشترین تأثیر را دارند و پس از این نقطه میزان بالابر کاهش می یابد.
Mining Legend همچنین شامل امتیازات و آماری است که به شما در تفسیر نمودار کمک می کند. این نتایج نشان دهنده دقت مدل در خط خاکستری است که در این سناریو 30 درصد از موارد آزمایش کلی را شامل می شود.
| سری و مدل | نمره | جمعیت هدف | پیش بینی احتمال |
| ارسال هدفمند همه | 0. 71 | 47. 40٪ | 61. 38٪ |
| ارسال هدفمند زیر 30 سال | 0. 85 | 51. 81٪ | 46. 62٪ |
| مدل حدس تصادفی | 31. 00٪ |
| مدل ایده آل برای: ارسال هدفمند به همه | 62. 48٪ |
| مدل ایده آل برای: ارسال هدفمند زیر 30 سال | 65. 28٪ |
تفسیر نتایج
از این نتایج، می توانید ببینید که وقتی در 30 درصد از موارد اندازه گیری شد، مدل کلی، [پست های هدفمند همه]، می تواند رفتار خرید دوچرخه 47. 40 درصد از جمعیت هدف را پیش بینی کند. به عبارت دیگر، اگر یک ایمیل هدفمند را فقط برای 30 درصد از مشتریان پایگاه داده خود ارسال کنید، می توانید کمی کمتر از نیمی از مخاطبان هدف خود را دریافت کنید. اگر از مدل فیلتر شده استفاده می کردید، می توانید نتایج کمی بهتری بگیرید و به حدود 51 درصد از مشتریان هدف خود برسید.
مقدار پیش بینی احتمال نشان دهنده آستانه مورد نیاز برای درج مشتری در میان موارد "احتمال خرید" است. برای هر مورد ، مدل صحت هر پیش بینی و ذخیره های ارزش را تخمین می زند ، که می توانید از آنها برای فیلتر کردن یا هدف قرار دادن مشتریان استفاده کنید. به عنوان مثال ، برای شناسایی مشتریان از مدل اساسی که احتمالاً خریدار هستند ، از یک پرس و جو برای بازیابی موارد با احتمال پیش بینی حداقل 61 درصد استفاده می کنید. برای هدف قرار دادن مشتریان توسط مدل فیلتر شده ، شما پرس و جو ایجاد می کنید که مواردی را که تمام معیارها را برآورده می کند ، بازیابی می کند: سن و ارزش پیش بینی حداقل 46 درصد.
مقایسه مدل ها جالب است. به نظر می رسد که مدل فیلتر شده مشتریان بالقوه بیشتری را ضبط می کند ، اما وقتی مشتری را با نمره احتمال پیش بینی 46 درصد هدف قرار می دهید ، شما همچنین 53 درصد احتمال ارسال نامه برای شخصی را دارید که دوچرخه خریداری نمی کند. بنابراین ، اگر تصمیم می گرفتید که کدام مدل بهتر است ، می خواهید دقت بیشتری و اندازه هدف کوچکتر مدل فیلتر شده را در برابر انتخاب مدل اساسی متعادل کنید.
ارزش نمره به شما کمک می کند تا با محاسبه اثربخشی مدل در یک جمعیت عادی ، مدل ها را مقایسه کنید. نمره بالاتر بهتر است ، بنابراین در این حالت ممکن است تصمیم بگیرید که هدف قرار دادن مشتریان زیر 30 سال مؤثرترین استراتژی است ، با وجود احتمال پیش بینی پایین تر.
نمره چگونه محاسبه می شود؟
نمره به عنوان میانگین نمره هندسی تمام نقاط تشکیل دهنده یک نقشه پراکندگی که در آن محور x حاوی مقادیر واقعی است ، محور y حاوی مقدار پیش بینی شده است و هر نقطه احتمال مرتبط دارد.
معنای آماری هر نمره نقطه ای فردی ، آسانسور پیش بینی کننده برای مدل اندازه گیری شده در آن نقطه است. میانگین همه امتیازها نمره مدل را تشکیل می دهد.
نمودار بلند برای مدل بدون ارزش هدف
اگر وضعیت ستون قابل پیش بینی را مشخص نکنید ، نوع نمودار نشان داده شده در نمودار زیر را ایجاد می کنید. این نمودار نشان می دهد که چگونه مدل برای همه حالت های ویژگی قابل پیش بینی عملکرد دارد. به عنوان مثال ، این نمودار به شما می گوید که این مدل چقدر خوب پیش بینی می کند که هر دو مشتریانی که احتمالاً دوچرخه خریداری می کنند ، و کسانی که بعید به نظر می رسند دوچرخه بخرند ، پیش بینی می کند.
محور x مانند نمودار با ستون قابل پیش بینی مشخص است، اما محور y اکنون نشان دهنده درصد پیش بینی های صحیح است. بنابراین، خط ایده آل، خط مورب است که نشان می دهد در 50 درصد داده ها، مدل 50 درصد موارد را به درستی پیش بینی می کند، حداکثری که می توان انتظار داشت.

می توانید روی نمودار کلیک کنید تا نوار خاکستری عمودی را جابجا کنید، و Mining Legend درصد موارد کلی و درصد مواردی که به درستی پیش بینی شده اند را نشان می دهد. برای مثال، اگر نوار لغزنده خاکستری را روی علامت 50 درصد قرار دهید، Mining Legend امتیازهای دقت زیر را نشان می دهد. این ارقام بر اساس مدل TM_Decision Tree ایجاد شده در آموزش پایه داده کاوی است.
| سری، مدل | نمره | جمعیت هدف | پیش بینی احتمال |
| TM_درخت تصمیم | 0. 77 | 40. 50٪ | 72. 91% |
| مدل ایده آل | 50. 00٪ |
این جدول به شما می گوید که در 50 درصد جمعیت، مدلی که ایجاد کرده اید، 40 درصد موارد را به درستی پیش بینی می کند. شما ممکن است این را یک مدل نسبتا دقیق در نظر بگیرید. با این حال، به یاد داشته باشید که این مدل خاص تمام مقادیر ویژگی قابل پیش بینی را پیش بینی می کند. بنابراین، این مدل ممکن است در پیش بینی اینکه 90 درصد مشتریان دوچرخه نمی خرند، دقیق باشد.
محدودیت در نمودارهای بالابر
نمودارهای لیفت ایجاب می کنند که ویژگی قابل پیش بینی یک مقدار گسسته باشد. به عبارت دیگر، شما نمی توانید از نمودارهای بالابر برای اندازه گیری دقت مدل هایی که مقادیر عددی پیوسته را پیش بینی می کنند، استفاده کنید.
دقت پیش بینی برای همه مقادیر گسسته ویژگی قابل پیش بینی در یک خط نشان داده می شود. اگر می خواهید خطوط دقت پیش بینی را برای هر مقدار منفرد از ویژگی قابل پیش بینی ببینید، باید برای هر مقدار هدف یک نمودار افزایش جداگانه ایجاد کنید.
می توانید چندین مدل را به نمودار بالابر اضافه کنید، به شرطی که همه مدل ها ویژگی قابل پیش بینی یکسانی داشته باشند. مدل هایی که این ویژگی را به اشتراک نمی گذارند برای انتخاب در برگه ورودی در دسترس نیستند.
شما نمی توانید مدل های سری زمانی را در نمودار بالابر یا نمودار سود نمایش دهید. یک روش معمول برای اندازه گیری دقت پیش بینی های سری زمانی، ذخیره بخشی از داده های تاریخی و مقایسه آن داده ها با پیش بینی ها است. برای اطلاعات بیشتر، الگوریتم سری زمانی مایکروسافت را ببینید.
کتاب آموزش بورس...
ما را در سایت کتاب آموزش بورس دنبال می کنید
برچسب :
نویسنده : محمود استادمحمد
بازدید : 37
تاريخ : يکشنبه
12 شهريور
1402 ساعت: 15:41