2. 8برآورد چگالی ¶

ساخت وبلاگ

تخمین تراکم خط بین یادگیری بدون نظارت ، مهندسی ویژگی و مدل سازی داده ها را طی می کند. برخی از محبوب ترین و مفیدترین تکنیک های برآورد چگالی مدل های مخلوط مانند مخلوط های گاوسی (Gaussianmixture) و رویکردهای همسایه مانند برآورد چگالی هسته (هسته اصلی) است. مخلوط های گاوسی به طور کامل در زمینه خوشه بندی مورد بحث قرار می گیرد ، زیرا این تکنیک به عنوان یک طرح خوشه بندی بدون نظارت نیز مفید است.

برآورد چگالی یک مفهوم بسیار ساده است و بیشتر افراد در حال حاضر با یک روش تخمین چگالی مشترک آشنا هستند: هیستوگرام.

2. 8. 1. برآورد چگالی: هیستوگرام

هیستوگرام یک تجسم ساده از داده ها است که سطل ها در آن تعریف می شوند و تعداد نقاط داده در هر سطل بلند است. نمونه ای از هیستوگرام را می توان در پانل سمت چپ فوقانی شکل زیر مشاهده کرد:

hist_to_kde

با این حال ، یک مشکل عمده در هیستوگرام این است که انتخاب binning می تواند تأثیر نامتناسب در تجسم حاصل داشته باشد. پانل سمت راست شکل فوق را در نظر بگیرید. این یک هیستوگرام را بر روی همان داده ها نشان می دهد ، و سطل ها به سمت راست تغییر می کنند. نتایج این دو تجسم کاملاً متفاوت به نظر می رسد و ممکن است منجر به تفسیرهای مختلف از داده ها شود.

به طور شهودی ، می توان از هیستوگرام به عنوان پشته بلوک ، یک بلوک در هر نقطه فکر کرد. با جمع کردن بلوک ها در فضای شبکه مناسب ، هیستوگرام را بازیابی می کنیم. اما اگر به جای جمع کردن بلوک ها روی یک شبکه معمولی ، هر بلوک را روی نقطه ای که نشان می دهد ، قرار می دهیم و ارتفاع کل را در هر مکان جمع می کنیم؟این ایده منجر به تجسم چپ پایین می شود. شاید به اندازه یک هیستوگرام تمیز نباشد ، اما این واقعیت که داده ها مکان های بلوک را هدایت می کنند به این معنی است که نمایش بسیار بهتری از داده های اساسی است.

این تجسم نمونه ای از تخمین چگالی هسته است ، در این حالت با یک هسته کلاه بالا (یعنی یک بلوک مربع در هر نقطه). ما می توانیم با استفاده از یک هسته نرم تر ، توزیع نرم تر را بازیابی کنیم. طرح پایین سمت راست تخمین چگالی هسته گاوسی را نشان می دهد ، که در آن هر نقطه یک منحنی گاوسی را به کل کمک می کند. نتیجه یک برآورد چگالی صاف است که از داده ها حاصل می شود و به عنوان یک مدل قدرتمند غیر پارامتری توزیع نقاط عمل می کند.

2. 8. 2. تخمین چگالی هسته ¶

برآورد چگالی هسته در Scikit-Lea در برآوردگر هسته ای اجرا شده است ، که از درخت توپ یا درخت KD برای نمایش داده های کارآمد استفاده می کند (برای بحث در مورد این موارد به نزدیکترین همسایگان مراجعه کنید). اگرچه مثال فوق از یک مجموعه داده 1D برای سادگی استفاده می کند ، برآورد چگالی هسته می تواند در هر تعداد ابعاد انجام شود ، اگرچه در عمل لعنت ابعاد باعث می شود عملکرد آن در ابعاد بالا تخریب شود.

در شکل زیر ، 100 امتیاز از توزیع دوقلوی کشیده شده است ، و تخمین چگالی هسته برای سه گزینه هسته نشان داده شده است:

kde_1d_distribution

واضح است که چگونه شکل هسته بر صافی توزیع حاصل تأثیر می گذارد. برآوردگر چگالی هسته Scikit-Lea می تواند به شرح زیر باشد:

در اینجا ما همانطور که در بالا مشاهده شد ، از هسته = "گاوسی" استفاده کرده ایم. از نظر ریاضی ، یک هسته یک عملکرد مثبت (K (X ؛ H) ) است که توسط پارامتر پهنای باند (H ) کنترل می شود. با توجه به این شکل هسته ، برآورد چگالی در یک نقطه (y ) در گروهی از نقاط (x_i ؛ i = 1 cdots n ) توسط:

پهنای باند در اینجا به عنوان یک پارامتر صاف کننده عمل می کند و کنترل تجارت بین تعصب و واریانس در نتیجه را کنترل می کند. یک پهنای باند بزرگ منجر به توزیع چگالی بسیار صاف (یعنی تعصب بالا) می شود. یک پهنای باند کوچک منجر به توزیع چگالی غیرقانونی (یعنی با واریانس بالا) می شود.

پهنای باند پارامتر این هموار سازی را کنترل می کند. می توان این پارامتر را به صورت دستی تنظیم کرد یا از روشهای تخمین اسکات و سیلورمن استفاده کرد.

هسته های هسته چندین شکل هسته مشترک را اجرا می کند ، که در شکل زیر نشان داده شده است:

kde_keels

شکل این هسته ها به شرح زیر است:

هسته گاوسی (هسته = "گاوسی")

هسته tophat (هسته = 'tophat')

(k (x ؛ h) propto 1 ) اگر (x

هسته Epanechnikov (هسته = 'Epanechnikov')

هسته نمایی (هسته = "نمایی")

(k (x ؛ h) propto exp (-x/h) )

هسته خطی (هسته = 'خطی')

(k (x ؛ h) propto 1 - x/h ) اگر (x

هسته Cosine (هسته = 'cosine')

برآوردگر چگالی هسته می تواند با هر یک از معیارهای از راه دور معتبر مورد استفاده قرار گیرد (برای لیستی از معیارهای موجود به Distancemetric مراجعه کنید) ، اگرچه نتایج به درستی فقط برای متریک اقلیدسی نرمال می شوند. یک متریک مخصوصاً مفید ، فاصله Haversine است که فاصله زاویه ای بین نقاط را در یک کره اندازه گیری می کند. در اینجا نمونه ای از استفاده از تخمین تراکم هسته برای تجسم داده های جغرافیایی ، در این حالت توزیع مشاهدات دو گونه مختلف در قاره آمریکای جنوبی وجود دارد:

species_kde

یکی دیگر از کاربردهای مفید برآورد چگالی هسته ، یادگیری یک مدل تولیدی غیر پارامتری از یک مجموعه داده به منظور ترسیم نمونه های جدید از این مدل تولیدی است. در اینجا نمونه ای از استفاده از این فرآیند برای ایجاد مجموعه جدیدی از ارقام دست نوشته شده ، با استفاده از یک هسته گاوسی که در یک طرح PCA از داده ها آموخته شده است:

digits_kde

داده های "جدید" شامل ترکیبات خطی از داده های ورودی است که با توجه به مدل KDE ، وزن به طور احتمالی ترسیم شده است.

تخمین تراکم هسته 1D ساده: محاسبه برآورد چگالی هسته ساده در یک بعد.

برآورد چگالی هسته: نمونه ای از استفاده از برآورد چگالی هسته برای یادگیری یک مدل تولیدی از داده های رقم دست نوشته شده و ترسیم نمونه های جدید از این مدل.

برآورد چگالی هسته توزیع گونه ها: نمونه ای از برآورد چگالی هسته با استفاده از متریک فاصله Haversine برای تجسم داده های جغرافیایی

توصیه معامله گران با تجربه...
ما را در سایت توصیه معامله گران با تجربه دنبال می کنید

برچسب : نویسنده : حمید ابراهیمی بازدید : 52 تاريخ : سه شنبه 9 خرداد 1402 ساعت: 23:32