Perbezaan antara pembuatan dan hutan rawak

Perbezaan antara pembuatan dan hutan rawak

Selama bertahun -tahun, sistem pengelas berganda, yang juga dikenali sebagai Sistem Ensemble telah menjadi topik penyelidikan yang popular dan menikmati perhatian yang semakin meningkat dalam Kecerdasan Komputasi dan Komuniti Pembelajaran Mesin. Ia menarik minat saintis dari beberapa bidang termasuk pembelajaran mesin, statistik, pengenalan corak, dan penemuan pengetahuan dalam pangkalan data. Dari masa ke masa, kaedah ensemble telah membuktikan diri mereka sangat berkesan dan serba boleh dalam spektrum domain masalah dan aplikasi dunia sebenar. Asalnya dibangunkan untuk mengurangkan varians dalam sistem membuat keputusan automatik, kaedah ensemble telah digunakan untuk menangani pelbagai masalah pembelajaran mesin. Kami membentangkan gambaran keseluruhan dua algoritma ensemble yang paling menonjol - Bagging dan Hutan Rawak - dan kemudian bincangkan perbezaan antara kedua -dua.

Dalam banyak kes, pembungkus, yang menggunakan pensampelan bootstrap, klasifikasi tress telah terbukti mempunyai ketepatan yang lebih tinggi daripada pokok klasifikasi tunggal. Bagging adalah salah satu algoritma berasaskan ensemble tertua dan paling mudah, yang boleh digunakan untuk algoritma berasaskan pokok untuk meningkatkan ketepatan ramalan. Terdapat satu lagi versi yang dipertingkatkan dari pembungkusan yang dipanggil algoritma Random Forest, yang pada dasarnya merupakan ensemble pokok keputusan yang dilatih dengan mekanisme pembungkus. Mari kita lihat bagaimana algoritma hutan rawak berfungsi dan bagaimana ia berbeza daripada pemangkin dalam model ensemble.

Bagging

Agregasi Bootstrap, juga dikenali sebagai Bagging, adalah salah satu algoritma berasaskan ensemble terawal dan paling mudah untuk membuat pokok keputusan lebih mantap dan mencapai prestasi yang lebih baik. Konsep di sebalik pembungkus adalah untuk menggabungkan ramalan beberapa pelajar asas untuk menghasilkan output yang lebih tepat. Leo Breiman memperkenalkan algoritma pembungkus pada tahun 1994. Dia menunjukkan bahawa agregasi bootstrap dapat membawa hasil yang diingini dalam algoritma pembelajaran yang tidak stabil di mana perubahan kecil ke data latihan dapat menyebabkan variasi yang besar dalam ramalan. Bootstrap adalah sampel dataset dengan pengganti.

Hutan rawak

Random Forest adalah algoritma pembelajaran mesin yang diselia berdasarkan pembelajaran ensemble dan evolusi algoritma pembangkang asal Breiman. Ini adalah peningkatan yang besar terhadap pokok keputusan yang dibungkus untuk membina pelbagai pokok keputusan dan mengagregatkannya untuk mendapatkan hasil yang tepat. Breiman menambah variasi rawak tambahan ke dalam prosedur pembungkus, mewujudkan kepelbagaian yang lebih besar di antara model yang dihasilkan. Hutan rawak berbeza dari pokok yang dibungkus dengan memaksa pokok itu hanya menggunakan subset peramal yang ada untuk berpecah dalam fasa yang semakin meningkat. Semua pokok keputusan yang membentuk hutan rawak berbeza kerana setiap pokok dibina di atas subset rawak data yang berbeza. Kerana ia meminimumkan overfitting, ia cenderung lebih tepat daripada satu pokok keputusan.

Perbezaan antara pembuatan dan hutan rawak

Asas

- Kedua-dua Hutan Bagging dan Rawak adalah algoritma berasaskan ensemble yang bertujuan untuk mengurangkan kerumitan model yang melampaui data latihan. Agregasi bootstrap, juga dipanggil pembungkus, adalah salah satu kaedah ensemble tertua dan kuat untuk mengelakkan terlalu banyak. Ia adalah teknik meta yang menggunakan pengelas pelbagai untuk meningkatkan ketepatan ramalan. Bagging hanya bermaksud melukis sampel rawak keluar dari sampel latihan untuk penggantian untuk mendapatkan ensemble model yang berbeza. Random Forest adalah algoritma pembelajaran mesin yang diselia berdasarkan pembelajaran ensemble dan evolusi algoritma pembangkang asal Breiman.

Konsep

- Konsep pensampelan bootstrap (bagging) adalah untuk melatih sekumpulan pokok keputusan yang tidak disusun pada subset rawak yang berlainan dari data latihan, persampelan dengan penggantian, untuk mengurangkan variasi pokok keputusan. Idea ini adalah untuk menggabungkan ramalan beberapa pelajar asas untuk menghasilkan output yang lebih tepat. Dengan hutan rawak, variasi rawak tambahan dimasukkan ke dalam prosedur pembungkus untuk mewujudkan kepelbagaian yang lebih besar di antara model yang dihasilkan. Idea di sebalik hutan rawak adalah untuk membina pelbagai pokok keputusan dan mengagregat mereka untuk mendapatkan hasil yang tepat.

Matlamat

- Kedua -dua pokok dan hutan rawak adalah instrumen pembelajaran ensemble yang paling biasa digunakan untuk menangani pelbagai masalah pembelajaran mesin. Sampling Bootstrap adalah algoritma meta yang direka untuk meningkatkan ketepatan dan kestabilan model pembelajaran mesin menggunakan pembelajaran ensemble dan mengurangkan kerumitan model overfitting. Algoritma Hutan Rawak sangat teguh terhadap overfitting dan ia baik dengan data yang tidak seimbang dan hilang. Ia juga pilihan algoritma pilihan untuk membina model ramalan. Matlamatnya adalah untuk mengurangkan varians dengan purata pelbagai pokok keputusan yang mendalam, dilatih pada pelbagai sampel data.

Bagging vs. Hutan Rawak: Carta Perbandingan

Ringkasan

Kedua -dua pokok dan hutan rawak adalah instrumen pembelajaran ensemble yang paling biasa digunakan untuk menangani pelbagai masalah pembelajaran mesin. Bagging adalah salah satu algoritma berasaskan ensemble tertua dan paling mudah, yang boleh digunakan untuk algoritma berasaskan pokok untuk meningkatkan ketepatan ramalan. Hutan rawak, sebaliknya, adalah algoritma pembelajaran mesin yang diselia dan versi pensampelan bootstrap yang dipertingkatkan yang digunakan untuk masalah regresi dan klasifikasi. Idea di sebalik hutan rawak adalah untuk membina pelbagai pokok keputusan dan mengagregat mereka untuk mendapatkan hasil yang tepat. Hutan rawak cenderung lebih tepat daripada pokok keputusan tunggal kerana meminimumkan overfitting.