Perbezaan antara perlombongan data yang diselia dan tidak diselia

Perbezaan antara perlombongan data yang diselia dan tidak diselia

Perlombongan data menggunakan banyak kaedah pengiraan dan algoritma untuk mengusahakan pengekstrakan pengetahuan. Klasifikasi mungkin merupakan bentuk analisis data yang paling asas. Tugas biasa dalam perlombongan data adalah untuk mengkaji data di mana klasifikasi tidak diketahui atau akan berlaku pada masa akan datang, dengan matlamat untuk meramalkan apa klasifikasi itu atau akan. Begitu juga, data di mana klasifikasi diketahui digunakan untuk membangunkan peraturan, yang kemudiannya digunakan pada data di mana klasifikasi tidak diketahui. Yang dikatakan, teknik perlombongan data datang dalam dua bentuk utama: diselia dan tidak diselia. Diselia adalah teknik ramalan manakala tanpa pengawasan adalah teknik deskriptif. Walaupun kedua -dua algoritma digunakan secara meluas untuk mencapai tugas perlombongan data yang berbeza, adalah penting untuk memahami perbezaan antara kedua -dua.

Apa yang diselia Data Perlombongan?

Perlombongan data yang diselia, seperti namanya, merujuk kepada algoritma pembelajaran yang digunakan dalam klasifikasi dan ramalan. Algoritma yang diselia belajar dari data latihan yang dilabelkan dan tugasnya dikawal oleh jurutera pengetahuan dan pereka sistem. Dengan data yang diselia, kita mesti mengetahui input yang sepadan dengan output yang diketahui, seperti yang ditentukan oleh pakar domain. Tugas perlombongan data sering dirujuk sebagai pembelajaran yang diselia kerana kelas ditentukan sebelum memeriksa data. Teknik ini menggunakan fungsi objektif (pemboleh ubah bergantung) dan satu set elemen data yang merupakan pembolehubah bebas. Teknik yang diselia cuba mengenal pasti hubungan antara pembolehubah yang bergantung dan bebas, mengenal pasti tahap korelasi bagi setiap set pembolehubah, dan membina model yang menunjukkan Web of Dependencies. Model ini kemudiannya digunakan pada data yang mana nilai sasaran tidak diketahui.

Apakah perlombongan data yang tidak diselia?

Tidak seperti teknik yang diselia, perlombongan data yang tidak diselia tidak mempunyai fungsi objektif yang telah ditetapkan, dan juga tidak meramalkan nilai sasaran. Teknik yang tidak diselia adalah di mana tidak ada pemboleh ubah hasil untuk meramalkan atau mengklasifikasikan. Oleh itu, tidak ada pembelajaran dari kes -kes di mana pemboleh ubah hasil sedemikian diketahui. Algoritma memerlukan pengguna untuk menentukan bilangan selang dan/atau berapa banyak titik data yang harus dimasukkan dalam selang tertentu. Ia membantu anda mengenal pasti semua jenis corak yang tidak diketahui dalam data. Model yang tidak diselia juga dipanggil model deskriptif kerana ia mencari corak yang tidak diketahui dalam set data tanpa label yang telah ditetapkan dan tanpa pengawasan manusia yang minimum. Kaedah pembelajaran yang tidak diselia termasuk kaedah kluster, persatuan, dan pengekstrakan. Teknik pembelajaran jenis ini digunakan apabila matlamat tertentu tidak tersedia atau ketika pengguna berusaha mencari hubungan tersembunyi dalam data.

Perbezaan antara perlombongan data yang diselia dan tidak diselia

Data

- Pembelajaran yang diselia adalah tugas perlombongan data menggunakan algoritma untuk membangunkan model pada data input dan output yang diketahui, yang bermaksud algoritma belajar dari data yang dilabelkan untuk meramalkan hasil dari data input. Teknik yang diselia hanya belajar dari set data latihan. Pembelajaran yang tidak diselia, sebaliknya, adalah teknik menggunakan algoritma di mana tidak ada pemboleh ubah hasil untuk meramalkan atau mengklasifikasikan, yang bermaksud tidak ada pembelajaran dari kes -kes di mana pemboleh ubah hasil sedemikian diketahui.

Matlamat

- Teknik yang diselia cuba mengenal pasti hubungan santai antara pembolehubah yang bergantung dan bebas, mengasingkan tahap korelasi bagi setiap set pembolehubah, dan membangunkan model yang menunjukkan web kebergantungan. Model ini kemudiannya digunakan untuk data yang mana nilai sasaran tidak diketahui. Pembelajaran yang tidak diselia bertujuan untuk mengenal pasti corak yang tidak diketahui dalam set data tanpa label yang telah ditetapkan dan tanpa pengawasan manusia yang minimum. Matlamat teknik perlombongan data yang tidak diselia adalah mencari corak dalam set data berdasarkan hubungan antara titik data sendiri.

Kaedah

- Model yang diselia adalah yang digunakan dalam klasifikasi dan ramalan, oleh itu dipanggil model ramalan kerana mereka belajar dari data latihan, yang merupakan data dari mana klasifikasi atau algoritma ramalan belajar. Sebaik sahaja algoritma telah dipelajari dari data latihan, ia kemudiannya digunakan untuk sampel data lain di mana hasilnya diketahui. Kaedah ini termasuk fungsi yang diselia berikut: klasifikasi, regresi, dan pengesanan anomali. Perlombongan data yang tidak diselia membantu anda mengenal pasti semua jenis corak yang tidak diketahui dalam data menggunakan kaedah seperti kluster, persatuan, dan pengekstrakan.

Skalabiliti

- Skalabilitas adalah salah satu isu utama dengan perlombongan set data besar dan tidak praktikal untuk menghuraikan keseluruhan data yang ditetapkan lebih dari sekali. Perlombongan data yang diselia cenderung sangat berskala, bermakna ia dapat mengendalikan jumlah data yang besar dalam bingkai masa yang tidak meningkat secara tidak munasabah, dan umumnya cepat. Kaedah pembelajaran yang tidak diselia, sebaliknya, sering menimbulkan beberapa isu ketika datang ke skalabilitas jika beberapa jenis penilaian selari tidak digunakan, dan tidak seperti pembelajaran yang diawasi, ia agak lambat, tetapi dapat menumpu ke arah pelbagai set keadaan penyelesaian.

Diselia vs. Perlombongan data yang tidak diselia: Carta perbandingan

Ringkasan

Ringkas. Teknik yang diselia digunakan apabila matlamat yang pasti tersedia dan pengguna berusaha untuk menentukan bagaimana perubahan dalam keadaan data mempengaruhi hasilnya. Perlombongan data yang tidak diselia, sebaliknya, bermula dengan batu tulis yang bersih, yang bermaksud ia tidak mempunyai fungsi objektif yang telah ditetapkan dan pengguna cuba mencari corak yang tidak diketahui atau hubungan tersembunyi dalam data. Matlamat perlombongan data yang tidak diselia adalah mencari corak dalam set data berdasarkan hubungan antara titik data sendiri.