Machine Learning

Machine Learning (disingkat ML) dikenal juga sebagai pembelajaran mesin (Dinata dan Hasdyna, 2020).

Sejarah dan Definisi

Istilah machine learning pertama kali dikemukakan oleh beberapa ilmuwan matematika seperti Adrien Marie Legendre, Thomas Bayes dan Andrey Markov pada tahun 1920-an dengan mengemukakan dasar-dasar machine learning dan konsepnya.
Salah satu contoh penerapan ML yang cukup terkenal adalah Deep Blue yang dibuat oleh IBM (International Business Machines Corporation) pada tahun 1996.

Menurut IBM, ML adalah cabang kecerdasan buatan (Artificial Intelligence, disingkat AI) yang difokuskan untuk memungkinkan komputer dan mesin meniru cara manusia belajar, untuk melakukan tugas secara mandiri, dan untuk meningkatkan kinerja dan keakuratan melalui pengalaman dan paparan terhadap lebih banyak data.
Tipe Model Pembelajaran
Tipe model ML yang ditentukan oleh ada atau tidaknya pengaruh manusia pada data mentah (raw data). Terbagi atas model inti dan model tambahan.
- Model inti terdiri atas :
  1. Supervised learning (Pembelajaran terawasi)
    Model ini ditentukan oleh penggunaan kumpulan data berlabel untuk melatih algoritma guna mengklasifikasi data atau memprediksi hasil secara akurat. Saat data input dimasukkan ke dalam model, model menyesuaikan bobotnya hingga data tersebut dipasang dengan tepat. Hal ini terjadi sebagai bagian dari proses validasi silang untuk memastikan bahwa model menghindari overfitting atau underfitting. Pembelajaran terawasi membantu memecahkan berbagai masalah dunia nyata dalam skala besar.
    Kategori algoritma utama yang digunakan yaitu clasification dan regression. Algoritma ini meliputi neural network, Naïve Bayes, regresi linear, regresi logistik, hutan acak, K-Nearest Neighbors (KNN) dan mesin vektor pendukung (support vector machine – SVM).
    Algoritma pembelajaran supervised machine terdiri atas komponen :
    
    Decision process
    Secara umum, algoritma ML digunakan untuk membuat prediksi atau klasifikasi. Berdasarkan beberapa data input, yang bisa berlabel atau tidak berlabel, algoritmanya akan menghasilkan perkiraan tentang pola dalam data.
    
    Error function
    Fungsi kesalahan mengevaluasi prediksi model. Jika ada contoh yang diketahui, fungsi kesalahan dapat membuat perbandingan untuk menilai keakuratan model.
    
    Updating or optimization process
    Jika model dapat lebih cocok dengan titik data dalam set pelatihan, maka bobot disesuaikan untuk mengurangi perbedaan antara contoh yang diketahui dan estimasi model. Algoritma akan mengulangi proses mengevaluasi dan mengoptimalkan ini, memperbarui bobot secara mandiri sampai ambang batas akurasi terpenuhi.
  2. Unsupervised learning (Pembelajaran tanpa pengawasan)
    Model ini menggunakan algoritma ML untuk menganalisis dan mengelompokkan kumpulan data tanpa label (subset yang disebut cluster). Algoritma ini menemukan pola tersembunyi atau pengelompokan data tanpa perlu campur tangan manusia.
    Kemampuan pembelajaran tanpa pengawasan untuk menemukan persamaan dan perbedaan informasi membuatnya ideal untuk analisis data eksplorasi, strategi penjualan silang, segmentasi pelanggan, serta pengenalan gambar dan pola. Ini juga digunakan untuk mengurangi jumlah fitur dalam model melalui proses pengurangan dimensi.
    Analisis komponen utama (principal component analysis – PCA) dan dekomposisi nilai tunggal (singular value decomposition – SVD) adalah dua algoritma umum yang digunakan. Algoritma lainnya termasuk neural network, k-means clustering, dan metode clustering probabilistik.
  3. Reinforcement learning (Pembelajaran penguatan)
    Model ini mirip dengan pembelajaran terawasi, tetapi algoritmanya tidak dilatih menggunakan data sampel. Model ini belajar seiring berjalannya waktu dengan metode trial-error. Urutan hasil yang berhasil akan diperkuat untuk mengembangkan rekomendasi atau kebijakan terbaik untuk masalah tertentu.
    Contoh algoritmanya yaitu Q-Learning dan Deep Q-Networks (DQN).
- Model tambahan terutama digunakan dalam deep learning (pembelajaran mendalam). Model tambahan terdiri dari :
  1. Self-supervised learning (Pembelajaran mandiri)
    Dianggap sebagai bagian dari pembelajaran tanpa pengawasan, tetapi telah berkembang menjadi bidang tersendiri berkat keberhasilannya dalam melatih model skala besar. Pembelajaran mandiri menghasilkan labelnya sendiri dari data, tanpa pelabelan manual.
  2. Semi-supervised learning (Pembelajaran semi-terawasi)
    Model ini menawarkan keseimbangan antara pembelajaran terawasi dan tanpa pengawasan. Selama pelatihan, sistem ini menggunakan kumpulan data berlabel yang lebih kecil untuk memandu klasifikasi dan ekstraksi fitur dari kumpulan data yang lebih besar dan tidak berlabel. Pembelajaran semi-terawasi dapat memecahkan masalah kekurangan data berlabel untuk algoritma pembelajaran terawasi. Ini juga membantu jika biaya terlalu mahal untuk memiliki data berlabel yang cukup.
    Contoh algoritmanya yaitu Self-Training dan Co-Training
Algoritma
Pemilihan algoritma ML yang sesuai memungkinkan untuk menganalisis data dalam skala besar dan membuat keputusan yang lebih baik dan lebih cepat. Berikut ini beberapa algoritmanya :
1. Neural networks (Jaringan neural)
  Mensimulasikan cara kerja otak manusia, dengan sejumlah besar node pemrosesan yang terhubung. Neural network sangat baik dalam mengenali pola dan memainkan peran penting dalam aplikasi termasuk penerjemahan bahasa alami, pengenalan gambar, pengenalan suara, dan pembuatan gambar.
2. Linear regression (Regresi linier)
  Algoritma ini digunakan untuk memprediksi nilai numerik, berdasarkan hubungan linier antara nilai yang berbeda. Misalnya, teknik ini dapat digunakan untuk memprediksi harga rumah berdasarkan data historis untuk daerah tersebut.
3. Logistic regression (Regresi logistik)
  Algoritma pembelajaran terawasi ini membuat prediksi untuk variabel respons kategoris, seperti jawaban “ya/tidak”. Ini dapat digunakan untuk aplikasi seperti mengklasifikasikan spam dan kontrol kualitas pada lini produksi.
4. Naive Bayes Classifiers
  Algoritma klasifikasi yang memprediksi kategori suatu titik data menggunakan probabilitas. Algoritma ini mengasumsikan bahwa semua fitur bersifat independen satu sama lain. Berkinerja baik dalam banyak aplikasi dunia nyata seperti penyaringan spam, kategorisasi dokumen, dan analisis sentimen.
5. Clustering (Pembuatan klaster)
  Menggunakan pembelajaran tanpa pengawasan, algoritma clustering dapat mengidentifikasi pola dalam data sehingga itu dapat dikelompokkan. Algoritma dapat membantu para ilmuwan data dengan mengidentifikasi perbedaan antara item data yang terlewatkan oleh manusia.
6. K Means Clustering
  Mengelompokkan titik-titik data ke dalam klaster berdasarkan kesamaan inherennya. Digunakan pada data yang tidak berlabel dan tujuannya adalah untuk mengungkap pola atau struktur tersembunyi.
7. Decision trees (Pohon keputusan)
  Decision trees dapat digunakan untuk memprediksi nilai numerik (regresi) dan mengklasifikasi data ke dalam kategori. Algoritma ini menggunakan urutan percabangan keputusan terkait yang dapat direpresentasikan dengan diagram pohon. Salah satu keuntungan dari decision trees adalah kemudahannya untuk divalidasi dan diaudit, tidak seperti kotak hitam dari neural network.
8. Random forest (Hutan acak)
  Di hutan acak, algoritma machine learning memprediksi nilai atau kategori dengan menggabungkan hasil dari sejumlah decision trees.
9. K-Nearest Neighbors (KNN)
  Umumnya digunakan untuk klasifikasi, tetapi juga dapat digunakan untuk tugas regresi. Algoritma ini bekerja dengan mencari “k” titik data terdekat (tetangga) ke input yang diberikan dan membuat prediksi berdasarkan kelas mayoritas (untuk klasifikasi) atau nilai rata-rata (untuk regresi). KNN tidak membuat asumsi tentang distribusi data yang mendasarinya, KNN menjadikannya metode pembelajaran non-parametrik dan berbasis instans.
Siklus Cara Kerja
1. Problem statement
  Identifikasi dan mendefinisikan permasalahan yang dihadapi.
2. Data collection
  Pengumpulan data, bisa berbentuk raw data maupun dataset.
3. Data cleaning & preprocessing
  Pemahaman tentang dataset menjadi kunci dan sebagai bahan bakar yang menggerakkan algoritma. Sebelum data bisa digunakan, terutama data mentah perlu diproses terlebih dahulu. Proses ini bisa berupa pembersihan data, pengisian nilai yang hilang, dan normalisasi sehingga menjadi dataset.
4. Exploratory data analysis (EDA)
  Menganalisis dan meringkas kumpulan data.
5. Feature engineering & selection
  Memilih fitur-fitur yang relevan untuk meningkatkan efisiensi dan prediksi model sekaligus mengurangi kompleksitas.
6. Model selection
  Pemilihan model merupakan bagian penting. Pemilihan model yang baik adalah menemukan model yang selaras dengan masalah yang sudah didefinisikan, sifat data, kompleksitas masalah, dan hasil yang diharapkan.
7. Model training
  Model diberi masukan berupa dataset dan membiarkannya belajar dari dataset tersebut.
8. Model evaluation & tuning
  Mengevaluasi hasil model dan melakukan perbaikan jika diperlukan.
9. Model deployment
  Penerapan model pada aplikasi di dunia nyata.
10. Model monitoring & maintenance
  Pemantauan untuk memastikan kinerjanya tetap baik seiring waktu. Pelacakan rutin membantu mendeteksi penyimpangan data, penurunan akurasi, atau perubahan pola, dan pelatihan ulang mungkin diperlukan untuk menjaga keandalan model dalam penggunaan di dunia nyata.
Pustaka Pemrograman
Beberapa pustaka (library) telah tersedia untuk mempermudah pemrograman (khususnya) berbasis ML menggunakan bahasa pemrograman tertentu, diantaranya :
1. PHP : pustaka PHP-ML dan Rubix ML.
2. Phyton :
  1. Pustaka berbasis ML : NumPy, Pandas, Matplotlib, Seaborn, MLFlow, Scikit-learn, XGBoost dan Keras.
  2. Pustaka berbasis Deep learning : PyTorch dan TensorFlow.
  3. Pustaka berbasis NLP : pustaka NLTK (Natural Language Toolkit) dan Hugging Face Transformers.

Referensi :

M	T	W	T	F	S	S
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Leave a Reply Cancel reply