Minggu, 07 Juli 2024

TUGAS PERTEMUAN 1

 PROSES ATAU TAHAPAN DATA MINING

1. Penentuan tujuan: memastikan tujuan penambangan data agar sesuai dengan kebutuhan.

2. Pengumpulan data: mengumpulkan data-data yang sesuai dengan tujuan dan menyimpannya di data warehouse.

3. Persiapan data: merapikan data agar tidak ada yang duplikat, hilang, atau berkualitas buruk.

4. Modeling data: membuat dan menguji beberapa model data dengan algoritma yang dipilih agar sesuai dengan tujuan data mining.

5. Evaluasi data: mengevaluasi kinerja dan validitas model data yang dibuat.

6. Penyajian data: menyajikan hasil data mining dalam bentuk yang mudah dipahami dan bermanfaat bagi pengguna.


CRISP-DM( CROSS-INDUSTRY STANDARD PROCESS FOR DATA MINING)

 CRISP-DM (Cross-Industry Standard Process for Data Mining) adalah sebuah model proses standar yang menggambarkan pendekatan-pendekatan umum yang digunakan oleh para ahli data mining. Model ini adalah model analitik yang paling banyak digunakan. CRISP-DM terdiri dari enam tahap, yaitu:

1. Pemahaman bisnis: menentukan tujuan dan persyaratan proyek data mining sesuai dengan kebutuhan bisnis.

2. Pemahaman data: mengumpulkan, menjelajah, dan menganalisis data yang relevan dengan tujuan data mining.

3. Persiapan data: membersihkan, mengintegrasikan, dan mentransformasi data agar siap untuk pemodelan.

4. Pemodelan: membuat dan menguji beberapa model data dengan menggunakan algoritma-algoritma yang sesuai.

5. Evaluasi: mengevaluasi kinerja dan validitas model data yang dibuat dan memilih model terbaik.

6. Penyebaran: menyajikan atau mengimplementasikan hasil data mining kepada pihak-pihak yang terkait.

SEMMA( SAMPLE, EXPLORE, MODIFYL, MODEL, ASSESS )

 SEMMA adalah singkatan dari Sample, Explore, Modify, Model, dan Assess. Ini adalah sebuah model proses yang dikembangkan oleh SAS Institute, salah satu produsen perangkat lunak statistik dan bisnis intelligence. Model ini membimbing pelaksanaan proyek data mining dengan menekankan pada pengembangan dan penilaian model. Berikut adalah penjelasan singkat tentang masing-masing tahap SEMMA:


Sample: Tahap ini bersifat opsional, yaitu mengambil sampel data dari kumpulan data yang besar untuk menampung informasi yang signifikan, namun dapat dimanipulasi dengan cepat.

Explore: Tahap ini adalah mengeksplorasi data yang sudah dikumpulkan dengan mencari tren dan anomali yang tak terduga dalam rangka untuk mendapatkan pemahaman dan ide-ide.

Modify: Tahap ini adalah memodifikasi data dengan menciptakan, menyeleksi, dan mentransformasi variabel-variabel untuk fokus pada proses pemilihan model.

Model: Tahap ini adalah memodelkan data yang sudah dimodifikasi dengan menggunakan perangkat lunak untuk mencari secara otomatis kombinasi data yang dapat diandalkan untuk memprediksi hasil yang diinginkan.

Assess: Tahap ini adalah menilai data dengan mengevaluasi kegunaan dan keandalan penemuan dari proses data mining dan mengevaluasi sebaik mana model tersebut bekerja.

CCC(COMPUTATIONAL, COGNITIVE, AND COMMMUNICATION)

 CCC (Computational, Cognitive, and Communication) adalah sebuah model pendidikan yang mengintegrasikan tiga keterampilan penting untuk masa depan, yaitu:

Computational: kemampuan untuk berpikir secara logis, sistematis, dan kreatif dalam menyelesaikan masalah dengan menggunakan prinsip-prinsip ilmu komputer.

Cognitive: kemampuan untuk memahami, menganalisis, dan mengaplikasikan konsep-konsep dari berbagai bidang ilmu pengetahuan dan teknologi.

Communication: kemampuan untuk berkomunikasi secara efektif, baik lisan maupun tulisan, dengan menggunakan bahasa, media, dan teknologi yang sesuai.

TUGAS PERTEMUAN 10

 



Supervised learning mengacu pada sebuah teknologi kecerdasan buatan tergolong ke dalam kategori machine learning, di mana teknologi ini melatih algoritma dari perangkat komputer pada proses input data yang telah diberi label untuk output tertentu. Singkatnya, perancangan jenis learning ini khusus untuk melatih input data.

Algoritma komputer dilatih sampai mendapat hasil yakni dapat melakukan deteksi pola serta hubungan mendasar antara input data dan output label. Nantinya, hal itu akan memungkinkan penyajian dengan hasil pelabelan yang akurat. Pembelajaran satu ini dapat membantu perusahaan dalam memecahkan masalah berskala besar.

Jenis machine learning ini cocok untuk menyelesaikan masalah klasifikasi maupun regresi, seperti melakukan penentuan terhadap kategori yang ada pada artikel maupun melakukan prediksi terkait dengan volume penjualan pada waktu tertentu di masa mendatang. Tujuan jenis learning satu ini adalah untuk memperdalam pemahaman data dalam konteks pertanyaan.

Supervised learning bertujuan untuk membangun sebuah model guna membuat suatu prediksi berdasarkan bukti. Saat algoritma mendeteksi pola dalam data itu, komputer akan melakukan pembelajaran dari sebuah pengamatan. Saat melakukan lebih banyak pengamatan dalam waktu tertentu, komputer akan secara otomatis melakukan peningkatan pada kinerja prediktifnya.

Konsep pembelajaran yang berkebalikan dengan pembelajaran ini adalah unsupervised learning. Pada pendekatan ini, algoritma akan disajikan data tanpa label dan dirancang secara khusus untuk melakukan deteksi pada pola maupun kesamaannya.

Bagaimana Supervised Learning Bekerja?

Pada dasarnya, supervised learning bekerja layaknya machine learning lainnya, yakni berbasis pada proses pembelajaran atau pelatihan. Saat memasuki fase pembelajaran atau pelatihan itu, sistem akan menerima suatu rangkaian data dengan label yang akan memberi instruksi pada sistem. Model ini nantinya tersaji bersamaan dengan data uji.

Tujuan dari pengujian adalah untuk melakukan pengukuran tentang tingkat keakuratan algoritma yang akan tampil pada data tidak berlabel. Proses pembelajaran yang diawasi akan ditingkatkan dengan cara melakukan pengukuran terus-menerus terhadap output yang dihasilkan dari model serta melakukan penyempurnaan terhadap sistem agar mendekati tingkat akurasi target. Faktor yang mempengaruhi tingkat akurasi adalah data dengan label dan juga algoritma yang digunakan.

Dalam caranya bekerja, pembelajaran satu ini dibedakan menjadi dua jenis, yakni:



1. Klasifikasi

Algoritma berfungsi untuk melakukan penetapan data uji secara akurat ke dalam kategori tertentu. Algoritma nantinya akan mengenali entitas dalam data-data serta mencoba untuk menyimpulkan tentang apa atau bagaimana pemberian label atau pendefinisian entitas itu nantinya.



2. Regresi

Jenis ini berguna untuk memperdalam pemahaman yang berkorelasi dengan hubungan antara variabel terikat dan variabel bebas. Selain itu, regresi dapat juga berguna untuk melakukan pembuatan proyeksi seperti pendapatan penjualan dalam proses bisnis. Algoritma regresi yang populer adalah regresi linier, logistik, dan polinomial.



Kelebihan dan Kekurangan Supervised Learning

Daripada model pembelajaran lainnya, model supervised learning memiliki beberapa keuntungan. Namun, tentu saja pada kenyataannya mereka tetap memiliki kekurangan. Pembelajaran satu ini cenderung melakukan penilaian yang dapat berkaitan dengan manusia.

Namun, dalam kasus tertentu, sistem ini mengalami kesulitan dalam penanganan informasi baru. Jika sistem dengan kategori mobil disajikan dengan sepeda, maka sistem itu harus dikelompokkan dalam satu kategori maupun kategori lainnya. Di sisi lain, jika sistem kecerdasan buatan memiliki sifat generatif, sistem itu mungkin saja tidak mengetahui apa data itu.

Selain itu, sistem juga membutuhkan data dalam jumlah besar yang telah memiliki label secara tepat dan benar guna mencapai tingkat kinerja target. Masalahnya, data itu mungkin saja tidak selalu ada. Berbeda dengan hal itu, unsuprevised learning tidak akan pernah mengalaminya karena mereka dapat bekerja dengan data yang tidak ada labelnya.





30 Algoritma Prediksi



1.Linear Regression



2.Logistic Regression



3.Decision Trees

4.Random Forest

5.Gradient Boosting Machines (GBM)

6.XGBoost

7.LightGBM

8.CatBoost

9.Support Vector Machines (SVM)

10.k-Nearest Neighbors (k-NN)

11.Naive Bayes

12.Artificial Neural Networks (ANN)

13.Convolutional Neural Networks (CNN)

14.Recurrent Neural Networks (RNN)

15.Long Short-Term Memory (LSTM)

16.Gated Recurent Unit (GRU)

17.Autoencoders

18.Bayesian Networks

19.Gaussian Processes

20.ARIMA (AutoRegressive Integrated Moving Average)

21.Prophet

22.Kalman Filters

23.Holt-Winters Exponential Smoothing

24.Hidden Markov Models (HMM)

25.Extreme Learning Machines (ELM)

26.Quantile Regression

27.Elastic Net Regression

28.Ridge Regression

29.Lasso Regression

30.K-means Clustering

DATA VISUALIZATION

 Data visualization atau visualisasi data adalah proses mengubah informasi dan data menjadi bentuk grafis atau visual, seperti grafik, diagram, dan peta. Tujuannya adalah untuk memudahkan pemahaman tren, anomali, dan pola dalam data. Visualisasi data membantu dalam komunikasi yang efektif, mempercepat pengambilan keputusan, memperkaya perspektif tim, dan mengidentifikasi masalah.

Beberapa fungsi utama dari visualisasi data:

1. Mempermudah komunikasi: Memudahkan pemahaman informasi bisnis oleh stakeholder.

2. Mempercepat pengambilan keputusan: Meningkatkan efektivitas decision making dengan presentasi data yang jelas.

3. Memperkaya perspektif tim: Memungkinkan lebih banyak orang untuk mendapatkan ide dan berbagi pandangan.

4. Mengidentifikasi masalah: Menyajikan data yang mudah dicerna untuk mengungkap insight penting.Visualisasi data merupakan gabungan antara ilmu dan seni, di mana kita menggunakan prinsip-prinsip ilmiah dan kreativitas untuk menciptakan representasi data yang menarik dan informatif.


Berikut contoh source code dari Data Visualization


           Input:

        Output:





DATA TRASNFORM

 Data transformation adalah proses mengubah data dari satu bentuk ke bentuk lainnya untuk memenuhi kebutuhan analisis atau pemodelan data. Ini adalah langkah penting dalam persiapan data sebelum melakukan analisis lebih lanjut. Berikut adalah penjelasan rinci tentang data transformation:

1. Penghapusan Kolom atau Baris Tidak Diperlukan:

  • Kadang-kadang data mengandung kolom atau baris yang tidak relevan atau tidak diperlukan untuk analisis. Dalam kasus ini, kolom atau baris tersebut dapat dihapus.

2. Pengubahan Tipe Data:

  • Beberapa kolom mungkin memiliki tipe data yang salah atau tidak sesuai. Misalnya, kolom yang seharusnya berisi nilai numerik tetapi disimpan sebagai string. Dalam hal ini, tipe data kolom dapat diubah ke tipe data yang sesuai.

3. Normalisasi Data:

  • Normalisasi adalah proses mengubah nilai dalam kolom menjadi skala standar atau rentang tertentu. Ini berguna ketika nilai-nilai dalam kolom memiliki skala yang berbeda dan perlu disesuaikan untuk analisis lebih lanjut.

4. Pengkodean Variabel Kategorikal:

  • Variabel kategorikal sering kali perlu diubah menjadi format numerik sebelum digunakan dalam model atau analisis statistik. Ini dapat dilakukan dengan teknik seperti pengkodean one-hot atau pengkodean label.

5. Pemisahan Data Tanggal dan Waktu:

  • Data yang mengandung informasi tanggal dan waktu sering memerlukan pemisahan menjadi komponen yang berbeda seperti tahun, bulan, hari, jam, dan menit untuk analisis lebih lanjut.

6. Pivot atau Unpivot Data:

  • Pivot adalah proses mengubah data dalam format panjang menjadi format lebar, sedangkan unpivot adalah kebalikannya. Hal ini berguna ketika Anda perlu mengubah struktur data untuk analisis atau visualisasi tertentu.

7. Penggabungan Data:

  • Data dari beberapa sumber atau tabel mungkin perlu digabungkan menjadi satu dataset yang lengkap dan konsisten sebelum analisis.

8. Pengurangan Dimensi:

  • Pengurangan dimensi adalah proses mengurangi jumlah fitur dalam dataset dengan teknik seperti analisis komponen utama (PCA) atau seleksi fitur.

9. Penghitungan Agregat:

  • Data dapat diubah dengan menghitung agregat seperti rata-rata, jumlah, atau nilai maksimum untuk kelompok data tertentu.

10. Pemfilteran Data:

  • Pemfilteran data adalah proses memilih subset dari data berdasarkan kriteria tertentu yang relevan untuk analisis.
CONTOH :



DATA REDUCTION

 Data reduction adalah proses mengurangi jumlah data yang diolah atau disimpan tanpa menghilangkan informasi yang penting. Tujuannya adalah untuk mengurangi kompleksitas data dan mempertahankan sebagian besar informasi yang relevan. Berikut adalah penjelasan rinci tentang data reduction:

1. Pengurangan Dimensi (Dimensionality Reduction):

  • Pengurangan dimensi adalah proses mengurangi jumlah fitur atau variabel dalam dataset. Ini dapat dilakukan dengan menggunakan teknik seperti analisis komponen utama (PCA), analisis faktor, atau seleksi fitur. Pengurangan dimensi membantu mengurangi kompleksitas dan mempercepat proses analisis.

2. Pengelompokan Data (Data Clustering):

  • Pengelompokan data adalah proses mengelompokkan data ke dalam kelompok-kelompok homogen berdasarkan kesamaan fitur atau karakteristik tertentu. Ini dapat membantu mengurangi jumlah data dengan mewakili setiap kelompok dengan satu titik atau representatif.

3. Pemilihan Sampel (Sampling):

  • Pemilihan sampel adalah proses memilih subset dari data yang akan digunakan untuk analisis. Ini dapat dilakukan secara acak atau berdasarkan kriteria tertentu. Pemilihan sampel dapat membantu mengurangi waktu komputasi dan sumber daya yang dibutuhkan untuk analisis.

4. Pengurangan Volume Data (Data Volume Reduction):

  • Pengurangan volume data adalah proses mengurangi jumlah data dengan menghapus entri yang tidak relevan atau redundan. Ini dapat dilakukan dengan teknik seperti penghapusan duplikat atau pemfilteran berdasarkan kriteria tertentu.

5. Komputasi Agregat (Aggregate Computation):

  • Komputasi agregat adalah proses menghitung statistik agregat seperti rata-rata, jumlah, atau nilai maksimum dari data dalam kelompok tertentu. Ini membantu mengurangi jumlah data dengan mewakili kelompok data dengan satu nilai agregat.

6. Pembuatan Indeks (Indexing):

  • Pembuatan indeks melibatkan pembuatan indeks atau struktur data tambahan untuk mempercepat pencarian atau akses ke data yang relevan. Ini membantu mengurangi waktu yang diperlukan untuk mengakses data dalam database besar.

7. Komputasi Statistik Aproksimasi (Approximate Statistical Computation):

  • Komputasi statistik aproksimasi melibatkan penggunaan teknik aproksimasi untuk menghitung statistik yang memerlukan sumber daya komputasi yang besar. Ini dapat membantu mengurangi waktu komputasi tanpa mengorbankan kualitas hasil.

8. Filtering dan Agregasi (Filtering and Aggregation):

  • Filtering adalah proses menghapus data yang tidak relevan berdasarkan kriteria tertentu, sedangkan agregasi adalah proses menggabungkan data ke dalam kelompok-kelompok yang lebih besar untuk analisis atau pelaporan.
CONTOH :







Rabu, 03 Juli 2024

Data Cleaning

 



Data cleaning (pembersihan data) adalah proses mengidentifikasi, memperbaiki, dan menghilangkan kesalahan, inkonsistensi, atau anomali dalam dataset. Tujuannya adalah untuk memastikan bahwa data yang digunakan dalam analisis atau pemodelan adalah akurat, lengkap, dan konsisten. Tahap pembersihan data merupakan bagian penting dari proses data mining karena kualitas data yang baik menjadi dasar untuk hasil analisis yang akurat. Beberapa langkah umum dalam pembersihan data meliputi:

1. Identifikasi Kesalahan Data: Melakukan audit dan pengujian awal untuk mengidentifikasi kesalahan atau ketidaksesuaian dalam data, seperti nilai yang hilang, duplikat, atau inkonsistensi.

2. Penanganan Nilai yang Hilang: Mengatasi nilai yang hilang dengan mengisi nilai yang hilang, menghapus baris atau kolom yang memiliki banyak nilai yang hilang, atau menggunakan teknik imputasi seperti rata-rata atau median.

3. Deteksi dan Penanganan Duplikat: Mengidentifikasi dan menghapus baris yang duplikat atau redundan dalam dataset.

4. Penanganan Outlier: Mendeteksi dan menangani outlier, yaitu nilai ekstrem yang jauh dari pola umum dalam data.

5. Validasi Konsistensi Data: Memastikan bahwa data mematuhi batasan dan aturan bisnis yang telah ditetapkan, serta melakukan koreksi jika diperlukan.

6. Normalisasi atau Standarisasi: Mengubah format atau skala data agar konsisten dalam analisis atau pemodelan.

7. Validasi Referensial dan Konsistensi: Memverifikasi referensi data eksternal dan memastikan konsistensi antara berbagai sumber data.

8. Uji Kualitas Data Akhir: Melakukan pengujian dan verifikasi akhir untuk memastikan kualitas data yang bersih dan siap digunakan dalam proses analisis selanjutnya.

Pembersihan data adalah proses yang iteratif dan berkelanjutan yang memerlukan perhatian terus-menerus terhadap detail dan pemahaman yang mendalam tentang dataset. Hal ini penting untuk memastikan bahwa data yang digunakan dalam analisis atau pemodelan memiliki kualitas yang baik dan dapat diandalkan untuk mendukung pengambilan keputusan yang tepat.

Data Preparation

 





Data preparation adalah tahapan dalam proses analisis data yang melibatkan pengumpulan, pembersihan, dan pengorganisasian data agar dapat digunakan secara efektif dalam analisis atau pemodelan. Tahap ini sangat penting karena kualitas data yang baik menjadi dasar untuk mendapatkan hasil analisis yang akurat dan dapat diandalkan. Beberapa langkah umum dalam data preparation meliputi:

Pengumpulan Data: Mengumpulkan data dari berbagai sumber yang relevan dengan tujuan analisis. Data dapat berasal dari database internal, file eksternal, sumber data daring, dan sumber-sumber lainnya.

Pembersihan Data (Data Cleaning): Membersihkan data dari anomali, nilai yang hilang, atau duplikat. Ini melibatkan identifikasi dan penanganan masalah seperti nilai yang tidak valid, outlier, atau kesalahan pengetikan.

Transformasi Data: Melakukan transformasi terhadap data untuk mempersiapkannya sesuai dengan kebutuhan analisis. Ini bisa mencakup normalisasi, pembuatan variabel baru, atau pengonversian format data.

Integrasi Data: Menggabungkan data dari berbagai sumber atau tabel agar dapat diintegrasikan menjadi satu dataset yang lengkap. Ini umumnya diperlukan ketika data berasal dari sistem atau sumber yang berbeda.

Pemilihan Variabel (Feature Selection): Memilih variabel atau atribut yang paling relevan dan berpengaruh terhadap analisis atau pemodelan yang akan dilakukan. Hal ini dapat membantu mengurangi kompleksitas dan meningkatkan kinerja model.

Pengorganisasian Data:Menyusun data dalam format atau struktur tertentu yang memudahkan proses analisis. Ini dapat melibatkan pengurutan data, pembagian data menjadi kelompok, atau pengaturan ulang struktur tabel.

Pengelompokan dan Pengurutan Data: Jika diperlukan, mengelompokkan atau mengurutkan data berdasarkan kriteria tertentu untuk memahami pola atau tren yang mungkin tersembunyi.

Data preparation memainkan peran kunci dalam memastikan bahwa data yang digunakan untuk analisis atau pemodelan dapat memberikan hasil yang akurat dan bermanfaat. Kesalahan atau ketidaksesuaian dalam tahapan ini dapat mempengaruhi kualitas dan reliabilitas hasil akhir.


TUGAS PERTEMUAN 1

 PROSES ATAU TAHAPAN DATA MINING 1. Penentuan tujuan: memastikan tujuan penambangan data agar sesuai dengan kebutuhan. 2. Pengumpulan data: ...