Memahami DNS dan DNS-over-HTTPS (DoH)
Selamat datang! Mari kita bahas tentang DNS, sistem dasar internet yang memungkinkan kita mengakses situs web, dan DoH, protokol yang memperkuat privasi kita saat berselancar.
DNS, atau Domain Name System, adalah sistem yang digunakan untuk menerjemahkan nama domain yang manusiawi (seperti www.contoh.com) menjadi alamat IP yang dapat dibaca oleh perangkat jaringan (seperti 192.0.2.1). Fungsi utama dari DNS adalah untuk memudahkan pengguna dalam mengakses situs web tanpa harus mengingat deretan angka.
Berikut ini beberapa poin penting mengenai DNS:
- Hierarki: DNS memiliki struktur yang terorganisir secara hierarki, terdiri dari server root, server nama tingkat atas (TLD), dan server nama yang lebih spesifik.
- Resolusi Nama: Ketika Anda mengetikkan nama domain di browser, permintaan dikirim ke server DNS yang akan mencari alamat IP yang sesuai, sehingga browser dapat mengakses situs yang diminta.
- Caching: DNS menyimpan informasi yang sudah dicari sebelumnya (caching) untuk mempercepat proses akses di masa mendatang.
- Keamanan: Ada protokol seperti DNSSEC (DNS Security Extensions) yang dirancang untuk melindungi dari serangan, seperti spoofing.
- Pengelolaan: Selain membantu dalam navigasi, DNS juga mendukung pengelolaan berbagai layanan online, termasuk pengaturan email dan server.
Proses DNS dimulai ketika Anda mengetikkan nama situs web di browser, seperti www.contoh.com. Browser kemudian mengirimkan permintaan ke server DNS untuk mencari tahu alamat IP yang sesuai dengan nama domain tersebut. Server DNS akan memeriksa data yang disimpan dan, jika tidak menemukannya, akan menghubungi server lain dalam jaringan hingga menemukan alamat IP yang tepat. Setelah alamat IP ditemukan, browser dapat mengakses situs web yang diminta, sehingga Anda dapat melihat halaman tersebut. Proses ini biasanya sangat cepat, sehingga Anda tidak menyadari langkah-langkah yang terjadi di belakang layar.
Beberapa serangan umum yang dapat mempengaruhi sistem DNS meliputi:
- DNS Spoofing: Juga dikenal sebagai DNS cache poisoning, di mana penyerang mengubah informasi dalam cache DNS untuk mengarahkan pengguna ke situs web palsu, yang dapat mencuri informasi pribadi.
- DDoS (Distributed Denial of Service): Serangan ini membanjiri server DNS dengan permintaan yang berlebihan, sehingga server tidak dapat merespons permintaan yang sah dan situs web menjadi tidak dapat diakses.
- Man-in-the-Middle: Penyerang dapat mencegat komunikasi antara pengguna dan server DNS untuk mengubah respon DNS sehingga mengarahkan pengguna ke situs berbahaya.
- Phishing: Dengan memasukkan alamat IP dari situs web palsu dalam respon DNS, penyerang dapat mengecoh pengguna untuk mengunjungi situs yang tampak mirip tetapi berbahaya.
Untuk melindungi diri dari serangan tersebut, ada beberapa mekanisme keamanan yang bisa diterapkan, seperti DNSSEC (DNS Security Extensions), yang menambahkan lapisan keamanan tambahan untuk memverifikasi keaslian respon DNS.
DoH, atau DNS over HTTPS, adalah protokol yang mengenkripsi permintaan dan respon DNS dengan menggunakan HTTPS, sehingga meningkatkan privasi dan keamanan data pengguna. Dengan menggunakan DoH, permintaan DNS Anda tidak lagi dikirim dalam bentuk teks biasa, yang bisa disadap oleh pihak ketiga. Sebaliknya, data tersebut dibungkus dalam enkripsi, yang membuatnya lebih sulit untuk diakses oleh peretas atau penyedia layanan internet (ISP) yang ingin melacak aktivitas online Anda.
Dengan DoH, pengguna bisa lebih aman saat menjelajahi internet, karena riwayat permintaan DNS tidak dapat dengan mudah dilihat. Ini juga dapat menghindari pemfilteran konten, di mana ISP memblokir akses ke situs tertentu berdasarkan permintaan DNS. Banyak browser modern dan layanan DNS publik, seperti Cloudflare dan Google, telah mengimplementasikan DoH sebagai pilihan untuk meningkatkan keamanan pengguna saat berselancar di web.
Pada tahun 2019, kelompok peretas asal Iran yang dikenal sebagai Oilrig memanfaatkan DNS over HTTPS (DoH) untuk mengekstraksi data dari jaringan yang telah mereka retas, merangsang perhatian terhadap potensi ancaman yang dapat ditimbulkan oleh teknologi ini jika tidak diimplementasikan dengan benar. Dengan menggunakan DoH, para peretas dapat menyembunyikan aktivitas jahat mereka di balik enkripsi, membuatnya lebih sulit bagi pihak yang berwenang untuk mendeteksi dan mengatasi serangan tersebut. Kejadian ini menyoroti pentingnya tidak hanya penggunaan teknologi keamanan seperti DoH, tetapi juga perlunya penerapan dan monitoring yang tepat untuk mencegah penyalahgunaan oleh penyerang.
Dalam hal ini kami mengambil Datasetyang berasal dari proyek yang berfokus pada analisis dan pemahaman trafik DNS over HTTPS (DoH). Dataset ini berjudul "BCCC CIRA CIC DoHBrw 2020," dan dikumpulkan untuk tujuan penelitian dan analisis keamanan jaringan. Dalam dataset ini, kami akan menemukan berbagai informasi terkait paket data DNS yang di-enkripsi menggunakan DoH.
Dataset ini terdiri dari berbagai fitur, seperti timestamp, alamat IP sumber dan tujuan, informasi tentang jenis permintaan DNS, serta ukuran paket. Penggunaan DoH dalam dataset ini memungkinkan peneliti dan analis keamanan untuk mempelajari pola dan perilaku trafik yang terkait dengan DoH, serta untuk mengeksplorasi potensi masalah keamanan yang mungkin muncul akibat penggunaan DoH dalam jaringan. Dataset ini dapat berguna untuk mengembangkan teknik deteksi intrusi, mengevaluasi efek DoH terhadap privasi, dan meneliti kemungkinan penyalahgunaan oleh aktor jahat.
Sementara itu berikut merupakan jenis Data Preparation, yaitu :
- Label encoding adalah teknik yang digunakan dalam pemrosesan data untuk mengubah kategori variabel menjadi format numerik, sehingga algoritma pembelajaran mesin dapat memahami dan mengolahnya. Dalam label encoding, setiap kategori unik dari variabel kategorikal diwakili oleh sebuah angka integer. Misalnya, jika kita memiliki kolom dengan nilai kategori seperti "Merah," "Hijau," dan "Biru," maka "Merah" bisa diberi label 0, "Hijau" menjadi 1, dan "Biru" menjadi 2. Teknik ini terutama berguna dalam model yang tidak dapat menangani data kategorikal secara langsung, seperti regresi logistik atau decision tree. Namun, pada beberapa algoritma, label encoding dapat menyebabkan model salah menginterpretasikan urutan antara angka, sehingga perlu diwaspadai penggunaannya tergantung pada konteks dan model yang digunakan.
- Target class balancing adalah proses yang dilakukan untuk mengatasi masalah ketidakseimbangan kelas dalam dataset, di mana jumlah contoh untuk satu kelas secara signifikan lebih banyak atau lebih sedikit dibandingkan kelas lainnya. Masalah ini dapat menyebabkan algoritma pembelajaran mesin cenderung untuk memprediksi kelas mayoritas, mengabaikan kelas minoritas. Beberapa teknik yang umum digunakan untuk melakukan balancing mencakup oversampling kelas minoritas (misalnya, dengan metode SMOTE) dan undersampling kelas mayoritas. Dengan mengatur keseimbangan kelas, performa model dapat ditingkatkan, sehingga memberikan prediksi yang lebih akurat untuk semua kelas yang ada. Proses ini sangat penting dalam aplikasi seperti deteksi penipuan atau diagnosis medis, di mana keakuratan prediksi pada kelas minoritas sangat krusial.
Model StackingClassifier adalah teknik dalam pembelajaran mesin yang digunakan untuk meningkatkan akurasi model dengan menggabungkan prediksi dari beberapa model dasar (dikenal sebagai "base models"). Teknik ini bertujuan untuk memanfaatkan kekuatan dari berbagai algoritma untuk mendapatkan hasil yang lebih baik daripada menggunakan satu model saja.
Cara kerja StackingClassifier secara sederhana bisa dijelaskan sebagai berikut: Pertama, kita melatih beberapa model berbeda (seperti Decision Tree, Random Forest, dan Logistic Regression) pada dataset yang sama. Setelah itu, model-model ini melakukan prediksi pada data yang sama, dan hasil prediksi ini akan menjadi masukan untuk model ketiga yang disebut "meta-learner." Meta-learner ini melatih dirinya sendiri menggunakan output dari model-model dasar sebagai input. Dengan demikian, meta-learner dapat belajar bagaimana cara menggabungkan hasil dari model dasar untuk menghasilkan prediksi akhir yang lebih akurat.
Dengan menggunakan StackingClassifier, kita bisa mendapatkan keuntungan dari berbagai pendekatan dan mengurangi kekurangan masing-masing model. Ini membuatnya sangat berguna dalam kompetisi pembelajaran mesin dan kasus nyata di mana kita ingin mencapai performa yang optimal.
Contoh sederhana dari StackingClassifier bisa ditemukan dalam pustaka seperti Scikit-learn di Python, di mana pengguna dapat dengan mudah mengimplementasikannya.
Berikut adalah link untuk mengakses dataset dan running pythonnya :
Kesimpulannya, penggunaan Model StackingClassifier yang menggabungkan Random Forest dan Decision Tree sebagai model dasar, serta MLPClassifier sebagai meta-learner, menunjukkan hasil yang menjanjikan dalam tugas mendeteksi lalu lintas DoH yang berbahaya. Pendekatan ini memanfaatkan kelebihan masing-masing model dasar, memungkinkan kombinasinya untuk memberikan prediksi yang lebih akurat dan robust dalam menghadapi variasi data.
Namun, meskipun hasil awalnya memuaskan, penelitian lebih lanjut sangat diperlukan untuk memvalidasi efektifitas model ini dalam skenario nyata. Selain itu, ada peluang untuk meningkatkan kinerja model dengan eksplorasi lebih lanjut terhadap parameter, teknik feature engineering, dan pengolahan data yang lebih mendalam, demi mencapai hasil yang optimal dalam deteksi ancaman ini.
Sumber referensi :
- [RFC 1034 - Domain Names: Concepts and Facilities](https://tools.ietf.org/html/rfc1034)
- [RFC 1035 - Domain Names: Implementation and Specification](https://tools.ietf.org/html/rfc1035)
- [Wikipedia - Domain Name System](https://en.wikipedia.org/wiki/Domain_Name_System)
- [Mozilla - What is DNS over HTTPS?](https://developer.mozilla.org/en-US/docs/Glossary/DNS_over_HTTPS)
- [Cloudflare - What is DNS over HTTPS (DoH)?](https://www.cloudflare.com/learning/dns/what-is-dns-over-https/)
- [SecurityWeek - Iranian Cyber Espionage Group OilRig Targets Oil and Gas Sector](https://www.securityweek.com/iranian-cyber-espionage-group-oilrig-targets-oil-and-gas-sector)
- [Symantec - Iranian Cyber Group OilRig Adopts New Techniques](https://www.broadcom.com/company/newsroom/press-releases?filtr=secured-news#symantec-iranian-cyber-group-oilrig-adopts-new-techniques)
- [Kaggle - BCCC CIRA CIC DoHBrw 2020 DNS over HTTP](https://www.kaggle.com/datasets/supplejade/bccc-cira-cic-dohbrw-2020-dns-over-http?resource=download)
- Wikipedia - Label Encoding : https://en.wikipedia.org/wiki/Label_encoding
- Towards Data Science - How to Handle Imbalanced Classes in Your Dataset: https://towardsdatascience.com/how-to-handle-imbalanced-classes-in-your-dataset-d820a4022dd1
Komentar
Posting Komentar