Rubik Potik
Teknik Transformasi Data dan Penanganan Outlier pada Penelitian Kuantitatif
Logaritma
Akar
Kuadrat
Reciprocal]; F --> G[Terapkan Transformasi pada Variabel]; D -- Semua Asumsi OK --> H{Deteksi Outlier
Box Plot
Z-Score}; G --> H; H -- Ada Outlier? --> I{Ya}; H -- Tidak Ada Outlier --> J[Lanjutkan ke Analisis Model Regresi]; I --> K{Analisis Penyebab Outlier}; K -- Kesalahan Input? --> L[Perbaiki/Hapus Data]; K -- Data Ekstrem Valid? --> M[Winsorizing atau Pertahankan dengan Catatan]; L --> J; M --> J; style J fill:#ccf,stroke:#333,stroke-width:2px
Secara singkat, transformasi data adalah proses mengubah skala data asli Anda (misalnya, dari data biasa menjadi bentuk logaritma) agar memenuhi asumsi statistik tertentu, seperti asumsi normalitas. Sementara itu, penanganan outlier adalah cara untuk mengidentifikasi dan menangani data yang "aneh" atau sangat berbeda dari sisa data lainnya, karena outlier dapat mengganggu hasil analisis Anda. Keduanya sangat penting dalam penelitian kuantitatif untuk memastikan hasil analisis statistik Anda akurat dan dapat diandalkan.
Bagian 1: Transformasi Data
Bayangkan Anda seorang koki. Sebelum memasak, Anda pasti memastikan semua bahan dalam kondisi terbaik, kan? Sayuran dicuci, daging dipotong dengan benar. Nah, dalam statistik, data adalah bahan masakan kita. Terkadang, kita perlu "membersihkan" atau "menyiapkan" data agar "masakan" (hasil analisis) kita lezat dan akurat. Salah satu persiapan terpenting adalah memastikan data kita terdistribusi normal.
Banyak tes statistik yang canggih (seperti uji-t atau ANOVA) punya asumsi bahwa data Anda harus "berbentuk lonceng" seperti ini. Jika data Anda "miring" (lebih banyak data menumpuk di satu sisi), maka hasil tes statistik Anda bisa jadi salah atau tidak bisa dipercaya.
Mencoba menggunakan statistik canggih pada data yang tidak normal itu seperti mencoba memasukkan kunci yang salah ke dalam gembok. Mungkin bisa dipaksa masuk, tapi gemboknya tidak akan terbuka, atau malah jadi rusak.
Ada sekumpulan data nilai ujian. Kebanyakan siswa mendapat nilai rendah, menumpuk di sisi kiri. Hanya segelintir siswa yang nilainya super tinggi, membuat distribusi jadi panjang ke kanan.
Pengecekan Data
Plot Data
Scatter Plot
Transformasi Logaritma (log(X))
Bayangkan kamu sedang melihat peta dunia. Jarak antara Jakarta dan Bandung (sekitar 150 km) terlihat jelas. Tapi, jarak antara Jakarta dan New York (sekitar 16.000 km) sangatlah besar sehingga membuat jarak Jakarta-Bandung tadi jadi terlihat seperti setitik saja. Skalanya jadi tidak proporsional.
Transformasi logaritma bekerja seperti mengubah peta duniamu menjadi "peta skala logaritmik". Pada peta baru ini, perbedaan antara 100 km dan 1.000 km akan terlihat sama besarnya dengan perbedaan antara 1.000 km dan 10.000 km. Ia "menekan" nilai-nilai yang sangat besar agar tidak terlalu mendominasi, sehingga hubungan antar data bisa terlihat lebih jelas dan proporsional.
Sifat Data}; B -- Scatter plot menunjukkan
hubungan melengkung? --> C[Pertimbangkan Log]; B -- Histogram residual
miring ke kanan? --> C; B -- Uji heteroskedastisitas menunjukkan masalah? --> C; B -->|Tidak ada masalah| H[Gunakan Model Regresi Linear Biasa]; C --> D{Pilih Bentuk Model Log}; D -- Y di-log, X tidak --> E[Model Log-Lin: Y berubah %]; D -- Y tidak, X di-log --> F[Model Lin-Log: X berubah %]; D -- Y dan X di-log --> G[Model Log-Log: Elastisitas]; E --> I[Jalankan Analisis Regresi dengan Variabel Baru]; F --> I; G --> I; I --> Z[Interpretasi Hasil
Selesai]; H --> Z;
Transformasi log adalah salah satu "jurus" paling ampuh dalam ekonometrika untuk memperbaiki asumsi model dan mengubah interpretasi. Berikut cara melakukannya di EViews.
Membuat Variabel Logaritma
Cara termudah adalah dengan membuat variabel baru yang merupakan hasil log dari variabel asli. Kita akan menggunakan logaritma natural (log di EViews).
Buka Command Window atau klik Genr (Generate) di menu workfile. Misalkan kita ingin mentransformasi variabel PENDAPATAN dan PENGELUARAN.
series log_pendapatan = log(PENDAPATAN)series log_pengeluaran = log(PENGELUARAN)
Sekarang, di workfile kamu akan muncul dua variabel baru: log_pendapatan dan log_pengeluaran.
Peringatan Penting!
Logaritma hanya bisa diterapkan pada data yang bernilai positif. Jika datamu memiliki nilai 0 atau negatif, kamu tidak bisa langsung menggunakan fungsi log(). Solusinya adalah dengan menambahkan konstanta kecil (misal, log(Y+1)), namun ini dapat sedikit mengubah interpretasi.
Sebuah maskapai penerbangan ingin memahami faktor-faktor yang mempengaruhi jumlah tiket yang terjual. Hubungan antara harga dan jumlah permintaan biasanya bersifat elastis.
Variabel:
Y: jumlah_tiket (Jumlah tiket terjual di suatu rute per bulan)
X1: harga_rata2 (Harga rata-rata tiket di rute tersebut dalam ribuan Rupiah)
X2: pendapatan_regional (PDB regional di daerah tujuan dalam triliun Rupiah)
X3: iklan_online (Biaya iklan online untuk rute tersebut dalam jutaan Rupiah)
Seorang ekonom ingin memodelkan output produksi sebuah pabrik. Fungsi produksi Cobb-Douglas secara teoretis berbentuk log-log.
Variabel:
Y: output (Jumlah unit produk yang dihasilkan per hari)
X1: tenaga_kerja (Jumlah jam kerja karyawan per hari)
X2: modal (Nilai mesin yang digunakan dalam jutaan Rupiah)
X3: listrik (Konsumsi listrik dalam kWh)
Transformasi Akar (sqrt(X))
Transformasi akar ($\sqrt{Y}$atau sqrt(Y)) adalah cara yang lebih "lembut" untuk "menekan" nilai-nilai besar tersebut dibandingkan transformasi log. Analogi yang pas adalah seperti menggunakan volume compressor pada audio. Ia akan mengecilkan suara yang terlalu keras (nilai data yang besar) tanpa terlalu mengubah suara yang sudah pelan (nilai data yang kecil), sehingga keseluruhan audio menjadi lebih seimbang dan enak didengar.
Transformasi ini sangat cocok untuk data hitungan (count data) seperti jumlah produk cacat, jumlah kunjungan ke website, atau jumlah gol dalam pertandingan, di mana sering ditemukan banyak nilai kecil dan beberapa nilai yang sangat besar. Ia juga berguna untuk menstabilkan varians (mengatasi heteroskedastisitas) ketika varians data cenderung proporsional dengan rata-ratanya.
misal: Log atau
model lain misal: Regresi Poisson]; B -->|Asumsi Terpenuhi| J[Lanjutkan Analisis Regresi Biasa]; J --> Z[Interpretasi Hasil dan Selesai]; H --> Z; I --> Z;
Ketika berhadapan dengan data hitungan (count data) yang miring ke kanan, transformasi akar kuadrat (SQRT) adalah solusi yang elegan dan efektif. Ini adalah cara yang lebih 'ringan' dibandingkan transformasi log. Caranya di EViews.
Membuat Variabel Hasil Transformasi
Prosesnya sangat mudah. Misalkan kita punya variabel JUMLAH_KECELAKAAN yang ingin kita transformasikan.
Buka Command Window atau klik tombol Genr. Kemudian, ketikkan perintah untuk membuat variabel baru, misalnya sqrt_kecelakaan.
series sqrt_kecelakaan = @sqrt(JUMLAH_KECELAKAAN)
Alternatif lain adalah menggunakan operator pangkat (^0.5):
series sqrt_kecelakaan = JUMLAH_KECELAKAAN^0.5
Sekarang, kamu akan memiliki variabel baru di workfile yang siap digunakan.
Catatan Penting
Transformasi akar kuadrat hanya dapat digunakan untuk data non-negatif (nilai ≥ 0). Ini membuatnya sangat cocok untuk data hitungan yang tidak mungkin bernilai negatif.
Manajer pabrik ingin mengetahui faktor-faktor yang mempengaruhi jumlah produk cacat per batch produksi. Sebagian besar batch memiliki 0 atau sedikit cacat, tetapi sesekali ada batch dengan banyak sekali produk cacat.
Variabel:
Y: jumlah_cacat (Jumlah unit produk yang cacat per batch) -> Variabel yang akan ditransformasi
X1: kecepatan_mesin (Kecepatan mesin dalam RPM)
X2: suhu_ruang (Suhu ruang produksi dalam Celcius)
X3: jam_shift (Jam kerja shift ke-, misal 1, 2, atau 3)
Sebuah media online ingin menganalisis faktor yang mendorong jumlah pengunjung harian ke situs mereka. Ada hari-hari biasa dengan traffic standar, dan ada hari-hari dengan berita viral yang traffic-nya meledak.
Variabel:
Y: jumlah_pengunjung (Jumlah pengunjung unik harian dalam ribuan) -> Variabel yang akan ditransformasi
X1: artikel_terbit (Jumlah artikel yang diterbitkan hari itu)
X2: iklan_sosmed (Biaya iklan di media sosial hari itu dalam ratusan ribu Rupiah)
X3: is_weekend (Dummy variable, 1 jika akhir pekan, 0 jika hari kerja)
Transformasi Kuadrat (X^2)
Bayangkan kamu sedang menguji efisiensi pupuk terhadap pertumbuhan tanaman. Awalnya, saat kamu menambahkan pupuk, tanaman tumbuh semakin tinggi dengan cepat. Ini adalah hubungan positif. Namun, setelah mencapai titik optimal, penambahan pupuk justru menjadi racun dan membuat pertumbuhan tanaman melambat, bahkan menurun. Hubungan ini tidak lagi lurus (linear), melainkan membentuk kurva seperti huruf "U" terbalik.
Transformasi kuadrat adalah cara untuk menangkap hubungan non-linear yang melengkung seperti ini. Alih-alih hanya menggunakan variabel X, kita juga memasukkan X kuadrat (X^2) ke dalam model regresi.
Dengan memasukkan X^2, kita mengizinkan garis regresi untuk membengkok, sehingga bisa lebih pas dengan pola data yang melengkung. Transformasi ini sangat berguna dalam ekonomi dan sains di mana banyak fenomena mengalami diminishing returns (kenaikan yang semakin melambat) atau memiliki titik puncak/lembah optimal.
dan Variabel Kuadrat X^2
ke dalam Model Regresi]; F -- Model: Y = b0 + b1*X + b2*X^2 --> F; F --> G{Analisis Hasil}; G -- Apakah koefisien X^2 signifikan? --> H[Jika ya, model kuadrat cocok]; G -- Apakah koefisien X^2 tidak signifikan? --> I[Kembali ke model linear yang lebih sederhana]; C --> Z[Interpretasi Hasil dan Selesai]; H --> Z; I --> Z;
Menangkap Hubungan Non-Linear dengan Transformasi Kuadrat di EViews
Tidak semua hubungan di dunia ini lurus! Terkadang, polanya melengkung seperti kurva "U" atau "U" terbalik. Inilah saatnya transformasi kuadrat berperan. Mari kita pelajari cara menerapkannya di EViews.
Langkah 1: Visualisasi Data
Sebelum melakukan transformasi, buktikan dulu kalau memang ada pola melengkung. Buatlah scatter plot antara variabel dependen (Y) dan independen (X) yang kamu curigai memiliki hubungan non-linear.
Buka kedua variabel, klik kanan, pilih Open > as Group. Dari jendela grup, klik View > Graph > Scatter. Jika polanya terlihat melengkung, lanjutkan ke langkah berikutnya.
Langkah 2: Membuat Variabel Kuadrat
Kita perlu membuat variabel baru yang merupakan hasil kuadrat dari variabel independen. Misalkan variabel kita adalah PENGALAMAN.
Buka Command Window atau klik Genr, lalu ketik perintah berikut:
series pengalaman_sq = pengalaman^2
Sekarang kamu punya variabel baru bernama pengalaman_sq di workfile.
Seorang ekonom SDM menganalisis data gaji. Gaji cenderung meningkat seiring pengalaman, namun pada tingkat pengalaman yang sangat senior, kenaikan gaji melambat (diminishing returns) karena sudah mencapai puncak karir.
Variabel:
Y: gaji (Gaji bulanan dalam jutaan Rupiah)
X1: pengalaman (Pengalaman kerja dalam tahun) -> Variabel yang akan dikuadratkan
X2: pendidikan (Lama pendidikan formal dalam tahun)
X3: skor_kinerja (Skor penilaian kinerja tahunan dari 1-100)
Seorang peneliti pertanian ingin menemukan dosis pupuk nitrogen yang optimal untuk hasil panen jagung. Terlalu sedikit pupuk tidak efektif, terlalu banyak justru merusak tanaman.
Variabel:
Y: hasil_panen (Hasil panen jagung dalam ton per hektar)
X1: dosis_pupuk (Dosis pupuk nitrogen dalam kg per hektar) -> Variabel yang akan dikuadratkan
X2: curah_hujan (Curah hujan selama musim tanam dalam mm)
X3: kualitas_tanah (Skor kualitas tanah dari 1-10)
Transformasi Invers (1/X)
Bayangkan kamu sedang dalam perjalanan dari kota A ke kota B. Jika kamu meningkatkan kecepatan mobilmu, waktu yang dibutuhkan untuk sampai akan berkurang. Namun, hubungan ini tidak lurus. Menaikkan kecepatan dari 10 km/jam ke 20 km/jam akan memotong waktu perjalanan secara drastis. Tapi menaikkan kecepatan dari 100 km/jam ke 110 km/jam hanya akan mengurangi waktu tempuh sedikit saja. Efeknya semakin lama semakin kecil.
Transformasi ini berguna ketika efek dari variabel independen (X) terhadap variabel dependen (Y) melemah saat nilai X meningkat. Efeknya sangat kuat pada nilai X yang rendah dan menjadi hampir datar pada nilai X yang tinggi. Bentuk kurvanya seperti seluncuran yang curam di awal lalu melandai.
Ada kalanya pengaruh suatu variabel tidak konstan, melainkan sangat kuat di awal lalu melemah hingga mencapai titik jenuh. Hubungan ini bisa dimodelkan secara elegan menggunakan transformasi resiprokal. Mari kita lihat caranya di EViews.
Membuat Variabel Resiprokal
Proses ini sangat sederhana. Misalkan kita punya variabel JARAK dan kita ingin melihat efek kebalikannya.
Buka Command Window atau klik Genr, lalu ketik perintah untuk membuat variabel baru, misalnya inv_jarak (inverse/kebalikan dari jarak).
series inv_jarak = 1/JARAK
Variabel baru inv_jarak kini siap digunakan dalam analisis.
Peringatan Penting
Transformasi ini tidak bisa digunakan jika variabel X memiliki nilai nol (0), karena 1 dibagi 0 tidak terdefinisi. Jika ada nilai nol, kamu perlu menambahkan konstanta yang sangat kecil pada X sebelum melakukan transformasi (misal, 1/(X+0.001)).
Seorang manajer ritel ingin mengetahui bagaimana jarak tempat tinggal pelanggan dari toko mempengaruhi frekuensi belanja mereka. Logikanya, pelanggan yang sangat dekat akan sangat sering berbelanja, namun setelah jarak tertentu, penurunan frekuensi belanja menjadi tidak terlalu drastis.
Variabel:
Y: frekuensi_belanja (Jumlah kunjungan ke toko per bulan)
X1: jarak (Jarak rumah pelanggan ke toko dalam km) -> Variabel yang akan ditransformasi
X2: pendapatan (Pendapatan bulanan pelanggan dalam jutaan Rupiah)
X3: lama_langganan (Sudah berapa tahun menjadi pelanggan)
Sebuah perusahaan farmasi menguji efektivitas obat penurun tekanan darah. Pada dosis rendah, kenaikan dosis sangat meningkatkan efektivitas. Namun, setelah mencapai tingkat tertentu, penambahan dosis tidak lagi memberikan manfaat tambahan yang signifikan (efek jenuh/plateau).
Variabel:
Y: penurunan_tensi (Penurunan tekanan darah sistolik dalam mmHg)
X1: dosis (Dosis obat dalam mg) -> Variabel yang akan ditransformasi
X2: usia_pasien (Usia pasien dalam tahun)
X3: bmi (Body Mass Index pasien)
Bagian 2: Menangani Pencilan Data
Bayangkan kita mengukur pendapatan bulanan 5 orang teman di sebuah grup: Rp 5.000.000 Rp 6.000.000 Rp 5.500.000 Rp 6.500.000 Rp 100.000.000 Data (Rp 100 juta) itu adalah outlier. Nilainya sangat "melompat" jauh dibandingkan yang lain. Sama seperti data yang miring, outlier ini juga bisa mengacaukan "rasa" masakan kita karena ia bisa menarik nilai rata-rata secara ekstrem.
Kriteria
Box Plot
$$\begin{align*}\text{batas outlier atas}&=Q_3+1.5IQR\\ \text{batas outlier bawah}&=Q1-1.5IQR \end{align*}$$
Z-Score
$$\begin{align*}Z&=\dfrac{X-\bar{X}}{s} \end{align*}$$
Dihapus trimming
Kapan dilakukan? Hanya jika kita punya alasan yang sangat kuat untuk percaya bahwa data tersebut adalah anomali yang tidak akan pernah terjadi lagi atau tidak mewakili populasi yang kita teliti (misalnya, data dari responden yang jelas-jelas tidak serius mengisi kuesioner).
Bayangkan Anda seorang koki yang sedang membuat sepanci besar sup. Tanpa sengaja, sebutir cabai yang luar biasa pedas jatuh ke dalamnya. Jika Anda menyajikan sup itu, satu orang yang tidak beruntung akan mendapatkan cabai itu dan merusak seluruh pengalaman makan mereka. Rasa sup secara keseluruhan menjadi tidak representatif.
Trimming adalah tindakan sederhana: Anda mengambil sendok, mencari dan mengangkat cabai pedas itu keluar dari panci, lalu membuangnya.
Setelah mengidentifikasi outlier yang 'merusak' model Anda, langkah selanjutnya adalah menanganinya. Salah satu metode paling langsung adalah Trimming atau membuang data tersebut. Berikut caranya di EViews.
Langkah 1: Identifikasi Nomor Observasi Outlier
Pertama, Anda harus tahu persis observasi ke berapa yang merupakan outlier. Mari kita asumsikan setelah investigasi, kita menemukan bahwa observasi nomor 47 adalah outlier yang jelas.
Langkah 2: Estimasi Model Awal (Sebelum Trimming)
Lakukan regresi Anda pada seluruh data terlebih dahulu untuk dijadikan pembanding. Misalnya, modelnya adalah PENJUALAN C IKLAN SALES DISKON. Simpan hasilnya.
ls penjualan c iklan sales diskon
Perhatikan baik-baik nilai koefisien, R-squared, dan probabilitas F-statistiknya.
Langkah 3: Terapkan Trimming dengan Mengatur Sampel
Ini adalah langkah kuncinya. Kita akan memberitahu EViews untuk mengabaikan observasi nomor 47. Cara termudah adalah menggunakan perintah smpl (sample) di command window.
Ketik perintah berikut untuk membuat sampel yang mengecualikan observasi 47:
smpl if @obs <> 47
Perintah ini berarti: "Gunakan sampel jika nomor observasi (@obs) tidak sama dengan (<>) 47". EViews sekarang akan mengabaikan baris ke-47 dalam semua analisis berikutnya sampai Anda mereset sampel.
Untuk mengembalikan ke sampel penuh, Anda bisa mengetik: smpl @all
Langkah 4: Estimasi Ulang Model (Setelah Trimming)
Dengan sampel yang sudah di-trim, jalankan kembali perintah regresi yang sama persis seperti di Langkah 2.
ls penjualan c iklan sales diskon
EViews akan menjalankan regresi pada data yang sama, tetapi tanpa menyertakan observasi ke-47.
Langkah 5: Bandingkan Hasilnya
Sekarang, bandingkan output regresi dari Langkah 2 dan Langkah 4. Perhatikan perubahannya:
- Koefisien (C): Apakah ada perubahan signifikan pada nilai koefisien variabel independen Anda?
- R-squared & Adj. R-squared: Seringkali, nilai ini meningkat setelah outlier dibuang, menunjukkan model lebih cocok dengan sisa data.
- Signifikansi Variabel (P-value): Variabel yang tadinya tidak signifikan bisa jadi signifikan (atau sebaliknya) setelah outlier dihilangkan.
Penting: Selalu berikan justifikasi yang kuat di laporan atau skripsi Anda mengapa Anda melakukan trimming. Jelaskan sifat outlier tersebut dan mengapa ia layak untuk dikeluarkan dari analisis. Trimming tanpa alasan yang jelas dapat dianggap sebagai manipulasi data.
Sebuah perusahaan HR ingin memodelkan kinerja karyawan (skala 1-100) berdasarkan pengalaman kerja (tahun), skor pelatihan internal (1-100), dan jumlah proyek yang ditangani. Ditemukan satu karyawan baru dengan pengalaman dan skor pelatihan rendah namun memiliki skor kinerja maksimal, yang diduga kuat adalah kesalahan input data (misal, seharusnya 79 ditulis 97).
Variabel Dependen: kinerja
Variabel Independen: pengalaman, skor_pelatihan, jumlah_proyek
Seorang analis otomotif ingin memprediksi konsumsi bahan bakar (km/liter) berdasarkan berat mobil (kg), tenaga mesin (HP), dan kapasitas mesin (cc). Satu mobil dalam dataset tercatat sangat irit padahal merupakan mobil terberat dengan tenaga terbesar, ini kemungkinan besar adalah outlier.
Variabel Dependen: konsumsi_bbm
Variabel Independen: berat, tenaga, kapasitas_mesin
Outlier: Observasi ke-38
Diubah winsorizing
Bayangkan kamu adalah seorang guru yang sedang menghitung nilai rata-rata kelas. Di kelasmu, ada satu murid yang jenius luar biasa dengan nilai 100 sempurna, dan satu murid yang kebetulan sangat tidak beruntung saat ujian dan mendapat nilai 10. Dua nilai ekstrem ini bisa "menarik" nilai rata-rata kelas menjadi tidak representatif.
Membuang nilai mereka (menghapus data) rasanya tidak adil. Nah, Winsorizing adalah jalan tengah yang cerdas. Kamu memutuskan untuk "menjinakkan" nilai ekstrem tersebut. Caranya: kamu lihat nilai tertinggi kedua, misalnya 95, dan nilai terendah kedua, misalnya 50. Kamu lalu mengubah nilai si jenius dari 100 menjadi 95, dan nilai murid yang kurang beruntung dari 10 menjadi 50.
Dalam statistik, Winsorizing melakukan hal yang sama: mengganti nilai-nilai paling ekstrem (misalnya, 1% teratas dan 1% terbawah) dengan nilai "paling pinggir" yang masih dianggap wajar (nilai pada persentil ke-99 dan persentil ke-1). Ini adalah cara ampuh untuk menangani outlier tanpa harus menghapus data pengamatan.
Box Plot
Z-Score}; B --> |Tidak ada Outlier Signifikan| C[Lanjutkan ke Analisis Regresi]; B --> |Ada Outlier| D[Tentukan Level Persentil Winsorizing
1% dan 99%
atau
5% dan 95%]; D --> E[Terapkan Transformasi Winsorizing pada Variabel dengan Outlier]; E --> F[Buat Variabel Baru e.g., Y_winsorized ]; F --> G[Gunakan Variabel Baru dalam Analisis Regresi]; C --> Z[Interpretasi Hasil dan Selesai]; G --> Z; style Z fill:#f9f,stroke:#333,stroke-width:2px
Outlier dapat merusak model analisis kita. Winsorizing adalah teknik elegan untuk menanganinya tanpa menghapus data. Mari kita lakukan di EViews, misalnya pada variabel bernama GAJI.
Langkah 1: Identifikasi Outlier
Pertama, pastikan memang ada outlier. Cara termudah adalah dengan melihat box plot. Buka variabel GAJI, lalu klik View > Graph > Boxplot.
Jika kamu melihat titik-titik data yang berada jauh di luar "kumis" (whisker) box plot, itu adalah outlier yang perlu ditangani.
Langkah 2: Tentukan Batas Atas dan Bawah
Kita akan melakukan Winsorizing pada level 5% (mengganti 5% data terbawah dan 5% data teratas). Untuk itu, kita perlu tahu berapa nilai data pada persentil ke-5 dan ke-95.
Buka Command Window dan ketikkan perintah berikut satu per satu:
scalar p5 = @quantile(GAJI, 0.05)scalar p95 = @quantile(GAJI, 0.95)
Perintah ini akan menyimpan nilai persentil ke-5 ke dalam objek bernama p5 dan nilai persentil ke-95 ke dalam p95.
Langkah 3: Buat Variabel Baru dan Terapkan Winsorizing
Sekarang, kita buat salinan variabel GAJI dan terapkan perubahannya. Kita akan menamainya GAJI_W.
Ketik perintah berikut di Command Window:
series GAJI_W = GAJI' Ganti nilai di bawah p5 dengan nilai p5
GAJI_W = @recode(GAJI < p5, p5, GAJI_W)' Ganti nilai di atas p95 dengan nilai p95
GAJI_W = @recode(GAJI > p95, p95, GAJI_W)
Sekarang kamu memiliki variabel baru, GAJI_W, yang nilai-nilai ekstremnya sudah "dijinakkan". Variabel inilah yang siap kamu gunakan dalam model regresi atau analisis lainnya.
Langkah 4: Verifikasi Hasil
Untuk memastikan prosesnya berhasil, buat box plot untuk variabel baru GAJI_W. Seharusnya, kamu akan melihat bahwa outlier yang tadinya ada sekarang sudah "masuk" ke dalam rentang data utama.
Seorang analis keuangan ingin memodelkan faktor penentu gaji CEO. Data gaji CEO terkenal memiliki outlier ekstrem (misalnya, gaji CEO teknologi yang nilainya ratusan kali lipat dari rata-rata).
Variabel:
Y: gaji_ceo (Gaji tahunan dalam ribuan USD) -> Variabel yang akan di-winsorize
X1: aset (Total aset perusahaan dalam miliar USD)
X2: roe (Return on Equity dalam persen)
X3: umur_ceo (Usia CEO dalam tahun)
Dinas pariwisata ingin mengetahui faktor apa yang mempengaruhi pengeluaran wisatawan di sebuah destinasi. Ada beberapa wisatawan "sultan" yang pengeluarannya sangat jomplang, sehingga menjadi outlier.
Variabel:
Y: pengeluaran (Total pengeluaran selama liburan dalam USD) -> Variabel yang akan di-winsorize
X1: lama_inap (Lama menginap dalam hari)
X2: pendapatan (Pendapatan tahunan wisatawan dalam ribuan USD)
X3: jarak_asal (Jarak negara asal ke destinasi dalam ribuan km)
Dipertahankan
Kapan dilakukan? Jika outlier tersebut adalah data yang sah dan sangat penting untuk penelitian kita. Contohnya dalam studi tentang kebencanaan, data gempa bumi terkuat (yang pasti jadi outlier) adalah informasi paling krusial dan tidak boleh dibuang. Dalam kasus ini, kita mungkin beralih menggunakan metode statistik yang lebih kebal terhadap outlier (statistik robust).
Bagian 3: Tantanngan
Seorang manajer HR ingin memahami faktor-faktor yang memengaruhi produktivitas karyawan (diukur dari jumlah tugas yang diselesaikan per minggu). Ia menduga bahwa pengalaman kerja memiliki efek non-linear (produktivitas meningkat pesat di awal, lalu melambat setelah sangat senior), sementara jam pelatihan dan skor kepuasan kerja berpengaruh secara linear.
Y: Produktivitas (Jumlah tugas/minggu)
X1: Pengalaman_Kerja (Tahun, diduga non-linear)
X2: Jam_Pelatihan (Total jam dalam setahun terakhir)
X3: Kepuasan_Kerja (Skor survei 1-100)