Statistik Inferensial
Terakhir diubah pada
Pertemuan 1
RPS
Materi Per Pertemuan - Statistik Inferensial
Berdasarkan Buku Acuan: Keller, Gerald. (2018). Statistics for Management and Economics, 11th Edition.
Minggu Ke- | Materi Pembelajaran | Bab dalam Buku Acuan |
---|---|---|
1 | Pengantar Statistik Inferensial | Bab 1 |
2 | Distribusi Sampling | Bab 9 |
3 | Estimasi Parameter | Bab 10 |
4 | Uji Hipotesis | Bab 11 |
5 | Inferensi Statistik untuk Satu Populasi | Bab 12 |
6 | Inferensi Statistik untuk Dua Populasi | Bab 13 |
7 | Inferensi Dua Populasi (Selisih Variansi & Proporsi) | Bab 13 |
8 | Ujian Tengah Semester (UTS) | - |
9 | Analisis Varians (ANOVA) | Bab 14 |
10 | ANOVA Dua Faktor | Bab 14 |
11 | Uji Khi Kuadrat | Bab 15 |
12 | Regresi Linier Sederhana | Bab 16 |
13 | Regresi Linier Berganda | Bab 17 |
14 | Statistik Nonparametrik (Wilcoxon, Kruskal-Wallis) | Bab 19 |
15 | Statistik Nonparametrik (Uji Friedman, Spearman) | Bab 19 |
16 | Ujian Akhir Semester (UAS) | - |
Pertemuan 2
Distribusi Sampling
Distribusi Sampling adalah distribusi probabilitas dari statistik sampel yang dihitung dari banyak sampel yang diambil dari suatu populasi.
Konsep ini sangat penting dalam inferensi statistik, karena memungkinkan kita untuk memperkirakan karakteristik populasi berdasarkan sampel.
Distribusi Sampling dari Mean
Distribusi sampling dari mean adalah distribusi probabilitas dari rata-rata sampel yang diambil dari suatu populasi.
Teorema Limit Pusat menyatakan bahwa jika ukuran sampel cukup besar, distribusi sampling dari mean akan mendekati distribusi normal, terlepas dari bentuk distribusi populasi asli.
Rumus Mean dan Standar Deviasi dari distribusi sampling:
\[ \mu_{\bar{x}} = \mu \] \[ \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} \]di mana:
- \(\mu\) adalah mean populasi
- \(\sigma\) adalah standar deviasi populasi
- \(n\) adalah ukuran sampel
Distribusi Sampling dari Proporsi
Distribusi sampling juga berlaku untuk proporsi, terutama dalam kasus data biner (misalnya, sukses/gagal).
Jika \( p \) adalah proporsi populasi dan \( \hat{p} \) adalah proporsi sampel, maka:
\[ \mu_{\hat{p}} = p \] \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}} \]Distribusi sampling dari proporsi akan mendekati distribusi normal jika memenuhi aturan normalitas:
\[ np \geq 5 \quad \text{dan} \quad n(1-p) \geq 5 \]Distribusi Sampling dari Selisih Dua Mean
Ketika membandingkan dua sampel independen, distribusi sampling dari selisih dua mean mengikuti aturan:
Mean dari distribusi:
\[ \mu_{\bar{x}_1 - \bar{x}_2} = \mu_1 - \mu_2 \]Standar deviasi dari distribusi:
\[ \sigma_{\bar{x}_1 - \bar{x}_2} = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} \]Jika ukuran sampel cukup besar, distribusi ini dapat didekati dengan distribusi normal.
Inferensi Statistik dengan Distribusi Sampling
Distribusi sampling memungkinkan kita untuk:
- Menentukan estimasi parameter populasi (seperti mean atau proporsi).
- Menghitung probabilitas dari suatu sampel berdasarkan distribusi normal.
- Melakukan uji hipotesis dan interval kepercayaan untuk menentukan signifikansi hasil sampel.
Inferensi statistik bergantung pada asumsi bahwa distribusi sampling cukup normal untuk digunakan dalam perhitungan statistik.
Soal 1:
Waktu yang dihabiskan oleh orang dewasa di Amerika Utara untuk menonton televisi per hari diasumsikan mengikuti distribusi normal dengan rata-rata \( \mu = 6 \) jam dan standar deviasi \( \sigma = 1.5 \) jam.
- Berapa probabilitas bahwa seorang dewasa Amerika Utara yang dipilih secara acak menonton televisi lebih dari 7 jam per hari?
- Berapa probabilitas bahwa rata-rata waktu menonton televisi dalam sampel acak yang terdiri dari lima orang dewasa Amerika Utara lebih dari 7 jam per hari?
- Berapa probabilitas bahwa dalam sampel acak yang terdiri dari lima orang dewasa Amerika Utara, semuanya menonton televisi lebih dari 7 jam per hari?
Soal 2:
Jumlah pelanggan yang memasuki sebuah supermarket setiap jam diasumsikan mengikuti distribusi normal dengan rata-rata \( \mu = 600 \) pelanggan per jam dan standar deviasi \( \sigma = 200 \) pelanggan per jam. Supermarket buka selama 16 jam per hari. Berapakah probabilitas bahwa total jumlah pelanggan yang masuk dalam satu hari lebih dari 10.000?
Petunjuk: Hitung rata-rata jumlah pelanggan per jam yang diperlukan agar total melebihi 10.000 dalam satu hari kerja 16 jam.
Soal 3:
Seorang manajer restoran percaya bahwa pelayan yang memperkenalkan diri dengan menyebutkan nama mereka kepada pelanggan akan mendapatkan tip yang lebih besar dibandingkan mereka yang tidak melakukannya. Ia mengklaim bahwa rata-rata tip untuk kelompok pertama adalah 18%, sedangkan untuk kelompok kedua hanya 15%. Jika distribusi tip mengikuti distribusi normal dengan standar deviasi 3%, berapakah probabilitas bahwa dalam sampel acak yang terdiri dari 10 tip dari pelayan yang memperkenalkan diri dan 10 tip dari pelayan yang tidak, rata-rata tip kelompok pertama lebih besar daripada kelompok kedua?
Pertemuan 3
Bab 10: Pengenalan Estimasi
10-1: Konsep Estimasi
Estimasi digunakan untuk menentukan nilai parameter populasi berdasarkan statistik sampel.
Dua jenis estimasi:
- Estimasi titik (Point Estimator): Menggunakan satu nilai untuk memperkirakan parameter populasi.
- Estimasi interval (Interval Estimator): Memberikan rentang nilai dengan tingkat kepercayaan tertentu.
Karakteristik estimator yang baik:
- Unbiased: Rata-rata estimator mendekati nilai parameter populasi.
- Consistent: Estimator semakin akurat saat ukuran sampel meningkat.
- Efficient: Estimator dengan variansi lebih kecil lebih diinginkan.
10-2: Estimasi Mean Populasi Ketika Standar Deviasi Populasi Diketahui
Jika populasi memiliki distribusi normal dan standar deviasi (\(\sigma\)) diketahui, maka interval kepercayaan untuk rata-rata populasi (\(\mu\)) adalah:
\[ \bar{x} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \]- \(\bar{x}\) = rata-rata sampel
- \(Z_{\alpha/2}\) = nilai kritis dari distribusi normal standar
- \(\sigma\) = standar deviasi populasi
- \(n\) = ukuran sampel
Interpretasi Interval Kepercayaan:
- Bukan probabilitas bahwa parameter populasi ada dalam rentang tersebut.
- Dalam banyak sampel, persentase tertentu dari interval akan mencakup parameter populasi.
10-3: Menentukan Ukuran Sampel
Untuk mendapatkan interval kepercayaan dengan batas kesalahan tertentu (\(B\)), ukuran sampel (\(n\)) harus memenuhi:
\[ n = \left( \frac{Z_{\alpha/2} \cdot \sigma}{B} \right)^2 \]- Menambah ukuran sampel mempersempit interval kepercayaan.
- Jika \(\sigma\) tidak diketahui, biasanya digunakan estimasi dari sampel sebelumnya.
Contoh Aplikasi
1. Estimasi Diameter Pohon
Sebuah perusahaan kayu ingin memperkirakan rata-rata diameter pohon dengan interval kepercayaan 90%. Diperlukan 98 sampel pohon untuk mendapatkan estimasi dengan batas kesalahan ±1 inci.
2. Estimasi Permintaan Stok Barang
Seorang manajer ingin memperkirakan permintaan barang selama periode tertentu. Dengan metode estimasi interval kepercayaan, ia dapat menentukan jumlah stok yang optimal.
Kesimpulan
- Estimasi adalah alat penting dalam inferensi statistik.
- Interval kepercayaan lebih akurat dibanding estimasi titik karena mempertimbangkan variabilitas sampel.
- Ukuran sampel yang tepat meningkatkan akurasi estimasi tanpa membuang sumber daya.
Soal 1:
Salah satu efek samping negatif dari berhenti merokok adalah kenaikan berat badan.
Diasumsikan bahwa kenaikan berat badan dalam 12 bulan setelah berhenti merokok
mengikuti distribusi normal dengan standar deviasi sebesar 6 pon.
Untuk memperkirakan kenaikan berat badan rata-rata, sebuah sampel acak yang terdiri dari
13 orang yang berhenti merokok diambil. Data berat badan yang tercatat adalah sebagai berikut:
16, 23, 8, 2, 14, 22, 18, 11, 10, 19, 5, 8, 15
Tentukan estimasi interval kepercayaan 90% untuk rata-rata kenaikan berat badan dalam 12 bulan bagi semua orang yang berhenti merokok.
Soal 2:
Seorang profesor statistik sedang menyelidiki jumlah kelas yang dilewatkan oleh mahasiswa universitas setiap semester.
Untuk menjawab pertanyaan ini, ia mengambil sampel acak dari 100 mahasiswa universitas dan meminta mereka melaporkan
berapa banyak kelas yang mereka lewatkan pada semester sebelumnya.
Perkirakan jumlah rata-rata kelas yang dilewatkan oleh semua mahasiswa di universitas tersebut.
Gunakan tingkat kepercayaan 99% dan asumsikan bahwa standar deviasi populasi diketahui sebesar 2.2 kelas.
Soal 3:
Seorang ahli statistik medis ingin memperkirakan rata-rata penurunan berat badan dari orang-orang yang mengikuti program diet baru. Dalam sebuah studi awal, ia memperkirakan bahwa standar deviasi populasi untuk penurunan berat badan adalah sekitar 10 pon. Berapa besar sampel yang harus diambilnya agar dapat memperkirakan rata-rata penurunan berat badan dengan batas kesalahan 2 pon, menggunakan tingkat kepercayaan 90%?
Pertemuan 4
Bab 11: Pengantar Pengujian Hipotesis
11.1 Konsep Pengujian Hipotesis
Pengujian hipotesis adalah metode statistik yang digunakan untuk membuat keputusan tentang parameter populasi berdasarkan data sampel. Komponen utama dalam pengujian hipotesis meliputi:
- Hipotesis Nol (\(H_0\)): Pernyataan bahwa tidak ada perbedaan atau efek dalam populasi.
- Hipotesis Alternatif (\(H_1\)): Pernyataan yang bertentangan dengan \(H_0\), menunjukkan adanya perbedaan atau efek.
- Statistik Uji: Nilai yang dihitung dari data sampel untuk menentukan apakah \(H_0\) dapat ditolak.
- P-value: Probabilitas mendapatkan hasil yang diamati jika \(H_0\) benar.
- Tingkat Signifikansi (\(\alpha\)): Batas probabilitas (biasanya 0.05) untuk menolak \(H_0\).
11.2 Pengujian Mean Populasi Ketika Standar Deviasi Populasi Diketahui
Jika standar deviasi populasi (\(\sigma\)) diketahui, maka statistik uji untuk rata-rata sampel (\(\bar{x}\)) dapat dihitung dengan:
\[ Z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \]di mana:
- \(\mu_0\) = rata-rata populasi yang dihipotesiskan
- \(\sigma\) = standar deviasi populasi
- \(n\) = ukuran sampel
11.3 Menghitung Probabilitas Kesalahan Tipe II
Kesalahan Tipe II (\(\beta\)) terjadi ketika kita gagal menolak \(H_0\) padahal \(H_a\) benar. Daya uji statistik dihitung sebagai:
\[ \text{Daya Uji} = 1 - \beta \]Nilai \(\beta\) bergantung pada nilai rata-rata populasi sebenarnya dan distribusi statistik uji.
11.4 Kesimpulan
Memahami konsep pengujian hipotesis sangat penting dalam analisis data dan inferensi statistik. Teknik ini digunakan dalam berbagai metode lanjutan seperti interval kepercayaan, regresi, dan ANOVA.
Soal 1:
Sebuah perusahaan produsen lampu menyatakan bahwa, rata-rata, lampu tahan lama mereka akan bertahan lebih dari 5.000 jam. Untuk menguji klaim tersebut, seorang ahli statistik mengambil sampel acak sebanyak 100 lampu dan mengukur waktu yang dibutuhkan sampai setiap lampu mati. Ditemukan rata-rata lampu dapat bertahan 5.005 jam Jika diasumsikan bahwa umur jenis lampu ini memiliki standar deviasi sebesar 400 jam, dapatkah kita menyimpulkan pada tingkat signifikansi 5% bahwa klaim tersebut benar?
Soal 2:
Dalam negosiasi antara pekerja dan manajemen, presiden sebuah perusahaan berpendapat bahwa pekerja lapangan (blue-collar workers), yang dibayar rata-rata \$30.000 per tahun, telah mendapatkan gaji yang layak karena rata-rata pendapatan tahunan semua pekerja lapangan di negara tersebut kurang dari \$30.000. Klaim ini ditentang oleh serikat pekerja, yang tidak percaya bahwa rata-rata pendapatan pekerja lapangan lebih kecil dari \$30.000. Untuk menguji klaim presiden perusahaan, seorang arbiter mengambil sampel acak sebanyak 350 pekerja lapangan dari seluruh negara dan meminta mereka melaporkan pendapatan tahunan mereka. Ditemukan rata-rata pendapatan mereka adalah \$29.500. Jika arbiter mengasumsikan bahwa pendapatan pekerja lapangan berdistribusi normal dengan standar deviasi \$8.000, dapatkah disimpulkan pada tingkat signifikansi 5% bahwa pernyataan presiden perusahaan benar?
Soal 3:
Hitung probabilitas kesalahan Tipe II (\(\beta\)) untuk pengujian hipotesis berikut, diberikan bahwa \(\mu = 203\).
\[ H_0: \quad \mu = 200 \] \[ H_1: \quad \mu \neq 200 \]Informasi tambahan:
- Tingkat signifikansi: \( \alpha = 0.05 \)
- Standar deviasi populasi: \( \sigma = 10 \)
- Ukuran sampel: \( n = 100 \)
Pertemuan 5
Bab 12: Inferensi tentang Populasi
Bab ini membahas teknik inferensial statistik untuk mendeskripsikan parameter populasi berdasarkan data sampel.
12-1. Inferensi terhadap Rata-rata Populasi saat Simpangan Baku Tidak Diketahui
Gunakan distribusi t ketika simpangan baku populasi tidak diketahui.
Statistik uji:
\[ t = \frac{\bar{x} - \mu}{s / \sqrt{n}}, \quad \text{df} = n - 1 \]Interval kepercayaan:
\[ \bar{x} \pm t_{\alpha/2} \cdot \frac{s}{\sqrt{n}} \]Contoh: Rata-rata waktu tidur 12 mahasiswa adalah 6.75 jam per malam, dengan simpangan baku sampel 0.945 jam. Hitung interval kepercayaan 95% untuk rata-rata jumlah tidur seluruh mahasiswa.
Jawaban:
\[ \text{CI} = 6.75 \pm t_{0.025, 11} \cdot \frac{0.945}{\sqrt{12}} \approx 6.75 \pm 0.535 \]Jadi, interval kepercayaan: (6.215, 7.285)
12-2. Inferensi terhadap Variansi Populasi
Menggunakan distribusi chi-kuadrat.
Statistik uji:
\[ \chi^2 = \frac{(n - 1)s^2}{\sigma^2} \]Interval kepercayaan untuk variansi:
\[ \left( \frac{(n - 1)s^2}{\chi^2_{\alpha/2}}, \frac{(n - 1)s^2}{\chi^2_{1 - \alpha/2}} \right) \]Contoh: Sebuah mesin menghasilkan bagian dengan simpangan baku sampel 0.0198 dari 15 bagian. Hitung interval kepercayaan 95% untuk simpangan baku populasi.
Jawaban:
\[ \text{CI variansi} = \left( \frac{14 \cdot 0.0198^2}{\chi^2_{0.025}}, \frac{14 \cdot 0.0198^2}{\chi^2_{0.975}} \right) \]CI simpangan baku diperoleh dari akar variansinya.
12-3. Inferensi terhadap Proporsi Populasi
Statistik uji:
\[ z = \frac{\hat{p} - p}{\sqrt{p(1 - p)/n}} \]Interval kepercayaan:
\[ \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \]Contoh: Dalam survei terhadap 1000 pelanggan, 380 menyatakan puas terhadap layanan. Hitung interval kepercayaan 95% terhadap proporsi pelanggan yang puas.
Jawaban:
\[ \hat{p} = \frac{380}{1000} = 0.38,\quad SE = \sqrt{\frac{0.38(0.62)}{1000}} \approx 0.0153 \] \[ \text{CI} = 0.38 \pm 1.96 \cdot 0.0153 \approx (0.350, 0.410) \]Ukuran sampel untuk proporsi:
\[ n = \left( \frac{z_{\alpha/2} \cdot \sqrt{\hat{p}(1 - \hat{p})}}{B} \right)^2 \]Contoh: Untuk estimasi proporsi dengan margin kesalahan 3% dan \( \hat{p} = 0.5 \), hitung ukuran sampel untuk tingkat kepercayaan 95%.
\[ n = \left( \frac{1.96 \cdot \sqrt{0.5 \cdot 0.5}}{0.03} \right)^2 \approx 1067 \]12-4. Aplikasi Pemasaran: Segmentasi Pasar
Jika hasil survei menunjukkan bahwa 18 dari 100 orang dalam sampel menunjukkan minat terhadap suatu produk, dan total populasi target adalah 10.000, maka estimasi ukuran segmen pasar adalah:
\[ 10.000 \cdot \left( \frac{18}{100} \right) = 1800 \]Soal 1:
Sebagian besar pemilik kamera digital menyimpan foto-fotonya langsung di dalam kamera.
Beberapa dari mereka mungkin akan mengunduh foto-foto tersebut ke komputer atau mencetaknya menggunakan printer pribadi atau layanan cetak komersial.
Sebuah perusahaan pemrosesan film ingin mengetahui berapa banyak foto yang biasanya disimpan di komputer.
Sebuah sampel acak dari 10 pemilik kamera digital menghasilkan data sebagai berikut:
25, 6, 22, 26, 31, 18, 13, 20, 14, 2
Hitung estimasi rata-rata jumlah foto yang disimpan di kamera digital dengan tingkat kepercayaan 95%.
Soal 2:
Berikut ini adalah bobot dari sampel acak kotak sereal yang seharusnya memiliki berat 1 pon:
1.05, 1.03, 0.98, 1.00, 0.99, 0.97, 1.01, 0.96
Tentukan estimasi interval kepercayaan 95% untuk varians populasi berat kotak sereal tersebut.
Soal 3:
Sebelum penurunan jumlah penumpang pesawat, sebuah maskapai mengklaim bahwa 92% dari penerbangannya tepat waktu. Sampel acak dari 165 penerbangan yang dilakukan tahun ini menunjukkan bahwa 153 di antaranya tepat waktu. Dapatkah kita menyimpulkan, pada tingkat signifikansi 5%, bahwa kinerja ketepatan waktu maskapai tersebut telah meningkat?
Pertemuan 6
Uji Statistik untuk Perbandingan Dua Populasi
1. Uji Z untuk Selisih Dua Rata-rata (σ diketahui)
Rumus:
\[ z = \frac{(\bar{x}_1 - \bar{x}_2) - D_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]Contoh: Rata-rata penghasilan lulusan jurusan A adalah Rp7.000.000 (\( \sigma_1 = 1.000.000 \), \( n_1 = 36 \)) dan jurusan B Rp6.500.000 (\( \sigma_2 = 1.200.000 \), \( n_2 = 49 \)). Uji apakah ada perbedaan signifikan pada \( \alpha = 0{,}05 \).
Jawaban:
\[ z = \frac{(7.000.000 - 6.500.000)}{\sqrt{\frac{1.000.000^2}{36} + \frac{1.200.000^2}{49}}} \approx 2{,}0912 \] \[ p\text{-value} = 0{,}0365 \Rightarrow \text{Signifikan} \]2. Uji t Dua Sampel (σ tidak diketahui, varians sama)
Rumus:
\[ t = \frac{(\bar{x}_1 - \bar{x}_2)}{s_p \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \] \[ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} \]Contoh: Mesin A: \( \bar{x}_1 = 210, s_1 = 15, n_1 = 10 \) Mesin B: \( \bar{x}_2 = 200, s_2 = 20, n_2 = 12 \)
Jawaban:
\[ s_p = 17{,}707, \quad t = 1{,}303, \quad p\text{-value} = 0{,}2074 \Rightarrow \text{Tidak signifikan} \]3. Uji t Welch (varians tidak sama)
Rumus:
\[ t = \frac{(\bar{x}_1 - \bar{x}_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]Contoh: Kelompok 1: \( \bar{x}_1 = 4{,}5, s_1 = 1{,}2, n_1 = 15 \) Kelompok 2: \( \bar{x}_2 = 3{,}8, s_2 = 2{,}0, n_2 = 10 \)
Jawaban:
\[ t = 0{,}9939, \quad df \approx 13{,}34, \quad p = 0{,}3379 \Rightarrow \text{Tidak signifikan} \]4. Uji Z untuk Selisih Dua Proporsi
Rumus:
\[ z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p(1 - p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}, \quad p = \frac{x_1 + x_2}{n_1 + n_2} \]Contoh: Pria: 150 dari 200 menyukai produk baru → \( \hat{p}_1 = 0{,}75 \) Wanita: 126 dari 180 → \( \hat{p}_2 = 0{,}70 \)
Jawaban:
\[ z = 1{,}0915, \quad p\text{-value} = 0{,}275 \Rightarrow \text{Tidak signifikan} \]5. Interval Kepercayaan Selisih Proporsi (95%)
Rumus:
\[ (\hat{p}_1 - \hat{p}_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}} \]Jawaban:
\[ \text{CI} = (-0{,}0399,\ 0{,}1399) \Rightarrow \text{Tidak signifikan karena mencakup nol} \]6. Uji F untuk Perbandingan Dua Varians
Rumus:
\[ F = \frac{s_1^2}{s_2^2} \]Contoh: Sektor Swasta: \( s_1^2 = 16, n_1 = 25 \) Pemerintah: \( s_2^2 = 9, n_2 = 20 \)
Jawaban:
\[ F = \frac{16}{9} = 1{,}7778, \quad p\text{-value} \approx 0{,}1575 \Rightarrow \text{Tidak signifikan} \]7. Uji T untuk Data Berpasangan
Rumus:
\[ t = \frac{\overline{x}_D-\mu_D}{s_D/\sqrt{n_D}} \]Contoh:
Banyak orang menggunakan pemindai (scanner) untuk membaca dokumen dan menyimpannya dalam file Word (atau perangkat lunak lainnya). Untuk menentukan merek scanner mana yang lebih baik untuk dibeli, seorang mahasiswa melakukan eksperimen dengan memindai 8 dokumen menggunakan masing-masing dari dua scanner yang ingin dibandingkannya.
Ia mencatat jumlah kesalahan (errors) yang terjadi untuk masing-masing scanner. Data dicatat sebagai berikut:
Dokumen | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
Brand A | 17 | 29 | 18 | 14 | 21 | 25 | 22 | 29 |
Brand B | 21 | 38 | 15 | 19 | 22 | 30 | 31 | 37 |
- Apakah dapat disimpulkan bahwa Brand A (scanner yang lebih mahal) lebih baik daripada Brand B, dengan data ini?
Hipotesis:
\[ H_0: \mu_d = 0 \quad \text{(tidak ada perbedaan kesalahan)} \] \[ H_1: \mu_d < 0 \quad \text{(Brand A memiliki lebih sedikit kesalahan daripada Brand B)} \]
Langkah Penyelesaian:
- Hitung selisih tiap pasangan: \( d_i = \text{Brand A} - \text{Brand B} \)
- Hitung rata-rata selisih \( \bar{d} \) dan simpangan baku \( s_d \)
- Hitung nilai statistik uji:
- Bandingkan nilai \( t \) dengan nilai kritis \( t \)-distribusi pada \( \alpha = 0.05 \) untuk uji satu arah (left-tailed test).
\[ t = \frac{\bar{d}}{s_d/\sqrt{n}} \]
Soal 1:
Seorang manajer sumber daya manusia di sebuah perusahaan mobil ingin mengetahui apakah pekerja lini produksi memiliki jumlah hari ketidakhadiran yang lebih banyak dibandingkan dengan pekerja kantor. Ia mengambil sampel acak sebanyak 8 pekerja dari masing-masing kategori dan mencatat jumlah hari ketidakhadiran selama satu tahun terakhir. Data hari ketidakhadiran:
- Pekerja Lini Produksi: 4, 0, 6, 8, 3, 11, 13, 5
- Pekerja Kantor: 9, 2, 7, 1, 4, 7, 9, 8
Dapatkah kita menyimpulkan bahwa terdapat perbedaan rata-rata jumlah hari ketidakhadiran antara kedua kelompok pekerja ini?
Soal 2:
Untuk menentukan apakah pupuk jenis baru lebih efektif dibandingkan pupuk yang saat ini digunakan, peneliti mengambil 12 petak tanah (masing-masing seluas 2 acre) yang tersebar di seluruh wilayah.Setiap petak dibagi menjadi dua sub-petak yang sama besar. Satu sub-petak diberi pupuk saat ini, dan sub-petak lainnya diberi pupuk baru. Gandum ditanam, dan hasil panen diukur (dalam satuan hasil panen yang setara).
Data Hasil Panen:
Plot | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Pupuk Saat Ini | 56 | 45 | 68 | 72 | 61 | 69 | 57 | 55 | 60 | 72 | 75 | 66 |
Pupuk Baru | 60 | 49 | 66 | 73 | 59 | 67 | 61 | 58 | 75 | 68 | 72 | 68 |
- Bisakah kita menyimpulkan, pada tingkat signifikansi 5%, bahwa pupuk baru lebih efektif dari pupuk saat ini?
- Hitung estimasi selisih rata-rata hasil panen antara kedua pupuk tersebut dengan tingkat kepercayaan 95%.
- Apa saja kondisi yang harus dipenuhi agar hasil dari (a) dan (b) valid?
- Apakah kondisi tersebut terpenuhi dalam data ini?
- Apakah data ini termasuk data eksperimen atau observasional? Jelaskan.
Soal 3:
Seorang manajer operasional yang mengawasi jalur perakitan mengalami masalah dalam urutan pengerjaan tugas. Masalah ini disebabkan oleh adanya hambatan (bottlenecks) akibat ketidakkonsistenan dalam operasi berurutan. Untuk menyelidikinya, ia melakukan eksperimen dengan menggunakan dua metode berbeda untuk menyelesaikan tugas yang sama. Ia mencatat waktu pengerjaan (dalam detik) dan memperoleh data sebagai berikut:
Metode 1 | 8.8 | 9.6 | 8.4 | 9.0 | 8.3 | 9.2 | 9.0 | 8.7 | 8.5 | 9.4 |
---|---|---|---|---|---|---|---|---|---|---|
Metode 2 | 9.2 | 9.4 | 8.9 | 9.6 | 9.7 | 8.4 | 8.8 | 8.9 | 9.0 | 9.7 |
Dapatkah disimpulkan bahwa metode kedua lebih konsisten daripada metode pertama?
Pertemuan 7
5. Interval Kepercayaan Selisih Proporsi (95%)
Rumus:
\[ (\hat{p}_1 - \hat{p}_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}} \]Jawaban:
\[ \text{CI} = (-0{,}0399,\ 0{,}1399) \Rightarrow \text{Tidak signifikan karena mencakup nol} \]6. Uji F untuk Perbandingan Dua Varians
Rumus:
\[ F = \frac{s_1^2}{s_2^2} \]Contoh: Sektor Swasta: \( s_1^2 = 16, n_1 = 25 \) Pemerintah: \( s_2^2 = 9, n_2 = 20 \)
Jawaban:
\[ F = \frac{16}{9} = 1{,}7778, \quad p\text{-value} \approx 0{,}1575 \Rightarrow \text{Tidak signifikan} \]7. Uji T untuk Data Berpasangan
Rumus:
\[ t = \frac{\overline{x}_D-\mu_D}{s_D/\sqrt{n_D}} \]Contoh:
Banyak orang menggunakan pemindai (scanner) untuk membaca dokumen dan menyimpannya dalam file Word (atau perangkat lunak lainnya). Untuk menentukan merek scanner mana yang lebih baik untuk dibeli, seorang mahasiswa melakukan eksperimen dengan memindai 8 dokumen menggunakan masing-masing dari dua scanner yang ingin dibandingkannya.
Ia mencatat jumlah kesalahan (errors) yang terjadi untuk masing-masing scanner. Data dicatat sebagai berikut:
Dokumen | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
---|---|---|---|---|---|---|---|---|
Brand A | 17 | 29 | 18 | 14 | 21 | 25 | 22 | 29 |
Brand B | 21 | 38 | 15 | 19 | 22 | 30 | 31 | 37 |
- Apakah dapat disimpulkan bahwa Brand A (scanner yang lebih mahal) lebih baik daripada Brand B, dengan data ini?
Hipotesis:
\[ H_0: \mu_d = 0 \quad \text{(tidak ada perbedaan kesalahan)} \] \[ H_1: \mu_d < 0 \quad \text{(Brand A memiliki lebih sedikit kesalahan daripada Brand B)} \]
Langkah Penyelesaian:
- Hitung selisih tiap pasangan: \( d_i = \text{Brand A} - \text{Brand B} \)
- Hitung rata-rata selisih \( \bar{d} \) dan simpangan baku \( s_d \)
- Hitung nilai statistik uji:
- Bandingkan nilai \( t \) dengan nilai kritis \( t \)-distribusi pada \( \alpha = 0.05 \) untuk uji satu arah (left-tailed test).
\[ t = \frac{\bar{d}}{s_d/\sqrt{n}} \]
Soal 1:
Seorang manajer sumber daya manusia di sebuah perusahaan mobil ingin mengetahui apakah pekerja lini produksi memiliki jumlah hari ketidakhadiran yang lebih banyak dibandingkan dengan pekerja kantor. Ia mengambil sampel acak sebanyak 8 pekerja dari masing-masing kategori dan mencatat jumlah hari ketidakhadiran selama satu tahun terakhir. Data hari ketidakhadiran:
- Pekerja Lini Produksi: 4, 0, 6, 8, 3, 11, 13, 5
- Pekerja Kantor: 9, 2, 7, 1, 4, 7, 9, 8
Dapatkah kita menyimpulkan bahwa terdapat perbedaan rata-rata jumlah hari ketidakhadiran antara kedua kelompok pekerja ini?
Soal 2:
Untuk menentukan apakah pupuk jenis baru lebih efektif dibandingkan pupuk yang saat ini digunakan, peneliti mengambil 12 petak tanah (masing-masing seluas 2 acre) yang tersebar di seluruh wilayah.Setiap petak dibagi menjadi dua sub-petak yang sama besar. Satu sub-petak diberi pupuk saat ini, dan sub-petak lainnya diberi pupuk baru. Gandum ditanam, dan hasil panen diukur (dalam satuan hasil panen yang setara).
Data Hasil Panen:
Plot | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Pupuk Saat Ini | 56 | 45 | 68 | 72 | 61 | 69 | 57 | 55 | 60 | 72 | 75 | 66 |
Pupuk Baru | 60 | 49 | 66 | 73 | 59 | 67 | 61 | 58 | 75 | 68 | 72 | 68 |
- Bisakah kita menyimpulkan, pada tingkat signifikansi 5%, bahwa pupuk baru lebih efektif dari pupuk saat ini?
- Hitung estimasi selisih rata-rata hasil panen antara kedua pupuk tersebut dengan tingkat kepercayaan 95%.
- Apa saja kondisi yang harus dipenuhi agar hasil dari (a) dan (b) valid?
- Apakah kondisi tersebut terpenuhi dalam data ini?
- Apakah data ini termasuk data eksperimen atau observasional? Jelaskan.
Soal 3:
Seorang manajer operasional yang mengawasi jalur perakitan mengalami masalah dalam urutan pengerjaan tugas. Masalah ini disebabkan oleh adanya hambatan (bottlenecks) akibat ketidakkonsistenan dalam operasi berurutan. Untuk menyelidikinya, ia melakukan eksperimen dengan menggunakan dua metode berbeda untuk menyelesaikan tugas yang sama. Ia mencatat waktu pengerjaan (dalam detik) dan memperoleh data sebagai berikut:
Metode 1 | 8.8 | 9.6 | 8.4 | 9.0 | 8.3 | 9.2 | 9.0 | 8.7 | 8.5 | 9.4 |
---|---|---|---|---|---|---|---|---|---|---|
Metode 2 | 9.2 | 9.4 | 8.9 | 9.6 | 9.7 | 8.4 | 8.8 | 8.9 | 9.0 | 9.7 |
Dapatkah disimpulkan bahwa metode kedua lebih konsisten daripada metode pertama?
Pertemuan 8
Ketentuan UTS ES4D
- Setiap mahasiswa akan menerima soal masing-masing sesuai dengan NIM.
Ketentuan UTS ES4E
- Setiap mahasiswa akan menerima soal masing-masing sesuai dengan NIM.
Pertemuan 9
Bab 14: Analisis Varians (ANOVA) dan Perbandingan Berganda
14.1 One-Way Analysis of Variance
Digunakan untuk menguji apakah terdapat perbedaan yang signifikan antara dua atau lebih rata-rata populasi.
Hipotesis:
\[ H_0 : \mu_1 = \mu_2 = \cdots = \mu_k \quad\text{vs}\quad H_1 : \text{paling tidak ada dua rata-rata berbeda} \]Statistik uji F:
\[ F = \frac{MST}{MSE} \quad\text{dengan}\quad MST = \frac{SST}{k - 1},\quad MSE = \frac{SSE}{n - k} \]- SST: jumlah kuadrat antar grup
- SSE: jumlah kuadrat dalam grup
- Data harus dari distribusi normal dengan varians yang sama
14.2 Multiple Comparisons
Jika uji F signifikan, kita lanjut untuk melihat pasangan mana yang berbeda. Metode umum:
- Fisher’s LSD: sensitif, gunakan jika jumlah perbandingan sedikit
- Bonferroni: sesuaikan \( \alpha \to \frac{\alpha}{C} \) untuk C perbandingan
- Tukey’s HSD: berbasis Studentized Range, cocok untuk semua perbandingan
14.3 Desain Eksperimen
- One-Way ANOVA: satu faktor (misal, usia)
- Randomized Block (Two-Way): dua faktor (misal, usia dan gender)
- Fixed Effects: semua level diamati
- Random Effects: level merupakan sampel dari populasi
Contoh: Pengaruh Metode Belajar terhadap Skor Ujian
Seorang guru ingin mengetahui apakah metode belajar yang berbeda mempengaruhi hasil ujian siswa. Ia membagi siswa ke dalam tiga kelompok:
- Kelompok A: membaca mandiri
- Kelompok B: video pembelajaran
- Kelompok C: diskusi kelompok
Kelompok A | 70 | 72 | 68 | 71 | 69 | 73 |
---|---|---|---|---|---|---|
Kelompok B | 78 | 74 | 75 | 77 | 76 | 80 |
Kelompok C | 82 | 88 | 85 | 87 | 90 | 86 |
Hipotesis:
\[ H_0: \mu_A = \mu_B = \mu_C \quad\text{vs}\quad H_1: \text{paling tidak ada dua rata-rata berbeda} \]Langkah Perhitungan ANOVA Satu Arah
Data:
Kelompok A | 70 | 72 | 68 | 71 | 69 | 73 |
---|---|---|---|---|---|---|
Kelompok B | 78 | 74 | 75 | 77 | 76 | 80 |
Kelompok C | 82 | 88 | 85 | 87 | 90 | 86 |
Total data $n= 18,$ jumlah grup $k= 3,$ dan \( n_i = 6 \)
Langkah 1: Hitung rata-rata tiap grup dan total
\[ \bar{X}_A = \frac{70 + 72 + 68 + 71 + 69 + 73}{6} = \frac{423}{6} = 70.5 \] \[ \bar{X}_B = \frac{78 + 74 + 75 + 77 + 76 + 80}{6} =\frac{460}{6} =76.7 \] \[ \bar{X}_C = \frac{82 + 88 + 85 + 87 + 90 + 86}{6} = \frac{518}{6}=86.3 \] \[ \bar{X}_T = \frac{\text{total seluruh data}}{18} = \frac{1401}{18} = 77.83 \]
Langkah 2: Hitung Total Sum of Squares (Total SS)
\[ Total SS = \sum (X_{ij} - \bar{X}_T)^2 \] (Menggunakan semua 18 nilai → selisih tiap nilai dari \(\bar{X}_T\), lalu dikuadratkan dan dijumlahkan) \[ Total SS \approx 842.5 \]Langkah 3: Hitung Sum of Squares Treatment (SST)
\[ SST = \sum n_i(\bar{X}_i - \bar{X}_T)^2 \] \[ = 6(70.5 - 77.83)^2 + 6(76.7 - 77.83)^2 + 6(86.3 - 77.83)^2 \] \[ = 6 \cdot (53.78 + 1.36 + 72.25) \approx 764.3 \]Langkah 4: Hitung Sum of Squares Error (SSE)
\[ SSE = Total SS - SST = 842.5 - 764.3 = 78.17 \]Langkah 5: Hitung Mean Squares dan F-Statistik
- dfantara = \( k - 1 = 2 \)
- dfdalam = \( n - k = 15 \)
\[ MST = \frac{SST}{2} = \frac{764.3}{2} = 382.15 \] \[ MSE = \frac{SSE}{15} = \frac{78.17}{15} \approx 5.21 \] \[ F = \frac{MST}{MSE} = \frac{382.15}{5.21} \approx 73.35 \]
Langkah 6: Keputusan
- Nilai $F = 73.35$ sangat besar
- Nilai batas kritis $F_{(0.025)(2)(15)}=4.77$
Kesimpulan: Tolak \( H_0 \). Terdapat perbedaan signifikan rata-rata skor ujian antar metode belajar.
Penjelasan Multiple Comparisons Setelah ANOVA
Setelah kita menemukan hasil ANOVA signifikan (artinya terdapat perbedaan rata-rata antar grup), langkah berikutnya adalah mencari tahu: pasangan rata-rata mana yang berbeda secara signifikan.
Untuk menjawab ini, digunakan uji perbandingan berganda (multiple comparisons). Tiga metode yang umum digunakan adalah:
1. Fisher’s LSD (Least Significant Difference)
Rumus: \[ \text{LSD} = t_{\alpha/2} \cdot \sqrt{2 \cdot \frac{MSE}{n_i}} \]
- Sangat sederhana dan mudah dihitung.
- Seperti uji t dua sampel, tetapi hanya dilakukan jika ANOVA signifikan.
- Sensitif: mudah mendeteksi perbedaan.
- Kelemahan: Jika terlalu banyak pasangan dibandingkan, risiko kesalahan Tipe I (false positive) meningkat.
Gunakan Fisher’s LSD jika:
- Jumlah grup sedikit (misal 3 grup).
- Anda hanya ingin ilustrasi atau eksplorasi awal.
2. Bonferroni Adjustment
Ide utama Bonferroni adalah menyesuaikan tingkat signifikansi: \[ \alpha_{\text{baru}} = \frac{\alpha}{C} \quad \text{dengan } C = \text{jumlah perbandingan pasangan} \]
Kemudian gunakan uji t biasa dengan \( \alpha_{\text{baru}} \) tersebut untuk tiap pasangan.
- Lebih hati-hati (konservatif) daripada Fisher’s LSD.
- Risiko Type I Error sangat kecil.
- Kekurangan: Bisa terlalu ketat sehingga gagal mendeteksi perbedaan yang benar (Type II Error meningkat).
Gunakan Bonferroni jika:
- Anda hanya membandingkan beberapa pasangan penting (planned comparisons).
- Anda ingin sangat yakin terhadap hasil yang signifikan.
3. Tukey’s HSD (Honestly Significant Difference)
Dirancang khusus untuk membandingkan semua pasangan rata-rata dengan kontrol penuh terhadap keseluruhan tingkat kesalahan (family-wise error rate).
Rumus: \[ \text{HSD} = q_{\alpha;k,n-k} \cdot \sqrt{\frac{MSE}{n_i}} \]
- \( q \): nilai dari distribusi studentized range.
- Direkomendasikan untuk perbandingan menyeluruh.
- Kontrol error lebih baik dibanding LSD, dan tidak seketat Bonferroni.
Gunakan Tukey’s HSD jika:
- Anda ingin membandingkan semua pasangan rata-rata.
- Jumlah grup lebih dari 3.
Kesimpulan Praktis
Metode | Kapan digunakan | Keunggulan | Kekurangan |
---|---|---|---|
Fisher’s LSD | Grup sedikit (2–3) | Sederhana, sensitif | Tidak kontrol error saat banyak perbandingan |
Bonferroni | Planned comparisons | Sangat aman terhadap Type I Error | Terlalu konservatif |
Tukey’s HSD | All-pairwise comparisons | Keseimbangan power dan kontrol error | Butuh tabel khusus untuk nilai \( q \) |
Contoh Perbandingan Metode: Fisher’s LSD, Bonferroni, dan Tukey’s HSD
Situasi:
Seorang dosen ingin mengetahui apakah terdapat perbedaan skor ujian rata-rata antara tiga metode pembelajaran berbeda. Ia mengumpulkan data dari 18 siswa, 6 orang di setiap kelompok:
Metode A | 70 | 72 | 68 | 71 | 69 | 73 |
---|---|---|---|---|---|---|
Metode B | 78 | 74 | 75 | 77 | 76 | 80 |
Metode C | 82 | 88 | 85 | 87 | 90 | 86 |
Total sampel: \( n = 18 \), jumlah grup: \( k = 3 \)
Langkah 1: Hitung Rata-rata
- \( \bar{X}_A = 70.5 \)
- \( \bar{X}_B = 76.7 \)
- \( \bar{X}_C = 86.3 \)
Langkah 2: MSE dari ANOVA
Dari ANOVA, didapatkan:
- \( MSE = 5.21 \)
- \( df_{error} = 15 \)
Perbandingan Antar Pasangan
Setiap metode akan membandingkan:
- A vs B → \( |\bar{X}_B - \bar{X}_A| = 6.2 \)
- A vs C → \( |\bar{X}_C - \bar{X}_A| = 15.8 \)
- B vs C → \( |\bar{X}_C - \bar{X}_B| = 9.6 \)
1. Fisher’s LSD
\[ LSD = t_{0.025,15} \cdot \sqrt{2 \cdot \frac{MSE}{n}} = 2.131 \cdot \sqrt{2 \cdot \frac{5.21}{6}} \approx 2.81 \]
Keputusan:
- A vs B: 6.2 > 2.81 → Signifikan
- A vs C: 15.8 > 2.81 → Signifikan
- B vs C: 9.6 > 2.81 → Signifikan
2. Bonferroni
Ada 3 perbandingan, maka: \[ \alpha_{\text{baru}} = \frac{0.05}{3} \approx 0.0167 \quad \Rightarrow \quad t_{0.00835,15} \approx 2.552 \] \[ LSD_{\text{Bonf}} = 2.552 \cdot \sqrt{2 \cdot \frac{5.21}{6}} \approx 3.36 \]
Keputusan:
- A vs B: 6.2 > 3.36 → Signifikan
- A vs C: 15.8 > 3.36 → Signifikan
- B vs C: 9.6 > 3.36 → Signifikan
3. Tukey’s HSD
\[ HSD = q_{\alpha, k, n-k} \cdot \sqrt{\frac{MSE}{n}} \quad q_{0.05,3,15} \approx 3.674 \] \[ HSD = 3.674 \cdot \sqrt{\frac{5.21}{6}} \approx 3.42 \]
Keputusan:
- A vs B: 6.2 > 3.42 → Signifikan
- A vs C: 15.8 > 3.42 → Signifikan
- B vs C: 9.6 > 3.42 → Signifikan
Kesimpulan Akhir
- Ketiga metode menunjukkan hasil yang konsisten dalam kasus ini: semua pasangan berbeda secara signifikan.
- Namun, jika selisih lebih kecil, metode seperti Bonferroni atau Tukey mungkin menghasilkan keputusan berbeda.
Dengan memahami dan membandingkan ketiga metode ini, mahasiswa dapat memilih metode yang sesuai dengan tujuan analisis dan tingkat kehati-hatian terhadap error.
Soal 1:
Banyak mahasiswa perguruan tinggi dan universitas bekerja selama musim panas. Seorang profesor statistik ingin mengetahui apakah mahasiswa dari program studi yang berbeda memiliki rata-rata pendapatan musim panas yang berbeda. Sebuah sampel acak dari 5 mahasiswa pada masing-masing program B.A., B.Sc., dan B.B.A. diminta untuk melaporkan pendapatan musim panas mereka sebelumnya (dalam ribuan dolar). Berikut adalah data yang diperoleh (dalam ribuan dolar):
B.A. | B.Sc. | B.B.A. |
---|---|---|
3.3 | 3.9 | 4.0 |
2.5 | 5.1 | 6.2 |
4.6 | 3.9 | 6.3 |
5.4 | 6.2 | 5.9 |
3.9 | 4.8 | 6.4 |
Dapatkah profesor menyimpulkan, pada tingkat signifikansi 5%, bahwa mahasiswa dari program studi yang berbeda memiliki perbedaan rata-rata pendapatan musim panas?
Soal 2:
Seorang ilmuwan manajemen percaya bahwa salah satu cara untuk menilai apakah sebuah komputer memiliki kapasitas memori yang cukup adalah dengan mengetahui usia komputernya. Dalam studi awal, sampel acak pengguna komputer diminta untuk menyebutkan merek komputernya dan usia komputer tersebut (dalam bulan). Data yang dikategorikan ditampilkan dalam tabel berikut. Apakah data ini memberikan bukti yang cukup untuk menyimpulkan bahwa terdapat perbedaan usia rata-rata komputer antar merek pada tingkat signifikansi \( \alpha = 0.05 \)?
Data Usia Komputer (dalam bulan):IBM | Dell | Hewlett-Packard | Other |
---|---|---|---|
17 | 8 | 6 | 24 |
10 | 4 | 15 | 12 |
13 | 21 | 8 | 15 |
Soal 3:
Bagaimana pengaruh jurusan MBA terhadap jumlah tawaran pekerjaan yang diterima? Seorang mahasiswa MBA secara acak mengambil sampel dari empat lulusan terbaru — satu dari masing-masing jurusan finance, marketing, dan management — dan meminta mereka melaporkan jumlah tawaran pekerjaan yang mereka terima. Dapatkah kita menyimpulkan, pada tingkat signifikansi 5%, bahwa terdapat perbedaan rata-rata jumlah tawaran pekerjaan antara tiga jurusan MBA tersebut?
Data Jumlah Tawaran Pekerjaan:Finance | Marketing | Management |
---|---|---|
3 | 1 | 8 |
1 | 5 | 5 |
4 | 3 | 4 |
1 | 4 | 6 |
Pertemuan 10
Rangkuman Bab 14: ANOVA Lanjutan
1. Randomized Block ANOVA (Two-Way Tanpa Interaksi)
- Model: Memasukkan dua sumber variasi — perlakuan dan blok
- Pembagian variasi:
Contoh 1: Randomized Block ANOVA
Seorang peneliti ingin menguji tiga metode pelatihan (A, B, C) terhadap hasil ujian, dengan lima kelompok usia berbeda (blok). Skor ujian:
Kelompok | Metode A | Metode B | Metode C |
---|---|---|---|
1 | 75 | 78 | 72 |
2 | 80 | 85 | 79 |
3 | 78 | 82 | 74 |
4 | 85 | 89 | 81 |
5 | 83 | 87 | 80 |
Perhitungan:
Rata-rata total:
\[ \bar{X}_T = 80.53 \]Jumlah Kuadrat:
- \( SS_T = 123.33 \)
- \( SS_B = 196.40 \)
- \( SS_E = 4.00 \)
Mean Square:
- \( MS_T = \frac{123.33}{2} = 61.67 \)
- \( MS_B = \frac{196.40}{4} = 49.10 \)
- \( MS_E = \frac{4.00}{8} = 0.50 \)
Nilai F:
- \( F_{Treatment} = \frac{61.67}{0.50} = 123.33 \)
- \( F_{Block} = \frac{49.10}{0.50} = 98.20 \)
Karena nilai F sangat besar, baik perlakuan maupun blok berpengaruh signifikan terhadap hasil ujian.
2. Two-Factor ANOVA Dengan Interaksi
- Model memasukkan dua faktor dan interaksi:
Contoh 2: Two-Way ANOVA
Peneliti ingin menganalisis efek Jenis Kelamin (A) dan Metode Belajar (B) terhadap nilai akhir. Desain 2 × 3, masing-masing sel 4 responden.
Online | Hybrid | Offline | |
---|---|---|---|
Laki-laki | 78, 80, 82, 79 | 84, 83, 85, 86 | 75, 77, 76, 78 |
Perempuan | 82, 81, 83, 80 | 88, 87, 89, 90 | 79, 80, 81, 82 |
Langkah:
1. Hitung rata-rata setiap sel 2. Hitung: \[ SS_A,\quad SS_B,\quad SS_{AB},\quad SS_E \] 3. Hitung derajat bebas dan nilai F: \[ F_A = \frac{MS_A}{MS_E},\quad F_B = \frac{MS_B}{MS_E},\quad F_{AB} = \frac{MS_{AB}}{MS_E} \] \[ df_{MSA}=a-1,\quad df_{MSB}=b-1,\quad df_{MSE}=n-(a-1)(b-1) \]3. Aplikasi Industri: Six Sigma & Taguchi
Six Sigma merupakan pendekatan berbasis data untuk meningkatkan kualitas dengan mengurangi variasi dan cacat pada proses. Digunakan secara luas di industri manufaktur dan jasa.
Indeks Kapabilitas Proses:
\[ C_p = \frac{USL - LSL}{6\sigma}, \quad C_{pk} = \min\left(\frac{USL - \mu}{3\sigma}, \frac{\mu - LSL}{3\sigma}\right) \]Nilai \( C_p \) atau \( C_{pk} \) lebih besar dari 1.33 dianggap baik untuk produksi massal.
Taguchi Loss Function digunakan untuk mengukur kerugian kualitas akibat penyimpangan dari target nilai (T):
\[ L(x) = k(x - T)^2 \]Dimana \(k\) adalah konstanta biaya, \(x\) adalah nilai aktual, dan \(T\) adalah target. Fungsi ini menunjukkan bahwa semakin jauh dari target, semakin besar kerugian ekonomi — meskipun masih dalam batas spesifikasi.
ANOVA digunakan dalam eksperimen Taguchi untuk membedakan pengaruh faktor terhadap variasi output dan memilih kombinasi faktor terbaik.
Contoh 1: Indeks Kapabilitas Proses
Sebuah perusahaan memproduksi baut dengan spesifikasi panjang:
- Batas atas (USL) = 10.10 mm
- Batas bawah (LSL) = 9.90 mm
- Rata-rata (\( \mu \)) = 10.01 mm
- Simpangan baku (\( \sigma \)) = 0.03 mm
Hitung indeks kapabilitas proses \( C_p \) dan \( C_{pk} \)
Penyelesaian:
\[ C_p = \frac{USL - LSL}{6\sigma} = \frac{10.10 - 9.90}{6 \cdot 0.03} = \frac{0.20}{0.18} \approx 1.11 \] \[ C_{pk} = \min\left( \frac{USL - \mu}{3\sigma}, \frac{\mu - LSL}{3\sigma} \right) = \min\left( \frac{10.10 - 10.01}{0.09}, \frac{10.01 - 9.90}{0.09} \right) \] \[ C_{pk} = \min(1.0, 1.22) = 1.00 \]Interpretasi: Proses ini cukup baik, tetapi belum ideal. Umumnya standar industri mensyaratkan \( C_{pk} > 1.33 \) untuk kapabilitas tinggi.
Contoh 2: Taguchi Loss Function
Sebuah resistor memiliki target nilai \( T = 100 \Omega \), dan biaya kerugian ditetapkan sebesar \$5 ketika deviasi sebesar 5 ohm terjadi.
Konstanta kerugian:
\[ k = \frac{5}{(5)^2} = \frac{5}{25} = 0.2 \]Jika ditemukan resistor dengan nilai aktual \( x = 103 \Omega \), hitung nilai kerugian:
\[ L(x) = k(x - T)^2 = 0.2 \cdot (103 - 100)^2 = 0.2 \cdot 9 = 1.8 \]Interpretasi: Meski resistor masih dalam batas toleransi, penyimpangan 3 ohm menghasilkan kerugian ekonomis sebesar \$1.80 per unit menurut fungsi Taguchi.
Kesimpulan
- ANOVA dua arah mengungkap pengaruh faktor tunggal dan interaksi.
- Metode blok dapat mengurangi galat eksperimental.
- Six Sigma dan Taguchi menggunakan ANOVA untuk pengambilan keputusan kualitas dan efisiensi biaya.
Soal 1:
Sebagian besar dosen perguruan tinggi ingin mahasiswanya aktif berpartisipasi di kelas. Idealnya, mahasiswa akan mengajukan pertanyaan dan menjawab pertanyaan dosen, sehingga pengalaman belajar lebih menyenangkan dan bermanfaat.
Seorang dosen statistik di sebuah community college di negara bagian New York percaya bahwa ada beberapa faktor eksternal yang memengaruhi partisipasi mahasiswa di kelas. Ia percaya bahwa waktu pelaksanaan kelas dan konfigurasi tempat duduk adalah dua faktor tersebut.
Oleh karena itu, ia merancang eksperimen berikut: 6 kelas dengan 60 mahasiswa dijadwalkan untuk satu semester. Dua kelas dijadwalkan pada pukul 9:00 pagi, dua kelas pada 1:00 siang, dan dua kelas pada 4:00 sore. Pada setiap waktu, satu kelas ditempatkan di ruang dengan konfigurasi baris (rows) dan satu di ruang dengan konfigurasi U-shape.
Di masing-masing dari 6 ruang kelas tersebut, selama 5 hari, partisipasi mahasiswa diukur berdasarkan jumlah pertanyaan yang diajukan dan dijawab oleh mahasiswa.
Data Partisipasi Mahasiswa:
Konfigurasi Kelas | 9:00 A.M. | 1:00 P.M. | 4:00 P.M. |
---|---|---|---|
Rows | 10, 9, 9, 8 | 12, 9, 14, 6 | 7, 9, 20, 12 |
U-Shape | 15, 11, 13, 13 | 4, 7, 4, 6 | 7, 9, 6, 6 |
- Berapa banyak faktor dalam eksperimen ini? Sebutkan.
- Apa variabel responnya?
- Identifikasi level dari masing-masing faktor.
- Kesimpulan apa yang bisa diambil oleh dosen dari data ini?
Soal 2:
Soal 3:
Pertemuan 11
Bab 15: Uji Chi-Squared
1. Chi-Squared Goodness-of-Fit Test
- Digunakan untuk menguji apakah distribusi data nominal sesuai dengan distribusi yang diharapkan.
- Contoh: preferensi merek, jenis kendaraan, dsb.
- \( f_i \): frekuensi observasi
- \( e_i = np_i \): frekuensi yang diharapkan
Contoh 1:
Suatu perusahaan ingin mengetahui apakah distribusi pasar telah berubah dari:
- Produk A: 45%
- Produk B: 40%
- Produk lain: 15%
Dari 200 responden, diperoleh:
- A: 102, B: 82, Lain: 16
2. Chi-Squared Test of a Contingency Table
- Digunakan untuk mengetahui apakah dua variabel nominal saling berkaitan (independen vs. dependen).
Contoh 2:
Hubungan antara gelar sarjana dan jurusan MBA:
Accounting | Finance | Marketing | |
---|---|---|---|
BA | 31 | 13 | 16 |
BEng | 8 | 16 | 7 |
BBA | 12 | 10 | 17 |
Other | 10 | 5 | 7 |
\[ e_{11} = \frac{60 \cdot 61}{152} = 24.08 \] \[ \chi^2 = \sum \frac{(O - E)^2}{E} = 14.70 \quad \text{dengan } df = (4 - 1)(3 - 1) = 6 \] \[ \chi^2_{0.05, 6} = 12.59 \Rightarrow \text{Tolak } H_0 \] ---
3. Chi-Squared Test for Normality
Digunakan untuk menguji apakah suatu data kuantitatif mengikuti distribusi normal.
Langkah:- Kelompokkan data ke dalam kelas-kelas
- Hitung probabilitas setiap kelas dari distribusi normal teoritis
- Hitung frekuensi harapan \( e_i = n \cdot p_i \)
- Gunakan uji \(\chi^2\) dengan \( df = k - 1 - \text{jumlah parameter estimasi} \)
4. Ringkasan Teknik untuk Data Nominal
Tujuan | Jumlah Kategori | Teknik |
---|---|---|
Menggambarkan populasi | 2 | z-test of p atau chi-square |
Menggambarkan populasi | > 2 | Chi-squared Goodness-of-Fit |
Bandingkan 2 populasi | 2 | z-test p1-p2 atau chi-square table |
Bandingkan ≥2 populasi | 2 atau lebih | Chi-square table |
Hubungan dua variabel | 2 atau lebih | Chi-square table |
Soal 1:
Misalkan departemen kepegawaian dalam Latihan 15.87 melanjutkan penyelidikannya dengan mengkategorikan ketidakhadiran berdasarkan shift kerja dan hari ketidakhadiran. Data ditampilkan dalam tabel berikut.
Apakah ada cukup bukti pada tingkat signifikansi 10% (\( \alpha = 0.10 \)) untuk menyimpulkan bahwa terdapat hubungan antara hari saat karyawan tidak masuk dan shift kerja mereka?
Tabel Ketidakhadiran Karyawan:
Shift | Senin | Selasa | Rabu | Kamis | Jumat |
---|---|---|---|---|---|
Siang | 52 | 28 | 37 | 31 | 33 |
Malam | 35 | 34 | 34 | 37 | 41 |
Soal 2:
Seorang manajer operasional dari perusahaan pembuat kemeja ingin mengetahui apakah terdapat perbedaan kualitas hasil kerja di antara tiga shift harian.
Ia secara acak memilih 600 kemeja yang baru diproduksi dan memeriksanya dengan teliti. Setiap kemeja diklasifikasikan sebagai sempurna (perfect) atau cacat (flawed), dan shift yang memproduksinya juga dicatat.
Tabel berikut merangkum jumlah kemeja untuk tiap kombinasi kondisi dan shift:
Tabel Data Kualitas Produksi:
Kondisi Kemeja | Shift 1 | Shift 2 | Shift 3 |
---|---|---|---|
Sempurna | 240 | 191 | 139 |
Cacat | 10 | 9 | 11 |
Soal 3:
Seorang analis perilaku organisasi sedang meneliti hubungan antara struktur pengawasan pria/wanita di tempat kerja dengan tingkat kepuasan kerja karyawan.
Hasil dari survei terbaru disajikan dalam tabel berikut. Apakah ada cukup bukti untuk menyimpulkan bahwa tingkat kepuasan kerja bergantung pada kombinasi jenis kelamin antara atasan dan karyawan?
Tabel Kepuasan Kerja berdasarkan Gender Atasan/Karyawan
Tingkat Kepuasan | Perempuan/Pria | Perempuan/Perempuan | Pria/Pria | Pria/Perempuan |
---|---|---|---|---|
Puas | 21 | 25 | 54 | 71 |
Netral | 39 | 49 | 50 | 38 |
Tidak Puas | 31 | 48 | 10 | 11 |
Pertemuan 12
Bab 16: Regresi Linear Sederhana dan Korelasi
Model Regresi Linear Sederhana
Model populasi:
\[ Y = \beta_0 + \beta_1 X + \varepsilon \]- \( Y \): variabel respon
- \( X \): variabel prediktor
- \( \beta_0 \): intercept
- \( \beta_1 \): slope
- \( \varepsilon \): error acak
Estimasi Parameter (Least Squares)
Persamaan estimasi model:
\[ \hat{Y} = b_0 + b_1 X \]Perhitungan slope dan intercept:
\[ b_1 = \frac{s_{xy}}{s_x^2}, \quad b_0 = \bar{Y} - b_1 \bar{X} \]Dimana:
\[ s_{xy} = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{n-1} \]Jumlah kuadrat error (SSE):
\[ SSE = \sum (Y_i - \hat{Y}_i)^2 \] ---Asumsi Model Regresi
- Error menyebar normal: \( \varepsilon \sim N(0, \sigma^2) \)
- Error bersifat independen
- Homoskedastisitas: variansi error konstan
Pengujian Model Regresi
Standard Error of Estimate:
\[ s_\varepsilon = \sqrt{\frac{SSE}{n-2}} \]Pengujian Signifikansi Slope:
Hipotesis:
\[ H_0: \beta_1 = 0 \quad \text{vs} \quad H_1: \beta_1 \neq 0 \]Statistik uji:
\[ t = \frac{b_1}{s_{b_1}}, \quad s_{b_1} = \frac{s_\varepsilon}{\sqrt{(n-1)s_x^2}} \] ---Koefisien Determinasi (R-Square):
\[ R^2 = \frac{s_{xy}^2}{s_x^2 s_y^2} \]R-square menunjukkan proporsi variasi \( Y \) yang dijelaskan oleh \( X \).
Koefisien Korelasi (r):
\[ r = \frac{s_{xy}}{s_x s_y} \]Uji signifikansi korelasi identik dengan uji signifikansi slope.
---Prediksi
Confidence Interval untuk Rata-rata:
\[ \hat{Y} \pm t_{\alpha/2, n-2} s_\varepsilon \sqrt{\frac{1}{n} + \frac{(X_g - \bar{X})^2}{(n-1)s_x^2}} \]Prediction Interval untuk Nilai Individu:
\[ \hat{Y} \pm t_{\alpha/2, n-2} s_\varepsilon \sqrt{1 + \frac{1}{n} + \frac{(X_g - \bar{X})^2}{(n-1)s_x^2}} \] ---Diagnostik Regresi
- Normalitas residual → histogram residual
- Homoskedastisitas → scatterplot residual vs prediksi
- Outlier → residual standar \( > 2 \)
- Autokorelasi → residual plot terhadap waktu
- Pengamatan berpengaruh → pengaruh kuat terhadap slope
Caution
- Korelasi tidak sama dengan sebab-akibat.
- Model hanya berlaku dalam rentang data pengamatan.
Soal 1:
Soal 2:
Soal 3:
Pertemuan 13
Bab 17: Regresi Berganda
Model Regresi Berganda
Model umum:
\[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \varepsilon \]- \( y \): variabel dependen
- \( x_i \): variabel independen ke-i
- \( \beta_0, \beta_1, \dots \): parameter
- \( \varepsilon \): error (galat acak)
Syarat Model Regresi Berganda
- Distribusi error normal: \( \varepsilon \sim N(0, \sigma^2) \)
- Rata-rata error nol: \( E(\varepsilon) = 0 \)
- Variansi error konstan (homoskedastisitas)
- Error independen antar observasi
Estimasi Koefisien Model
Model estimasi:
\[ \hat{y} = b_0 + b_1 x_1 + b_2 x_2 + \cdots + b_k x_k \]Biasanya dihitung menggunakan software statistik melalui metode least squares.
---Mengukur Kesesuaian Model
a. Standard Error of Estimate:
\[ s_\varepsilon = \sqrt{ \frac{SSE}{n - k - 1} } \]b. Koefisien Determinasi \( R^2 \):
\[ R^2 = 1 - \frac{SSE}{\sum (y_i - \bar{y})^2} \]Semakin tinggi \( R^2 \), semakin baik model menjelaskan variasi \( y \).
c. Adjusted \( R^2 \):
\[ R^2_{\text{adj}} = 1 - \left( \frac{SSE/(n - k - 1)}{SST/(n-1)} \right) \]Mengoreksi pengaruh jumlah variabel independen.
d. Uji F: Validitas Keseluruhan Model
Hipotesis:
\[ H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 \]Statistik uji:
\[ F = \frac{MSR}{MSE} = \frac{SSR / k}{SSE / (n - k - 1)} \] ---Uji Signifikansi Koefisien Individu (uji t)
Untuk tiap koefisien:
\[ t = \frac{b_i}{s_{b_i}} \]Derajat bebas: \( n - k - 1 \)
---Diagnostik Regresi Berganda
a. Normalitas residual
- Diperiksa melalui histogram residual.
b. Homoskedastisitas
- Diperiksa melalui scatterplot residual terhadap nilai prediksi.
c. Autokorelasi (Durbin-Watson test)
\[ d = \frac{ \sum_{i=2}^n (e_i - e_{i-1})^2 }{ \sum_{i=1}^n e_i^2 } \]- Jika \( d \approx 2 \), maka tidak ada autokorelasi.
- Jika \( d < 2 \), ada autokorelasi positif.
- Jika \( d > 2 \), ada autokorelasi negatif.
d. Multikolinearitas
- Terjadi ketika antar variabel independen berkorelasi tinggi.
- Gejala umum: uji F signifikan tetapi banyak uji t tidak signifikan.
Penggunaan Model Regresi
a. Confidence Interval Rata-rata:
\[ \hat{y} \pm t_{\alpha/2, n-k-1} \cdot s_\varepsilon \sqrt{\frac{1}{n} + \frac{(X_g - \bar{X})^2}{(n-1) s_x^2}} \]b. Prediction Interval untuk Individu:
\[ \hat{y} \pm t_{\alpha/2, n-k-1} \cdot s_\varepsilon \sqrt{1 + \frac{1}{n} + \frac{(X_g - \bar{X})^2}{(n-1) s_x^2}} \] ---Kesimpulan
- Regresi berganda memperluas regresi sederhana dengan lebih banyak variabel prediktor.
- Model valid bila asumsi dasar terpenuhi: normalitas, homoskedastisitas, independensi error.
- Perlu evaluasi multikolinearitas dan autokorelasi pada model dengan data riil.
Soal 1:
Soal 2:
Soal 3:
Pertemuan 14
Soal 1:
Soal 2:
Soal 3:
Pertemuan 16
Ketentuan UAS ES4D
- UAS ES4D hanya boleh dikerjakan selama 1,5 jam (sudah termasuk mengunggah jawaban berbentuk pdf).
- Soal UAS ES4D boleh dikerjakan dari 13:00-14:30 dan selanjutnya klik Kirim Jawaban untuk mengunggah jawaban di google form.
- Setiap mahasiswa akan menerima soal masing-masing sesuai dengan NIM.
Ketentuan UAS ES4E
- UAS ES4F hanya boleh dikerjakan selama 1,5 jam (sudah termasuk mengunggah jawaban berbentuk pdf).
- Soal UAS ES4E boleh dikerjakan dari 13:00-14:30 dan selanjutnya klik Kirim Jawaban untuk mengunggah jawaban di google form.
- Setiap mahasiswa akan menerima soal masing-masing sesuai dengan NIM.
Ketentuan UAS ES4F
- UAS ES4F hanya boleh dikerjakan selama 1,5 jam (sudah termasuk mengunggah jawaban berbentuk pdf).
- Soal UAS ES4F boleh dikerjakan dari 14:40-15:40 dan selanjutnya klik Kirim Jawaban untuk mengunggah jawaban di google form.
- Setiap mahasiswa akan menerima soal masing-masing sesuai dengan NIM.
Daftar Hadir dan Nilai
Daftar Nilai ES4D
Daftar Nilai ES4E
Daftar Nilai ES4F