Statistik Inferensial

Statistik Inferensial

Terakhir diubah pada

Pertemuan 1

RPS

Materi Per Pertemuan - Statistik Inferensial

Berdasarkan Buku Acuan: Keller, Gerald. (2018). Statistics for Management and Economics, 11th Edition.

Minggu Ke- Materi Pembelajaran Bab dalam Buku Acuan
1 Pengantar Statistik Inferensial Bab 1
2 Distribusi Sampling Bab 9
3 Estimasi Parameter Bab 10
4 Uji Hipotesis Bab 11
5 Inferensi Statistik untuk Satu Populasi Bab 12
6 Inferensi Statistik untuk Dua Populasi Bab 13
7 Inferensi Dua Populasi (Selisih Variansi & Proporsi) Bab 13
8 Ujian Tengah Semester (UTS) -
9 Analisis Varians (ANOVA) Bab 14
10 ANOVA Dua Faktor Bab 14
11 Uji Khi Kuadrat Bab 15
12 Regresi Linier Sederhana Bab 16
13 Regresi Linier Berganda Bab 17
14 Statistik Nonparametrik (Wilcoxon, Kruskal-Wallis) Bab 19
15 Statistik Nonparametrik (Uji Friedman, Spearman) Bab 19
16 Ujian Akhir Semester (UAS) -

Pertemuan 2

Distribusi Sampling

Distribusi Sampling adalah distribusi probabilitas dari statistik sampel yang dihitung dari banyak sampel yang diambil dari suatu populasi.

Konsep ini sangat penting dalam inferensi statistik, karena memungkinkan kita untuk memperkirakan karakteristik populasi berdasarkan sampel.

Distribusi Sampling dari Mean

Distribusi sampling dari mean adalah distribusi probabilitas dari rata-rata sampel yang diambil dari suatu populasi.

Teorema Limit Pusat menyatakan bahwa jika ukuran sampel cukup besar, distribusi sampling dari mean akan mendekati distribusi normal, terlepas dari bentuk distribusi populasi asli.

Rumus Mean dan Standar Deviasi dari distribusi sampling:

\[ \mu_{\bar{x}} = \mu \] \[ \sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}} \]

di mana:

  • \(\mu\) adalah mean populasi
  • \(\sigma\) adalah standar deviasi populasi
  • \(n\) adalah ukuran sampel

Distribusi Sampling dari Proporsi

Distribusi sampling juga berlaku untuk proporsi, terutama dalam kasus data biner (misalnya, sukses/gagal).

Jika \( p \) adalah proporsi populasi dan \( \hat{p} \) adalah proporsi sampel, maka:

\[ \mu_{\hat{p}} = p \] \[ \sigma_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}} \]

Distribusi sampling dari proporsi akan mendekati distribusi normal jika memenuhi aturan normalitas:

\[ np \geq 5 \quad \text{dan} \quad n(1-p) \geq 5 \]

Distribusi Sampling dari Selisih Dua Mean

Ketika membandingkan dua sampel independen, distribusi sampling dari selisih dua mean mengikuti aturan:

Mean dari distribusi:

\[ \mu_{\bar{x}_1 - \bar{x}_2} = \mu_1 - \mu_2 \]

Standar deviasi dari distribusi:

\[ \sigma_{\bar{x}_1 - \bar{x}_2} = \sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}} \]

Jika ukuran sampel cukup besar, distribusi ini dapat didekati dengan distribusi normal.

Inferensi Statistik dengan Distribusi Sampling

Distribusi sampling memungkinkan kita untuk:

  1. Menentukan estimasi parameter populasi (seperti mean atau proporsi).
  2. Menghitung probabilitas dari suatu sampel berdasarkan distribusi normal.
  3. Melakukan uji hipotesis dan interval kepercayaan untuk menentukan signifikansi hasil sampel.

Inferensi statistik bergantung pada asumsi bahwa distribusi sampling cukup normal untuk digunakan dalam perhitungan statistik.

Soal 1:

Waktu yang dihabiskan oleh orang dewasa di Amerika Utara untuk menonton televisi per hari diasumsikan mengikuti distribusi normal dengan rata-rata \( \mu = 6 \) jam dan standar deviasi \( \sigma = 1.5 \) jam.

  1. Berapa probabilitas bahwa seorang dewasa Amerika Utara yang dipilih secara acak menonton televisi lebih dari 7 jam per hari?
  2. Berapa probabilitas bahwa rata-rata waktu menonton televisi dalam sampel acak yang terdiri dari lima orang dewasa Amerika Utara lebih dari 7 jam per hari?
  3. Berapa probabilitas bahwa dalam sampel acak yang terdiri dari lima orang dewasa Amerika Utara, semuanya menonton televisi lebih dari 7 jam per hari?

Soal 2:

Jumlah pelanggan yang memasuki sebuah supermarket setiap jam diasumsikan mengikuti distribusi normal dengan rata-rata \( \mu = 600 \) pelanggan per jam dan standar deviasi \( \sigma = 200 \) pelanggan per jam. Supermarket buka selama 16 jam per hari. Berapakah probabilitas bahwa total jumlah pelanggan yang masuk dalam satu hari lebih dari 10.000?

Petunjuk: Hitung rata-rata jumlah pelanggan per jam yang diperlukan agar total melebihi 10.000 dalam satu hari kerja 16 jam.

Soal 3:

Seorang manajer restoran percaya bahwa pelayan yang memperkenalkan diri dengan menyebutkan nama mereka kepada pelanggan akan mendapatkan tip yang lebih besar dibandingkan mereka yang tidak melakukannya. Ia mengklaim bahwa rata-rata tip untuk kelompok pertama adalah 18%, sedangkan untuk kelompok kedua hanya 15%. Jika distribusi tip mengikuti distribusi normal dengan standar deviasi 3%, berapakah probabilitas bahwa dalam sampel acak yang terdiri dari 10 tip dari pelayan yang memperkenalkan diri dan 10 tip dari pelayan yang tidak, rata-rata tip kelompok pertama lebih besar daripada kelompok kedua?

Pertemuan 3

Bab 10: Pengenalan Estimasi

10-1: Konsep Estimasi

Estimasi digunakan untuk menentukan nilai parameter populasi berdasarkan statistik sampel.

Dua jenis estimasi:

  • Estimasi titik (Point Estimator): Menggunakan satu nilai untuk memperkirakan parameter populasi.
  • Estimasi interval (Interval Estimator): Memberikan rentang nilai dengan tingkat kepercayaan tertentu.

Karakteristik estimator yang baik:

  • Unbiased: Rata-rata estimator mendekati nilai parameter populasi.
  • Consistent: Estimator semakin akurat saat ukuran sampel meningkat.
  • Efficient: Estimator dengan variansi lebih kecil lebih diinginkan.

10-2: Estimasi Mean Populasi Ketika Standar Deviasi Populasi Diketahui

Jika populasi memiliki distribusi normal dan standar deviasi (\(\sigma\)) diketahui, maka interval kepercayaan untuk rata-rata populasi (\(\mu\)) adalah:

\[ \bar{x} \pm Z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \]
  • \(\bar{x}\) = rata-rata sampel
  • \(Z_{\alpha/2}\) = nilai kritis dari distribusi normal standar
  • \(\sigma\) = standar deviasi populasi
  • \(n\) = ukuran sampel

Interpretasi Interval Kepercayaan:

  • Bukan probabilitas bahwa parameter populasi ada dalam rentang tersebut.
  • Dalam banyak sampel, persentase tertentu dari interval akan mencakup parameter populasi.

10-3: Menentukan Ukuran Sampel

Untuk mendapatkan interval kepercayaan dengan batas kesalahan tertentu (\(B\)), ukuran sampel (\(n\)) harus memenuhi:

\[ n = \left( \frac{Z_{\alpha/2} \cdot \sigma}{B} \right)^2 \]
  • Menambah ukuran sampel mempersempit interval kepercayaan.
  • Jika \(\sigma\) tidak diketahui, biasanya digunakan estimasi dari sampel sebelumnya.

Contoh Aplikasi

1. Estimasi Diameter Pohon

Sebuah perusahaan kayu ingin memperkirakan rata-rata diameter pohon dengan interval kepercayaan 90%. Diperlukan 98 sampel pohon untuk mendapatkan estimasi dengan batas kesalahan ±1 inci.

2. Estimasi Permintaan Stok Barang

Seorang manajer ingin memperkirakan permintaan barang selama periode tertentu. Dengan metode estimasi interval kepercayaan, ia dapat menentukan jumlah stok yang optimal.

Kesimpulan

  • Estimasi adalah alat penting dalam inferensi statistik.
  • Interval kepercayaan lebih akurat dibanding estimasi titik karena mempertimbangkan variabilitas sampel.
  • Ukuran sampel yang tepat meningkatkan akurasi estimasi tanpa membuang sumber daya.

Soal 1:

Salah satu efek samping negatif dari berhenti merokok adalah kenaikan berat badan. Diasumsikan bahwa kenaikan berat badan dalam 12 bulan setelah berhenti merokok mengikuti distribusi normal dengan standar deviasi sebesar 6 pon. Untuk memperkirakan kenaikan berat badan rata-rata, sebuah sampel acak yang terdiri dari 13 orang yang berhenti merokok diambil. Data berat badan yang tercatat adalah sebagai berikut:
16, 23, 8, 2, 14, 22, 18, 11, 10, 19, 5, 8, 15
Tentukan estimasi interval kepercayaan 90% untuk rata-rata kenaikan berat badan dalam 12 bulan bagi semua orang yang berhenti merokok.

Soal 2:

Seorang profesor statistik sedang menyelidiki jumlah kelas yang dilewatkan oleh mahasiswa universitas setiap semester. Untuk menjawab pertanyaan ini, ia mengambil sampel acak dari 100 mahasiswa universitas dan meminta mereka melaporkan berapa banyak kelas yang mereka lewatkan pada semester sebelumnya.
Perkirakan jumlah rata-rata kelas yang dilewatkan oleh semua mahasiswa di universitas tersebut. Gunakan tingkat kepercayaan 99% dan asumsikan bahwa standar deviasi populasi diketahui sebesar 2.2 kelas.

Soal 3:

Seorang ahli statistik medis ingin memperkirakan rata-rata penurunan berat badan dari orang-orang yang mengikuti program diet baru. Dalam sebuah studi awal, ia memperkirakan bahwa standar deviasi populasi untuk penurunan berat badan adalah sekitar 10 pon. Berapa besar sampel yang harus diambilnya agar dapat memperkirakan rata-rata penurunan berat badan dengan batas kesalahan 2 pon, menggunakan tingkat kepercayaan 90%?

Pertemuan 4

Bab 11: Pengantar Pengujian Hipotesis

11.1 Konsep Pengujian Hipotesis

Pengujian hipotesis adalah metode statistik yang digunakan untuk membuat keputusan tentang parameter populasi berdasarkan data sampel. Komponen utama dalam pengujian hipotesis meliputi:

  • Hipotesis Nol (\(H_0\)): Pernyataan bahwa tidak ada perbedaan atau efek dalam populasi.
  • Hipotesis Alternatif (\(H_1\)): Pernyataan yang bertentangan dengan \(H_0\), menunjukkan adanya perbedaan atau efek.
  • Statistik Uji: Nilai yang dihitung dari data sampel untuk menentukan apakah \(H_0\) dapat ditolak.
  • P-value: Probabilitas mendapatkan hasil yang diamati jika \(H_0\) benar.
  • Tingkat Signifikansi (\(\alpha\)): Batas probabilitas (biasanya 0.05) untuk menolak \(H_0\).

11.2 Pengujian Mean Populasi Ketika Standar Deviasi Populasi Diketahui

Jika standar deviasi populasi (\(\sigma\)) diketahui, maka statistik uji untuk rata-rata sampel (\(\bar{x}\)) dapat dihitung dengan:

\[ Z = \frac{\bar{x} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \]

di mana:

  • \(\mu_0\) = rata-rata populasi yang dihipotesiskan
  • \(\sigma\) = standar deviasi populasi
  • \(n\) = ukuran sampel

11.3 Menghitung Probabilitas Kesalahan Tipe II

Kesalahan Tipe II (\(\beta\)) terjadi ketika kita gagal menolak \(H_0\) padahal \(H_a\) benar. Daya uji statistik dihitung sebagai:

\[ \text{Daya Uji} = 1 - \beta \]

Nilai \(\beta\) bergantung pada nilai rata-rata populasi sebenarnya dan distribusi statistik uji.

11.4 Kesimpulan

Memahami konsep pengujian hipotesis sangat penting dalam analisis data dan inferensi statistik. Teknik ini digunakan dalam berbagai metode lanjutan seperti interval kepercayaan, regresi, dan ANOVA.

Soal 1:

Sebuah perusahaan produsen lampu menyatakan bahwa, rata-rata, lampu tahan lama mereka akan bertahan lebih dari 5.000 jam. Untuk menguji klaim tersebut, seorang ahli statistik mengambil sampel acak sebanyak 100 lampu dan mengukur waktu yang dibutuhkan sampai setiap lampu mati. Ditemukan rata-rata lampu dapat bertahan 5.005 jam Jika diasumsikan bahwa umur jenis lampu ini memiliki standar deviasi sebesar 400 jam, dapatkah kita menyimpulkan pada tingkat signifikansi 5% bahwa klaim tersebut benar?

Soal 2:

Dalam negosiasi antara pekerja dan manajemen, presiden sebuah perusahaan berpendapat bahwa pekerja lapangan (blue-collar workers), yang dibayar rata-rata \$30.000 per tahun, telah mendapatkan gaji yang layak karena rata-rata pendapatan tahunan semua pekerja lapangan di negara tersebut kurang dari \$30.000. Klaim ini ditentang oleh serikat pekerja, yang tidak percaya bahwa rata-rata pendapatan pekerja lapangan lebih kecil dari \$30.000. Untuk menguji klaim presiden perusahaan, seorang arbiter mengambil sampel acak sebanyak 350 pekerja lapangan dari seluruh negara dan meminta mereka melaporkan pendapatan tahunan mereka. Ditemukan rata-rata pendapatan mereka adalah \$29.500. Jika arbiter mengasumsikan bahwa pendapatan pekerja lapangan berdistribusi normal dengan standar deviasi \$8.000, dapatkah disimpulkan pada tingkat signifikansi 5% bahwa pernyataan presiden perusahaan benar?

Soal 3:

Hitung probabilitas kesalahan Tipe II (\(\beta\)) untuk pengujian hipotesis berikut, diberikan bahwa \(\mu = 203\).

\[ H_0: \quad \mu = 200 \] \[ H_1: \quad \mu \neq 200 \]

Informasi tambahan:

  • Tingkat signifikansi: \( \alpha = 0.05 \)
  • Standar deviasi populasi: \( \sigma = 10 \)
  • Ukuran sampel: \( n = 100 \)

Pertemuan 5

Bab 12: Inferensi tentang Populasi

Bab ini membahas teknik inferensial statistik untuk mendeskripsikan parameter populasi berdasarkan data sampel.

12-1. Inferensi terhadap Rata-rata Populasi saat Simpangan Baku Tidak Diketahui

Gunakan distribusi t ketika simpangan baku populasi tidak diketahui.

Statistik uji:

\[ t = \frac{\bar{x} - \mu}{s / \sqrt{n}}, \quad \text{df} = n - 1 \]

Interval kepercayaan:

\[ \bar{x} \pm t_{\alpha/2} \cdot \frac{s}{\sqrt{n}} \]

Contoh: Rata-rata waktu tidur 12 mahasiswa adalah 6.75 jam per malam, dengan simpangan baku sampel 0.945 jam. Hitung interval kepercayaan 95% untuk rata-rata jumlah tidur seluruh mahasiswa.

Jawaban:

\[ \text{CI} = 6.75 \pm t_{0.025, 11} \cdot \frac{0.945}{\sqrt{12}} \approx 6.75 \pm 0.535 \]

Jadi, interval kepercayaan: (6.215, 7.285)


12-2. Inferensi terhadap Variansi Populasi

Menggunakan distribusi chi-kuadrat.

Statistik uji:

\[ \chi^2 = \frac{(n - 1)s^2}{\sigma^2} \]

Interval kepercayaan untuk variansi:

\[ \left( \frac{(n - 1)s^2}{\chi^2_{\alpha/2}}, \frac{(n - 1)s^2}{\chi^2_{1 - \alpha/2}} \right) \]

Contoh: Sebuah mesin menghasilkan bagian dengan simpangan baku sampel 0.0198 dari 15 bagian. Hitung interval kepercayaan 95% untuk simpangan baku populasi.

Jawaban:

\[ \text{CI variansi} = \left( \frac{14 \cdot 0.0198^2}{\chi^2_{0.025}}, \frac{14 \cdot 0.0198^2}{\chi^2_{0.975}} \right) \]

CI simpangan baku diperoleh dari akar variansinya.


12-3. Inferensi terhadap Proporsi Populasi

Statistik uji:

\[ z = \frac{\hat{p} - p}{\sqrt{p(1 - p)/n}} \]

Interval kepercayaan:

\[ \hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}} \]

Contoh: Dalam survei terhadap 1000 pelanggan, 380 menyatakan puas terhadap layanan. Hitung interval kepercayaan 95% terhadap proporsi pelanggan yang puas.

Jawaban:

\[ \hat{p} = \frac{380}{1000} = 0.38,\quad SE = \sqrt{\frac{0.38(0.62)}{1000}} \approx 0.0153 \] \[ \text{CI} = 0.38 \pm 1.96 \cdot 0.0153 \approx (0.350, 0.410) \]

Ukuran sampel untuk proporsi:

\[ n = \left( \frac{z_{\alpha/2} \cdot \sqrt{\hat{p}(1 - \hat{p})}}{B} \right)^2 \]

Contoh: Untuk estimasi proporsi dengan margin kesalahan 3% dan \( \hat{p} = 0.5 \), hitung ukuran sampel untuk tingkat kepercayaan 95%.

\[ n = \left( \frac{1.96 \cdot \sqrt{0.5 \cdot 0.5}}{0.03} \right)^2 \approx 1067 \]

12-4. Aplikasi Pemasaran: Segmentasi Pasar

Jika hasil survei menunjukkan bahwa 18 dari 100 orang dalam sampel menunjukkan minat terhadap suatu produk, dan total populasi target adalah 10.000, maka estimasi ukuran segmen pasar adalah:

\[ 10.000 \cdot \left( \frac{18}{100} \right) = 1800 \]

Soal 1:

Sebagian besar pemilik kamera digital menyimpan foto-fotonya langsung di dalam kamera. Beberapa dari mereka mungkin akan mengunduh foto-foto tersebut ke komputer atau mencetaknya menggunakan printer pribadi atau layanan cetak komersial. Sebuah perusahaan pemrosesan film ingin mengetahui berapa banyak foto yang biasanya disimpan di komputer. Sebuah sampel acak dari 10 pemilik kamera digital menghasilkan data sebagai berikut:
25, 6, 22, 26, 31, 18, 13, 20, 14, 2
Hitung estimasi rata-rata jumlah foto yang disimpan di kamera digital dengan tingkat kepercayaan 95%.

Soal 2:

Berikut ini adalah bobot dari sampel acak kotak sereal yang seharusnya memiliki berat 1 pon:
1.05, 1.03, 0.98, 1.00, 0.99, 0.97, 1.01, 0.96
Tentukan estimasi interval kepercayaan 95% untuk varians populasi berat kotak sereal tersebut.

Soal 3:

Sebelum penurunan jumlah penumpang pesawat, sebuah maskapai mengklaim bahwa 92% dari penerbangannya tepat waktu. Sampel acak dari 165 penerbangan yang dilakukan tahun ini menunjukkan bahwa 153 di antaranya tepat waktu. Dapatkah kita menyimpulkan, pada tingkat signifikansi 5%, bahwa kinerja ketepatan waktu maskapai tersebut telah meningkat?

Pertemuan 6

Uji Statistik untuk Perbandingan Dua Populasi

1. Uji Z untuk Selisih Dua Rata-rata (σ diketahui)

Rumus:

\[ z = \frac{(\bar{x}_1 - \bar{x}_2) - D_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \]

Contoh: Rata-rata penghasilan lulusan jurusan A adalah Rp7.000.000 (\( \sigma_1 = 1.000.000 \), \( n_1 = 36 \)) dan jurusan B Rp6.500.000 (\( \sigma_2 = 1.200.000 \), \( n_2 = 49 \)). Uji apakah ada perbedaan signifikan pada \( \alpha = 0{,}05 \).

Jawaban:

\[ z = \frac{(7.000.000 - 6.500.000)}{\sqrt{\frac{1.000.000^2}{36} + \frac{1.200.000^2}{49}}} \approx 2{,}0912 \] \[ p\text{-value} = 0{,}0365 \Rightarrow \text{Signifikan} \]

2. Uji t Dua Sampel (σ tidak diketahui, varians sama)

Rumus:

\[ t = \frac{(\bar{x}_1 - \bar{x}_2)}{s_p \cdot \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \] \[ s_p^2 = \frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2 - 2} \]

Contoh: Mesin A: \( \bar{x}_1 = 210, s_1 = 15, n_1 = 10 \) Mesin B: \( \bar{x}_2 = 200, s_2 = 20, n_2 = 12 \)

Jawaban:

\[ s_p = 17{,}707, \quad t = 1{,}303, \quad p\text{-value} = 0{,}2074 \Rightarrow \text{Tidak signifikan} \]

3. Uji t Welch (varians tidak sama)

Rumus:

\[ t = \frac{(\bar{x}_1 - \bar{x}_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]

Contoh: Kelompok 1: \( \bar{x}_1 = 4{,}5, s_1 = 1{,}2, n_1 = 15 \) Kelompok 2: \( \bar{x}_2 = 3{,}8, s_2 = 2{,}0, n_2 = 10 \)

Jawaban:

\[ t = 0{,}9939, \quad df \approx 13{,}34, \quad p = 0{,}3379 \Rightarrow \text{Tidak signifikan} \]

4. Uji Z untuk Selisih Dua Proporsi

Rumus:

\[ z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p(1 - p)\left(\frac{1}{n_1} + \frac{1}{n_2}\right)}}, \quad p = \frac{x_1 + x_2}{n_1 + n_2} \]

Contoh: Pria: 150 dari 200 menyukai produk baru → \( \hat{p}_1 = 0{,}75 \) Wanita: 126 dari 180 → \( \hat{p}_2 = 0{,}70 \)

Jawaban:

\[ z = 1{,}0915, \quad p\text{-value} = 0{,}275 \Rightarrow \text{Tidak signifikan} \]

5. Interval Kepercayaan Selisih Proporsi (95%)

Rumus:

\[ (\hat{p}_1 - \hat{p}_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}} \]

Jawaban:

\[ \text{CI} = (-0{,}0399,\ 0{,}1399) \Rightarrow \text{Tidak signifikan karena mencakup nol} \]

6. Uji F untuk Perbandingan Dua Varians

Rumus:

\[ F = \frac{s_1^2}{s_2^2} \]

Contoh: Sektor Swasta: \( s_1^2 = 16, n_1 = 25 \) Pemerintah: \( s_2^2 = 9, n_2 = 20 \)

Jawaban:

\[ F = \frac{16}{9} = 1{,}7778, \quad p\text{-value} \approx 0{,}1575 \Rightarrow \text{Tidak signifikan} \]

7. Uji T untuk Data Berpasangan

Rumus:

\[ t = \frac{\overline{x}_D-\mu_D}{s_D/\sqrt{n_D}} \]

Contoh:

Banyak orang menggunakan pemindai (scanner) untuk membaca dokumen dan menyimpannya dalam file Word (atau perangkat lunak lainnya). Untuk menentukan merek scanner mana yang lebih baik untuk dibeli, seorang mahasiswa melakukan eksperimen dengan memindai 8 dokumen menggunakan masing-masing dari dua scanner yang ingin dibandingkannya.

Ia mencatat jumlah kesalahan (errors) yang terjadi untuk masing-masing scanner. Data dicatat sebagai berikut:

Dokumen 12345678
Brand A 1729181421252229
Brand B 2138151922303137
  • Apakah dapat disimpulkan bahwa Brand A (scanner yang lebih mahal) lebih baik daripada Brand B, dengan data ini?

Hipotesis:

\[ H_0: \mu_d = 0 \quad \text{(tidak ada perbedaan kesalahan)} \] \[ H_1: \mu_d < 0 \quad \text{(Brand A memiliki lebih sedikit kesalahan daripada Brand B)} \]

Langkah Penyelesaian:

  1. Hitung selisih tiap pasangan: \( d_i = \text{Brand A} - \text{Brand B} \)
  2. Hitung rata-rata selisih \( \bar{d} \) dan simpangan baku \( s_d \)
  3. Hitung nilai statistik uji:
  4. \[ t = \frac{\bar{d}}{s_d/\sqrt{n}} \]

  5. Bandingkan nilai \( t \) dengan nilai kritis \( t \)-distribusi pada \( \alpha = 0.05 \) untuk uji satu arah (left-tailed test).

Soal 1:

Seorang manajer sumber daya manusia di sebuah perusahaan mobil ingin mengetahui apakah pekerja lini produksi memiliki jumlah hari ketidakhadiran yang lebih banyak dibandingkan dengan pekerja kantor. Ia mengambil sampel acak sebanyak 8 pekerja dari masing-masing kategori dan mencatat jumlah hari ketidakhadiran selama satu tahun terakhir. Data hari ketidakhadiran:

  • Pekerja Lini Produksi: 4, 0, 6, 8, 3, 11, 13, 5
  • Pekerja Kantor: 9, 2, 7, 1, 4, 7, 9, 8

Dapatkah kita menyimpulkan bahwa terdapat perbedaan rata-rata jumlah hari ketidakhadiran antara kedua kelompok pekerja ini?

Soal 2:

Untuk menentukan apakah pupuk jenis baru lebih efektif dibandingkan pupuk yang saat ini digunakan, peneliti mengambil 12 petak tanah (masing-masing seluas 2 acre) yang tersebar di seluruh wilayah.Setiap petak dibagi menjadi dua sub-petak yang sama besar. Satu sub-petak diberi pupuk saat ini, dan sub-petak lainnya diberi pupuk baru. Gandum ditanam, dan hasil panen diukur (dalam satuan hasil panen yang setara).

Data Hasil Panen:

Plot 123456789101112
Pupuk Saat Ini 564568726169575560727566
Pupuk Baru 604966735967615875687268
  1. Bisakah kita menyimpulkan, pada tingkat signifikansi 5%, bahwa pupuk baru lebih efektif dari pupuk saat ini?
  2. Hitung estimasi selisih rata-rata hasil panen antara kedua pupuk tersebut dengan tingkat kepercayaan 95%.
  3. Apa saja kondisi yang harus dipenuhi agar hasil dari (a) dan (b) valid?
  4. Apakah kondisi tersebut terpenuhi dalam data ini?
  5. Apakah data ini termasuk data eksperimen atau observasional? Jelaskan.

Soal 3:

Seorang manajer operasional yang mengawasi jalur perakitan mengalami masalah dalam urutan pengerjaan tugas. Masalah ini disebabkan oleh adanya hambatan (bottlenecks) akibat ketidakkonsistenan dalam operasi berurutan. Untuk menyelidikinya, ia melakukan eksperimen dengan menggunakan dua metode berbeda untuk menyelesaikan tugas yang sama. Ia mencatat waktu pengerjaan (dalam detik) dan memperoleh data sebagai berikut:

Metode 1 8.89.68.49.08.39.29.08.78.59.4
Metode 2 9.29.48.99.69.78.48.88.99.09.7

Dapatkah disimpulkan bahwa metode kedua lebih konsisten daripada metode pertama?

Pertemuan 7

5. Interval Kepercayaan Selisih Proporsi (95%)

Rumus:

\[ (\hat{p}_1 - \hat{p}_2) \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}_1(1 - \hat{p}_1)}{n_1} + \frac{\hat{p}_2(1 - \hat{p}_2)}{n_2}} \]

Jawaban:

\[ \text{CI} = (-0{,}0399,\ 0{,}1399) \Rightarrow \text{Tidak signifikan karena mencakup nol} \]

6. Uji F untuk Perbandingan Dua Varians

Rumus:

\[ F = \frac{s_1^2}{s_2^2} \]

Contoh: Sektor Swasta: \( s_1^2 = 16, n_1 = 25 \) Pemerintah: \( s_2^2 = 9, n_2 = 20 \)

Jawaban:

\[ F = \frac{16}{9} = 1{,}7778, \quad p\text{-value} \approx 0{,}1575 \Rightarrow \text{Tidak signifikan} \]

7. Uji T untuk Data Berpasangan

Rumus:

\[ t = \frac{\overline{x}_D-\mu_D}{s_D/\sqrt{n_D}} \]

Contoh:

Banyak orang menggunakan pemindai (scanner) untuk membaca dokumen dan menyimpannya dalam file Word (atau perangkat lunak lainnya). Untuk menentukan merek scanner mana yang lebih baik untuk dibeli, seorang mahasiswa melakukan eksperimen dengan memindai 8 dokumen menggunakan masing-masing dari dua scanner yang ingin dibandingkannya.

Ia mencatat jumlah kesalahan (errors) yang terjadi untuk masing-masing scanner. Data dicatat sebagai berikut:

Dokumen 12345678
Brand A 1729181421252229
Brand B 2138151922303137
  • Apakah dapat disimpulkan bahwa Brand A (scanner yang lebih mahal) lebih baik daripada Brand B, dengan data ini?

Hipotesis:

\[ H_0: \mu_d = 0 \quad \text{(tidak ada perbedaan kesalahan)} \] \[ H_1: \mu_d < 0 \quad \text{(Brand A memiliki lebih sedikit kesalahan daripada Brand B)} \]

Langkah Penyelesaian:

  1. Hitung selisih tiap pasangan: \( d_i = \text{Brand A} - \text{Brand B} \)
  2. Hitung rata-rata selisih \( \bar{d} \) dan simpangan baku \( s_d \)
  3. Hitung nilai statistik uji:
  4. \[ t = \frac{\bar{d}}{s_d/\sqrt{n}} \]

  5. Bandingkan nilai \( t \) dengan nilai kritis \( t \)-distribusi pada \( \alpha = 0.05 \) untuk uji satu arah (left-tailed test).

Soal 1:

Seorang manajer sumber daya manusia di sebuah perusahaan mobil ingin mengetahui apakah pekerja lini produksi memiliki jumlah hari ketidakhadiran yang lebih banyak dibandingkan dengan pekerja kantor. Ia mengambil sampel acak sebanyak 8 pekerja dari masing-masing kategori dan mencatat jumlah hari ketidakhadiran selama satu tahun terakhir. Data hari ketidakhadiran:

  • Pekerja Lini Produksi: 4, 0, 6, 8, 3, 11, 13, 5
  • Pekerja Kantor: 9, 2, 7, 1, 4, 7, 9, 8

Dapatkah kita menyimpulkan bahwa terdapat perbedaan rata-rata jumlah hari ketidakhadiran antara kedua kelompok pekerja ini?

Soal 2:

Untuk menentukan apakah pupuk jenis baru lebih efektif dibandingkan pupuk yang saat ini digunakan, peneliti mengambil 12 petak tanah (masing-masing seluas 2 acre) yang tersebar di seluruh wilayah.Setiap petak dibagi menjadi dua sub-petak yang sama besar. Satu sub-petak diberi pupuk saat ini, dan sub-petak lainnya diberi pupuk baru. Gandum ditanam, dan hasil panen diukur (dalam satuan hasil panen yang setara).

Data Hasil Panen:

Plot 123456789101112
Pupuk Saat Ini 564568726169575560727566
Pupuk Baru 604966735967615875687268
  1. Bisakah kita menyimpulkan, pada tingkat signifikansi 5%, bahwa pupuk baru lebih efektif dari pupuk saat ini?
  2. Hitung estimasi selisih rata-rata hasil panen antara kedua pupuk tersebut dengan tingkat kepercayaan 95%.
  3. Apa saja kondisi yang harus dipenuhi agar hasil dari (a) dan (b) valid?
  4. Apakah kondisi tersebut terpenuhi dalam data ini?
  5. Apakah data ini termasuk data eksperimen atau observasional? Jelaskan.

Soal 3:

Seorang manajer operasional yang mengawasi jalur perakitan mengalami masalah dalam urutan pengerjaan tugas. Masalah ini disebabkan oleh adanya hambatan (bottlenecks) akibat ketidakkonsistenan dalam operasi berurutan. Untuk menyelidikinya, ia melakukan eksperimen dengan menggunakan dua metode berbeda untuk menyelesaikan tugas yang sama. Ia mencatat waktu pengerjaan (dalam detik) dan memperoleh data sebagai berikut:

Metode 1 8.89.68.49.08.39.29.08.78.59.4
Metode 2 9.29.48.99.69.78.48.88.99.09.7

Dapatkah disimpulkan bahwa metode kedua lebih konsisten daripada metode pertama?

Pertemuan 8

Ketentuan UTS ES4D

  1. Setiap mahasiswa akan menerima soal masing-masing sesuai dengan NIM.

Ketentuan UTS ES4E

  1. Setiap mahasiswa akan menerima soal masing-masing sesuai dengan NIM.

Pertemuan 9

Bab 14: Analisis Varians (ANOVA) dan Perbandingan Berganda

14.1 One-Way Analysis of Variance

Digunakan untuk menguji apakah terdapat perbedaan yang signifikan antara dua atau lebih rata-rata populasi.

Hipotesis:

\[ H_0 : \mu_1 = \mu_2 = \cdots = \mu_k \quad\text{vs}\quad H_1 : \text{paling tidak ada dua rata-rata berbeda} \]

Statistik uji F:

\[ F = \frac{MST}{MSE} \quad\text{dengan}\quad MST = \frac{SST}{k - 1},\quad MSE = \frac{SSE}{n - k} \]
  • SST: jumlah kuadrat antar grup
  • SSE: jumlah kuadrat dalam grup
  • Data harus dari distribusi normal dengan varians yang sama

14.2 Multiple Comparisons

Jika uji F signifikan, kita lanjut untuk melihat pasangan mana yang berbeda. Metode umum:

  • Fisher’s LSD: sensitif, gunakan jika jumlah perbandingan sedikit
  • Bonferroni: sesuaikan \( \alpha \to \frac{\alpha}{C} \) untuk C perbandingan
  • Tukey’s HSD: berbasis Studentized Range, cocok untuk semua perbandingan

14.3 Desain Eksperimen

  • One-Way ANOVA: satu faktor (misal, usia)
  • Randomized Block (Two-Way): dua faktor (misal, usia dan gender)
  • Fixed Effects: semua level diamati
  • Random Effects: level merupakan sampel dari populasi

Contoh: Pengaruh Metode Belajar terhadap Skor Ujian

Seorang guru ingin mengetahui apakah metode belajar yang berbeda mempengaruhi hasil ujian siswa. Ia membagi siswa ke dalam tiga kelompok:

  1. Kelompok A: membaca mandiri
  2. Kelompok B: video pembelajaran
  3. Kelompok C: diskusi kelompok
Kelompok A707268716973
Kelompok B787475777680
Kelompok C828885879086

Hipotesis:

\[ H_0: \mu_A = \mu_B = \mu_C \quad\text{vs}\quad H_1: \text{paling tidak ada dua rata-rata berbeda} \]

Langkah Perhitungan ANOVA Satu Arah

Data:

Kelompok A707268716973
Kelompok B787475777680
Kelompok C828885879086

Total data $n= 18,$ jumlah grup $k= 3,$ dan \( n_i = 6 \)


Langkah 1: Hitung rata-rata tiap grup dan total

\[ \bar{X}_A = \frac{70 + 72 + 68 + 71 + 69 + 73}{6} = \frac{423}{6} = 70.5 \] \[ \bar{X}_B = \frac{78 + 74 + 75 + 77 + 76 + 80}{6} =\frac{460}{6} =76.7 \] \[ \bar{X}_C = \frac{82 + 88 + 85 + 87 + 90 + 86}{6} = \frac{518}{6}=86.3 \] \[ \bar{X}_T = \frac{\text{total seluruh data}}{18} = \frac{1401}{18} = 77.83 \]


Langkah 2: Hitung Total Sum of Squares (Total SS)

\[ Total SS = \sum (X_{ij} - \bar{X}_T)^2 \] (Menggunakan semua 18 nilai → selisih tiap nilai dari \(\bar{X}_T\), lalu dikuadratkan dan dijumlahkan) \[ Total SS \approx 842.5 \]

Langkah 3: Hitung Sum of Squares Treatment (SST)

\[ SST = \sum n_i(\bar{X}_i - \bar{X}_T)^2 \] \[ = 6(70.5 - 77.83)^2 + 6(76.7 - 77.83)^2 + 6(86.3 - 77.83)^2 \] \[ = 6 \cdot (53.78 + 1.36 + 72.25) \approx 764.3 \]

Langkah 4: Hitung Sum of Squares Error (SSE)

\[ SSE = Total SS - SST = 842.5 - 764.3 = 78.17 \]

Langkah 5: Hitung Mean Squares dan F-Statistik

  • dfantara = \( k - 1 = 2 \)
  • dfdalam = \( n - k = 15 \)

\[ MST = \frac{SST}{2} = \frac{764.3}{2} = 382.15 \] \[ MSE = \frac{SSE}{15} = \frac{78.17}{15} \approx 5.21 \] \[ F = \frac{MST}{MSE} = \frac{382.15}{5.21} \approx 73.35 \]


Langkah 6: Keputusan

  • Nilai $F = 73.35$ sangat besar
  • Nilai batas kritis $F_{(0.025)(2)(15)}=4.77$

Kesimpulan: Tolak \( H_0 \). Terdapat perbedaan signifikan rata-rata skor ujian antar metode belajar.

Penjelasan Multiple Comparisons Setelah ANOVA

Setelah kita menemukan hasil ANOVA signifikan (artinya terdapat perbedaan rata-rata antar grup), langkah berikutnya adalah mencari tahu: pasangan rata-rata mana yang berbeda secara signifikan.

Untuk menjawab ini, digunakan uji perbandingan berganda (multiple comparisons). Tiga metode yang umum digunakan adalah:


1. Fisher’s LSD (Least Significant Difference)

Rumus: \[ \text{LSD} = t_{\alpha/2} \cdot \sqrt{2 \cdot \frac{MSE}{n_i}} \]

  • Sangat sederhana dan mudah dihitung.
  • Seperti uji t dua sampel, tetapi hanya dilakukan jika ANOVA signifikan.
  • Sensitif: mudah mendeteksi perbedaan.
  • Kelemahan: Jika terlalu banyak pasangan dibandingkan, risiko kesalahan Tipe I (false positive) meningkat.

Gunakan Fisher’s LSD jika:

  • Jumlah grup sedikit (misal 3 grup).
  • Anda hanya ingin ilustrasi atau eksplorasi awal.

2. Bonferroni Adjustment

Ide utama Bonferroni adalah menyesuaikan tingkat signifikansi: \[ \alpha_{\text{baru}} = \frac{\alpha}{C} \quad \text{dengan } C = \text{jumlah perbandingan pasangan} \]

Kemudian gunakan uji t biasa dengan \( \alpha_{\text{baru}} \) tersebut untuk tiap pasangan.

  • Lebih hati-hati (konservatif) daripada Fisher’s LSD.
  • Risiko Type I Error sangat kecil.
  • Kekurangan: Bisa terlalu ketat sehingga gagal mendeteksi perbedaan yang benar (Type II Error meningkat).

Gunakan Bonferroni jika:

  • Anda hanya membandingkan beberapa pasangan penting (planned comparisons).
  • Anda ingin sangat yakin terhadap hasil yang signifikan.

3. Tukey’s HSD (Honestly Significant Difference)

Dirancang khusus untuk membandingkan semua pasangan rata-rata dengan kontrol penuh terhadap keseluruhan tingkat kesalahan (family-wise error rate).

Rumus: \[ \text{HSD} = q_{\alpha;k,n-k} \cdot \sqrt{\frac{MSE}{n_i}} \]

  • \( q \): nilai dari distribusi studentized range.
  • Direkomendasikan untuk perbandingan menyeluruh.
  • Kontrol error lebih baik dibanding LSD, dan tidak seketat Bonferroni.

Gunakan Tukey’s HSD jika:

  • Anda ingin membandingkan semua pasangan rata-rata.
  • Jumlah grup lebih dari 3.

Kesimpulan Praktis

Metode Kapan digunakan Keunggulan Kekurangan
Fisher’s LSD Grup sedikit (2–3) Sederhana, sensitif Tidak kontrol error saat banyak perbandingan
Bonferroni Planned comparisons Sangat aman terhadap Type I Error Terlalu konservatif
Tukey’s HSD All-pairwise comparisons Keseimbangan power dan kontrol error Butuh tabel khusus untuk nilai \( q \)

Contoh Perbandingan Metode: Fisher’s LSD, Bonferroni, dan Tukey’s HSD

Situasi:

Seorang dosen ingin mengetahui apakah terdapat perbedaan skor ujian rata-rata antara tiga metode pembelajaran berbeda. Ia mengumpulkan data dari 18 siswa, 6 orang di setiap kelompok:

Metode A707268716973
Metode B787475777680
Metode C828885879086

Total sampel: \( n = 18 \), jumlah grup: \( k = 3 \)

Langkah 1: Hitung Rata-rata

  • \( \bar{X}_A = 70.5 \)
  • \( \bar{X}_B = 76.7 \)
  • \( \bar{X}_C = 86.3 \)

Langkah 2: MSE dari ANOVA

Dari ANOVA, didapatkan:

  • \( MSE = 5.21 \)
  • \( df_{error} = 15 \)

Perbandingan Antar Pasangan

Setiap metode akan membandingkan:

  1. A vs B → \( |\bar{X}_B - \bar{X}_A| = 6.2 \)
  2. A vs C → \( |\bar{X}_C - \bar{X}_A| = 15.8 \)
  3. B vs C → \( |\bar{X}_C - \bar{X}_B| = 9.6 \)

1. Fisher’s LSD

\[ LSD = t_{0.025,15} \cdot \sqrt{2 \cdot \frac{MSE}{n}} = 2.131 \cdot \sqrt{2 \cdot \frac{5.21}{6}} \approx 2.81 \]

Keputusan:

  • A vs B: 6.2 > 2.81 → Signifikan
  • A vs C: 15.8 > 2.81 → Signifikan
  • B vs C: 9.6 > 2.81 → Signifikan

2. Bonferroni

Ada 3 perbandingan, maka: \[ \alpha_{\text{baru}} = \frac{0.05}{3} \approx 0.0167 \quad \Rightarrow \quad t_{0.00835,15} \approx 2.552 \] \[ LSD_{\text{Bonf}} = 2.552 \cdot \sqrt{2 \cdot \frac{5.21}{6}} \approx 3.36 \]

Keputusan:

  • A vs B: 6.2 > 3.36 → Signifikan
  • A vs C: 15.8 > 3.36 → Signifikan
  • B vs C: 9.6 > 3.36 → Signifikan

3. Tukey’s HSD

\[ HSD = q_{\alpha, k, n-k} \cdot \sqrt{\frac{MSE}{n}} \quad q_{0.05,3,15} \approx 3.674 \] \[ HSD = 3.674 \cdot \sqrt{\frac{5.21}{6}} \approx 3.42 \]

Keputusan:

  • A vs B: 6.2 > 3.42 → Signifikan
  • A vs C: 15.8 > 3.42 → Signifikan
  • B vs C: 9.6 > 3.42 → Signifikan

Kesimpulan Akhir

  • Ketiga metode menunjukkan hasil yang konsisten dalam kasus ini: semua pasangan berbeda secara signifikan.
  • Namun, jika selisih lebih kecil, metode seperti Bonferroni atau Tukey mungkin menghasilkan keputusan berbeda.

Dengan memahami dan membandingkan ketiga metode ini, mahasiswa dapat memilih metode yang sesuai dengan tujuan analisis dan tingkat kehati-hatian terhadap error.

Soal 1:

Banyak mahasiswa perguruan tinggi dan universitas bekerja selama musim panas. Seorang profesor statistik ingin mengetahui apakah mahasiswa dari program studi yang berbeda memiliki rata-rata pendapatan musim panas yang berbeda. Sebuah sampel acak dari 5 mahasiswa pada masing-masing program B.A., B.Sc., dan B.B.A. diminta untuk melaporkan pendapatan musim panas mereka sebelumnya (dalam ribuan dolar). Berikut adalah data yang diperoleh (dalam ribuan dolar):

B.A. B.Sc. B.B.A.
3.33.94.0
2.55.16.2
4.63.96.3
5.46.25.9
3.94.86.4

Dapatkah profesor menyimpulkan, pada tingkat signifikansi 5%, bahwa mahasiswa dari program studi yang berbeda memiliki perbedaan rata-rata pendapatan musim panas?

Soal 2:

Seorang ilmuwan manajemen percaya bahwa salah satu cara untuk menilai apakah sebuah komputer memiliki kapasitas memori yang cukup adalah dengan mengetahui usia komputernya. Dalam studi awal, sampel acak pengguna komputer diminta untuk menyebutkan merek komputernya dan usia komputer tersebut (dalam bulan). Data yang dikategorikan ditampilkan dalam tabel berikut. Apakah data ini memberikan bukti yang cukup untuk menyimpulkan bahwa terdapat perbedaan usia rata-rata komputer antar merek pada tingkat signifikansi \( \alpha = 0.05 \)?

Data Usia Komputer (dalam bulan):
IBM Dell Hewlett-Packard Other
178624
1041512
1321815

Soal 3:

Bagaimana pengaruh jurusan MBA terhadap jumlah tawaran pekerjaan yang diterima? Seorang mahasiswa MBA secara acak mengambil sampel dari empat lulusan terbaru — satu dari masing-masing jurusan finance, marketing, dan management — dan meminta mereka melaporkan jumlah tawaran pekerjaan yang mereka terima. Dapatkah kita menyimpulkan, pada tingkat signifikansi 5%, bahwa terdapat perbedaan rata-rata jumlah tawaran pekerjaan antara tiga jurusan MBA tersebut?

Data Jumlah Tawaran Pekerjaan:
Finance Marketing Management
318
155
434
146

Pertemuan 10

Rangkuman Bab 14: ANOVA Lanjutan

1. Randomized Block ANOVA (Two-Way Tanpa Interaksi)

  • Model: Memasukkan dua sumber variasi — perlakuan dan blok
  • Pembagian variasi:
\[ SS_{Total} = SS_{Treatment} + SS_{Block} + SS_E \] \[ F_{Treatment} = \frac{MS_{Treatment}}{MS_E}, \quad F_{Block} = \frac{MS_{Block}}{MS_E} \]

Contoh 1: Randomized Block ANOVA

Seorang peneliti ingin menguji tiga metode pelatihan (A, B, C) terhadap hasil ujian, dengan lima kelompok usia berbeda (blok). Skor ujian:

KelompokMetode AMetode BMetode C
1757872
2808579
3788274
4858981
5838780

Perhitungan:

Rata-rata total:

\[ \bar{X}_T = 80.53 \]

Jumlah Kuadrat:

  • \( SS_T = 123.33 \)
  • \( SS_B = 196.40 \)
  • \( SS_E = 4.00 \)

Mean Square:

  • \( MS_T = \frac{123.33}{2} = 61.67 \)
  • \( MS_B = \frac{196.40}{4} = 49.10 \)
  • \( MS_E = \frac{4.00}{8} = 0.50 \)

Nilai F:

  • \( F_{Treatment} = \frac{61.67}{0.50} = 123.33 \)
  • \( F_{Block} = \frac{49.10}{0.50} = 98.20 \)

Karena nilai F sangat besar, baik perlakuan maupun blok berpengaruh signifikan terhadap hasil ujian.

2. Two-Factor ANOVA Dengan Interaksi

  • Model memasukkan dua faktor dan interaksi:
\[ Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \varepsilon_{ijk} \] \[ SS_{Total} = SS_A + SS_B + SS_{AB} + SS_E \]

Contoh 2: Two-Way ANOVA

Peneliti ingin menganalisis efek Jenis Kelamin (A) dan Metode Belajar (B) terhadap nilai akhir. Desain 2 × 3, masing-masing sel 4 responden.

OnlineHybridOffline
Laki-laki78, 80, 82, 7984, 83, 85, 8675, 77, 76, 78
Perempuan82, 81, 83, 8088, 87, 89, 9079, 80, 81, 82

Langkah:

1. Hitung rata-rata setiap sel 2. Hitung: \[ SS_A,\quad SS_B,\quad SS_{AB},\quad SS_E \] 3. Hitung derajat bebas dan nilai F: \[ F_A = \frac{MS_A}{MS_E},\quad F_B = \frac{MS_B}{MS_E},\quad F_{AB} = \frac{MS_{AB}}{MS_E} \] \[ df_{MSA}=a-1,\quad df_{MSB}=b-1,\quad df_{MSE}=n-(a-1)(b-1) \]

3. Aplikasi Industri: Six Sigma & Taguchi

Six Sigma merupakan pendekatan berbasis data untuk meningkatkan kualitas dengan mengurangi variasi dan cacat pada proses. Digunakan secara luas di industri manufaktur dan jasa.

Indeks Kapabilitas Proses:

\[ C_p = \frac{USL - LSL}{6\sigma}, \quad C_{pk} = \min\left(\frac{USL - \mu}{3\sigma}, \frac{\mu - LSL}{3\sigma}\right) \]

Nilai \( C_p \) atau \( C_{pk} \) lebih besar dari 1.33 dianggap baik untuk produksi massal.

Taguchi Loss Function digunakan untuk mengukur kerugian kualitas akibat penyimpangan dari target nilai (T):

\[ L(x) = k(x - T)^2 \]

Dimana \(k\) adalah konstanta biaya, \(x\) adalah nilai aktual, dan \(T\) adalah target. Fungsi ini menunjukkan bahwa semakin jauh dari target, semakin besar kerugian ekonomi — meskipun masih dalam batas spesifikasi.

ANOVA digunakan dalam eksperimen Taguchi untuk membedakan pengaruh faktor terhadap variasi output dan memilih kombinasi faktor terbaik.

Contoh 1: Indeks Kapabilitas Proses

Sebuah perusahaan memproduksi baut dengan spesifikasi panjang:

  • Batas atas (USL) = 10.10 mm
  • Batas bawah (LSL) = 9.90 mm
Setelah dilakukan pengukuran terhadap ratusan sampel, diperoleh:
  • Rata-rata (\( \mu \)) = 10.01 mm
  • Simpangan baku (\( \sigma \)) = 0.03 mm

Hitung indeks kapabilitas proses \( C_p \) dan \( C_{pk} \)

Penyelesaian:

\[ C_p = \frac{USL - LSL}{6\sigma} = \frac{10.10 - 9.90}{6 \cdot 0.03} = \frac{0.20}{0.18} \approx 1.11 \] \[ C_{pk} = \min\left( \frac{USL - \mu}{3\sigma}, \frac{\mu - LSL}{3\sigma} \right) = \min\left( \frac{10.10 - 10.01}{0.09}, \frac{10.01 - 9.90}{0.09} \right) \] \[ C_{pk} = \min(1.0, 1.22) = 1.00 \]

Interpretasi: Proses ini cukup baik, tetapi belum ideal. Umumnya standar industri mensyaratkan \( C_{pk} > 1.33 \) untuk kapabilitas tinggi.


Contoh 2: Taguchi Loss Function

Sebuah resistor memiliki target nilai \( T = 100 \Omega \), dan biaya kerugian ditetapkan sebesar \$5 ketika deviasi sebesar 5 ohm terjadi.

Konstanta kerugian:

\[ k = \frac{5}{(5)^2} = \frac{5}{25} = 0.2 \]

Jika ditemukan resistor dengan nilai aktual \( x = 103 \Omega \), hitung nilai kerugian:

\[ L(x) = k(x - T)^2 = 0.2 \cdot (103 - 100)^2 = 0.2 \cdot 9 = 1.8 \]

Interpretasi: Meski resistor masih dalam batas toleransi, penyimpangan 3 ohm menghasilkan kerugian ekonomis sebesar \$1.80 per unit menurut fungsi Taguchi.

flowchart TD SS["`SS(Total) d.f. = n - 1`"] subgraph "Single-Factor Analysis" direction TB SST["`SST d.f. = k - 1`"] SSE1["`SSE d.f. = n - k`"] end subgraph "Two-Factor Analysis" direction TB SSA["`SSA d.f. = a - 1`"] SSB["`SSB d.f. = b - 1`"] SSAB["`SSAB d.f. = (a - 1)(b - 1)`"] SSE2["`SSE d.f. = n - ab`"] end SS --> SST SS --> SSE1 SS --> SSA SS --> SSB SS --> SSAB SST --> SSE1 SSA --> SSE2 SSB --> SSE2 SSAB --> SSE2

Kesimpulan

  • ANOVA dua arah mengungkap pengaruh faktor tunggal dan interaksi.
  • Metode blok dapat mengurangi galat eksperimental.
  • Six Sigma dan Taguchi menggunakan ANOVA untuk pengambilan keputusan kualitas dan efisiensi biaya.

Soal 1:

Sebagian besar dosen perguruan tinggi ingin mahasiswanya aktif berpartisipasi di kelas. Idealnya, mahasiswa akan mengajukan pertanyaan dan menjawab pertanyaan dosen, sehingga pengalaman belajar lebih menyenangkan dan bermanfaat.

Seorang dosen statistik di sebuah community college di negara bagian New York percaya bahwa ada beberapa faktor eksternal yang memengaruhi partisipasi mahasiswa di kelas. Ia percaya bahwa waktu pelaksanaan kelas dan konfigurasi tempat duduk adalah dua faktor tersebut.

Oleh karena itu, ia merancang eksperimen berikut: 6 kelas dengan 60 mahasiswa dijadwalkan untuk satu semester. Dua kelas dijadwalkan pada pukul 9:00 pagi, dua kelas pada 1:00 siang, dan dua kelas pada 4:00 sore. Pada setiap waktu, satu kelas ditempatkan di ruang dengan konfigurasi baris (rows) dan satu di ruang dengan konfigurasi U-shape.

Di masing-masing dari 6 ruang kelas tersebut, selama 5 hari, partisipasi mahasiswa diukur berdasarkan jumlah pertanyaan yang diajukan dan dijawab oleh mahasiswa.

Data Partisipasi Mahasiswa:

Konfigurasi Kelas 9:00 A.M. 1:00 P.M. 4:00 P.M.
Rows 10, 9, 9, 8 12, 9, 14, 6 7, 9, 20, 12
U-Shape 15, 11, 13, 13 4, 7, 4, 6 7, 9, 6, 6
  1. Berapa banyak faktor dalam eksperimen ini? Sebutkan.
  2. Apa variabel responnya?
  3. Identifikasi level dari masing-masing faktor.
  4. Kesimpulan apa yang bisa diambil oleh dosen dari data ini?

Soal 2:

Soal 3:

Pertemuan 11

Bab 15: Uji Chi-Squared

1. Chi-Squared Goodness-of-Fit Test

  • Digunakan untuk menguji apakah distribusi data nominal sesuai dengan distribusi yang diharapkan.
  • Contoh: preferensi merek, jenis kendaraan, dsb.
Statistik uji: \[ \chi^2 = \sum_{i=1}^{k} \frac{(f_i - e_i)^2}{e_i} \]
  • \( f_i \): frekuensi observasi
  • \( e_i = np_i \): frekuensi yang diharapkan
Derajat bebas: \( df = k - 1 \)

Contoh 1:

Suatu perusahaan ingin mengetahui apakah distribusi pasar telah berubah dari:

  • Produk A: 45%
  • Produk B: 40%
  • Produk lain: 15%

Dari 200 responden, diperoleh:

  • A: 102, B: 82, Lain: 16
\[ e_1 = 200 \times 0.45 = 90, \quad e_2 = 200 \times 0.40 = 80, \quad e_3 = 200 \times 0.15 = 30 \] \[ \chi^2 = \frac{(102 - 90)^2}{90} + \frac{(82 - 80)^2}{80} + \frac{(16 - 30)^2}{30} = 1.60 + 0.05 + 6.53 = 8.18 \] \[ \chi^2_{0.05, df=2} = 5.99 \Rightarrow \text{Tolak } H_0 \] ---

2. Chi-Squared Test of a Contingency Table

  • Digunakan untuk mengetahui apakah dua variabel nominal saling berkaitan (independen vs. dependen).
Statistik uji: \[ \chi^2 = \sum_{i} \sum_{j} \frac{(f_{ij} - e_{ij})^2}{e_{ij}}, \quad \text{di mana } e_{ij} = \frac{(\text{baris total}) \cdot (\text{kolom total})}{n} \] Derajat bebas: \( df = (r - 1)(c - 1) \)

Contoh 2:

Hubungan antara gelar sarjana dan jurusan MBA:

AccountingFinanceMarketing
BA311316
BEng8167
BBA121017
Other1057
Hitung nilai harapan (contoh):
\[ e_{11} = \frac{60 \cdot 61}{152} = 24.08 \] \[ \chi^2 = \sum \frac{(O - E)^2}{E} = 14.70 \quad \text{dengan } df = (4 - 1)(3 - 1) = 6 \] \[ \chi^2_{0.05, 6} = 12.59 \Rightarrow \text{Tolak } H_0 \] ---

3. Chi-Squared Test for Normality

Digunakan untuk menguji apakah suatu data kuantitatif mengikuti distribusi normal.

Langkah:
  1. Kelompokkan data ke dalam kelas-kelas
  2. Hitung probabilitas setiap kelas dari distribusi normal teoritis
  3. Hitung frekuensi harapan \( e_i = n \cdot p_i \)
  4. Gunakan uji \(\chi^2\) dengan \( df = k - 1 - \text{jumlah parameter estimasi} \)
---

4. Ringkasan Teknik untuk Data Nominal

TujuanJumlah KategoriTeknik
Menggambarkan populasi2z-test of p atau chi-square
Menggambarkan populasi> 2Chi-squared Goodness-of-Fit
Bandingkan 2 populasi2z-test p1-p2 atau chi-square table
Bandingkan ≥2 populasi2 atau lebihChi-square table
Hubungan dua variabel2 atau lebihChi-square table

Soal 1:

Misalkan departemen kepegawaian dalam Latihan 15.87 melanjutkan penyelidikannya dengan mengkategorikan ketidakhadiran berdasarkan shift kerja dan hari ketidakhadiran. Data ditampilkan dalam tabel berikut.

Apakah ada cukup bukti pada tingkat signifikansi 10% (\( \alpha = 0.10 \)) untuk menyimpulkan bahwa terdapat hubungan antara hari saat karyawan tidak masuk dan shift kerja mereka?

Tabel Ketidakhadiran Karyawan:

Shift Senin Selasa Rabu Kamis Jumat
Siang 5228373133
Malam 3534343741

Soal 2:

Seorang manajer operasional dari perusahaan pembuat kemeja ingin mengetahui apakah terdapat perbedaan kualitas hasil kerja di antara tiga shift harian.

Ia secara acak memilih 600 kemeja yang baru diproduksi dan memeriksanya dengan teliti. Setiap kemeja diklasifikasikan sebagai sempurna (perfect) atau cacat (flawed), dan shift yang memproduksinya juga dicatat.

Tabel berikut merangkum jumlah kemeja untuk tiap kombinasi kondisi dan shift:

Tabel Data Kualitas Produksi:

Kondisi Kemeja Shift 1 Shift 2 Shift 3
Sempurna 240191139
Cacat 10911

Soal 3:

Seorang analis perilaku organisasi sedang meneliti hubungan antara struktur pengawasan pria/wanita di tempat kerja dengan tingkat kepuasan kerja karyawan.

Hasil dari survei terbaru disajikan dalam tabel berikut. Apakah ada cukup bukti untuk menyimpulkan bahwa tingkat kepuasan kerja bergantung pada kombinasi jenis kelamin antara atasan dan karyawan?

Tabel Kepuasan Kerja berdasarkan Gender Atasan/Karyawan

Tingkat Kepuasan Perempuan/Pria Perempuan/Perempuan Pria/Pria Pria/Perempuan
Puas 21255471
Netral 39495038
Tidak Puas 31481011

Pertemuan 12

Bab 16: Regresi Linear Sederhana dan Korelasi

Model Regresi Linear Sederhana

Model populasi:

\[ Y = \beta_0 + \beta_1 X + \varepsilon \]
  • \( Y \): variabel respon
  • \( X \): variabel prediktor
  • \( \beta_0 \): intercept
  • \( \beta_1 \): slope
  • \( \varepsilon \): error acak
---

Estimasi Parameter (Least Squares)

Persamaan estimasi model:

\[ \hat{Y} = b_0 + b_1 X \]

Perhitungan slope dan intercept:

\[ b_1 = \frac{s_{xy}}{s_x^2}, \quad b_0 = \bar{Y} - b_1 \bar{X} \]

Dimana:

\[ s_{xy} = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{n-1} \]

Jumlah kuadrat error (SSE):

\[ SSE = \sum (Y_i - \hat{Y}_i)^2 \] ---

Asumsi Model Regresi

  • Error menyebar normal: \( \varepsilon \sim N(0, \sigma^2) \)
  • Error bersifat independen
  • Homoskedastisitas: variansi error konstan
---

Pengujian Model Regresi

Standard Error of Estimate:

\[ s_\varepsilon = \sqrt{\frac{SSE}{n-2}} \]

Pengujian Signifikansi Slope:

Hipotesis:

\[ H_0: \beta_1 = 0 \quad \text{vs} \quad H_1: \beta_1 \neq 0 \]

Statistik uji:

\[ t = \frac{b_1}{s_{b_1}}, \quad s_{b_1} = \frac{s_\varepsilon}{\sqrt{(n-1)s_x^2}} \] ---

Koefisien Determinasi (R-Square):

\[ R^2 = \frac{s_{xy}^2}{s_x^2 s_y^2} \]

R-square menunjukkan proporsi variasi \( Y \) yang dijelaskan oleh \( X \).

Koefisien Korelasi (r):

\[ r = \frac{s_{xy}}{s_x s_y} \]

Uji signifikansi korelasi identik dengan uji signifikansi slope.

---

Prediksi

Confidence Interval untuk Rata-rata:

\[ \hat{Y} \pm t_{\alpha/2, n-2} s_\varepsilon \sqrt{\frac{1}{n} + \frac{(X_g - \bar{X})^2}{(n-1)s_x^2}} \]

Prediction Interval untuk Nilai Individu:

\[ \hat{Y} \pm t_{\alpha/2, n-2} s_\varepsilon \sqrt{1 + \frac{1}{n} + \frac{(X_g - \bar{X})^2}{(n-1)s_x^2}} \] ---

Diagnostik Regresi

  • Normalitas residual → histogram residual
  • Homoskedastisitas → scatterplot residual vs prediksi
  • Outlier → residual standar \( > 2 \)
  • Autokorelasi → residual plot terhadap waktu
  • Pengamatan berpengaruh → pengaruh kuat terhadap slope
---

Caution

  • Korelasi tidak sama dengan sebab-akibat.
  • Model hanya berlaku dalam rentang data pengamatan.

Soal 1:

Soal 2:

Soal 3:

Pertemuan 13

Bab 17: Regresi Berganda

Model Regresi Berganda

Model umum:

\[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k + \varepsilon \]
  • \( y \): variabel dependen
  • \( x_i \): variabel independen ke-i
  • \( \beta_0, \beta_1, \dots \): parameter
  • \( \varepsilon \): error (galat acak)
---

Syarat Model Regresi Berganda

  • Distribusi error normal: \( \varepsilon \sim N(0, \sigma^2) \)
  • Rata-rata error nol: \( E(\varepsilon) = 0 \)
  • Variansi error konstan (homoskedastisitas)
  • Error independen antar observasi
---

Estimasi Koefisien Model

Model estimasi:

\[ \hat{y} = b_0 + b_1 x_1 + b_2 x_2 + \cdots + b_k x_k \]

Biasanya dihitung menggunakan software statistik melalui metode least squares.

---

Mengukur Kesesuaian Model

a. Standard Error of Estimate:

\[ s_\varepsilon = \sqrt{ \frac{SSE}{n - k - 1} } \]

b. Koefisien Determinasi \( R^2 \):

\[ R^2 = 1 - \frac{SSE}{\sum (y_i - \bar{y})^2} \]

Semakin tinggi \( R^2 \), semakin baik model menjelaskan variasi \( y \).

c. Adjusted \( R^2 \):

\[ R^2_{\text{adj}} = 1 - \left( \frac{SSE/(n - k - 1)}{SST/(n-1)} \right) \]

Mengoreksi pengaruh jumlah variabel independen.

d. Uji F: Validitas Keseluruhan Model

Hipotesis:

\[ H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0 \]

Statistik uji:

\[ F = \frac{MSR}{MSE} = \frac{SSR / k}{SSE / (n - k - 1)} \] ---

Uji Signifikansi Koefisien Individu (uji t)

Untuk tiap koefisien:

\[ t = \frac{b_i}{s_{b_i}} \]

Derajat bebas: \( n - k - 1 \)

---

Diagnostik Regresi Berganda

a. Normalitas residual

  • Diperiksa melalui histogram residual.

b. Homoskedastisitas

  • Diperiksa melalui scatterplot residual terhadap nilai prediksi.

c. Autokorelasi (Durbin-Watson test)

\[ d = \frac{ \sum_{i=2}^n (e_i - e_{i-1})^2 }{ \sum_{i=1}^n e_i^2 } \]
  • Jika \( d \approx 2 \), maka tidak ada autokorelasi.
  • Jika \( d < 2 \), ada autokorelasi positif.
  • Jika \( d > 2 \), ada autokorelasi negatif.

d. Multikolinearitas

  • Terjadi ketika antar variabel independen berkorelasi tinggi.
  • Gejala umum: uji F signifikan tetapi banyak uji t tidak signifikan.
---

Penggunaan Model Regresi

a. Confidence Interval Rata-rata:

\[ \hat{y} \pm t_{\alpha/2, n-k-1} \cdot s_\varepsilon \sqrt{\frac{1}{n} + \frac{(X_g - \bar{X})^2}{(n-1) s_x^2}} \]

b. Prediction Interval untuk Individu:

\[ \hat{y} \pm t_{\alpha/2, n-k-1} \cdot s_\varepsilon \sqrt{1 + \frac{1}{n} + \frac{(X_g - \bar{X})^2}{(n-1) s_x^2}} \] ---

Kesimpulan

  • Regresi berganda memperluas regresi sederhana dengan lebih banyak variabel prediktor.
  • Model valid bila asumsi dasar terpenuhi: normalitas, homoskedastisitas, independensi error.
  • Perlu evaluasi multikolinearitas dan autokorelasi pada model dengan data riil.

Soal 1:

Soal 2:

Soal 3:

Pertemuan 14

Soal 1:

Soal 2:

Soal 3:

Pertemuan 16

Ketentuan UAS ES4D

  1. UAS ES4D hanya boleh dikerjakan selama 1,5 jam (sudah termasuk mengunggah jawaban berbentuk pdf).
  2. Soal UAS ES4D boleh dikerjakan dari 13:00-14:30 dan selanjutnya klik Kirim Jawaban untuk mengunggah jawaban di google form.
  3. Setiap mahasiswa akan menerima soal masing-masing sesuai dengan NIM.

Ketentuan UAS ES4E

  1. UAS ES4F hanya boleh dikerjakan selama 1,5 jam (sudah termasuk mengunggah jawaban berbentuk pdf).
  2. Soal UAS ES4E boleh dikerjakan dari 13:00-14:30 dan selanjutnya klik Kirim Jawaban untuk mengunggah jawaban di google form.
  3. Setiap mahasiswa akan menerima soal masing-masing sesuai dengan NIM.

Ketentuan UAS ES4F

  1. UAS ES4F hanya boleh dikerjakan selama 1,5 jam (sudah termasuk mengunggah jawaban berbentuk pdf).
  2. Soal UAS ES4F boleh dikerjakan dari 14:40-15:40 dan selanjutnya klik Kirim Jawaban untuk mengunggah jawaban di google form.
  3. Setiap mahasiswa akan menerima soal masing-masing sesuai dengan NIM.

Daftar Hadir dan Nilai

Daftar Nilai ES4D

Daftar Nilai ES4E

Daftar Nilai ES4F

ada juga ...

Loading...