BAB IV
Validitas dan
Reliabilitas Instrumen
Tujuan
Umum:
Setelah
mempelajari bab ini diharapkan mahasiswa dapat memahami tentang Validitas dan
Reliabilitas.
Tujuan Khusus:
1.
Agar mahasiswa dapat arti dan jenis dari
validitas.
2.
Agar mahasiswa dapat menjelaskan kegunaan
validitas.
3.
Agar mahasiswa dapat menghitung validitas
instrumen.
4.
Agar mahasiswa dapat arti dan jenis dari
reliabilitas.
5.
Agar mahasiswa dapat menjelaskan kegunaan
reliabilitas.
6.
Agar mahasiswa dapat menghitung reliabilitas
instrumen.
BAB III
Validitas dan
Reliabilitas Instrumen
A. Validitas
Validitas berkenaan dengan ketepatan alat ukur terhadap konsep
yang diukur, sehingga betul‑betul mengukur apa yang seharusnya diukur. Sebagai
contoh, ingin mengukur kemampuan siswa
dalam matematika. Kemudian diberikan soal dengan kalimat yang panjang dan
yang berbelit‑belit sehingga sukar ditangkap maknanya. Akhimya siswa tidak
dapat menjawab, akibat tidak memahami pertanyaannya. Contoh lain, peneliti
ingin mengukur kemampuan berbicara, tapi ditanya mengenai tata bahasa atau
kesusastraan seperti puisi atau sajak. Pengukur tersebut tidak tepat (valid).
Validitas tidak berlaku universal sebab bergantung pada situasi dan tujuan penelitian.
Instrumen yang telah valid untuk suatu tujuan tertentu belum otomatis akan
valid untuk tujuan yang lain.
Contoh variabel prestasi belajar dan motivasi bisa diukur oleh
tes ataupun oleh kuesioner. Caranya juga bisa berbeda, tes bisa dilaksanakan
secara tertulis atau bisa secara lisan. Ada tiga jenis validitas yang sering
digunakan dalam penyusunan instrumen, yakni validitas isi, validitas bangun
pengertian dan validitas ramalan.
(a) Validitas
isi
Validitas isi
berkenaan dengan kesanggupan instrumen mengukur isi yang harus diukur. Artinya,
alat ukur tersebut mampu mengungkap isi suatu konsep atau variabel yang hendak
diukur. Misalnya tes hasil belajar bidang studi IPS, harus bisa mengungkap isi
bidang studi tersebut. Hal ini bisa dilakukan dengan cara menyusun tes yang
bersumber dari kurikulum bidang studi yang hendak diukur. Di samping kurikulum
dapat juga diperkaya dengan melihat/mengkaji buku sumber. Sungguhpun demikian
tes hasil belajar tidak mungkin dapat mengungkap semua materi yang ada dalam
bidang studi tertentu sekalipun hanya untuk satu semester. Oleh sebab itu
harus diambil sebagian dari materi dalam bentuk sampel tes. Sebagai sampel maka
harus dapat mencerminkan materi yang terkandung dari seluruh materi bidang
studi. Cara Yang ditempuh dalam menetapkan sampel tes adalah memilih konsep‑konsep
yang esensial dari materi yang di dalamnya. Misalnya menetapkan sejumlah konsep
dari setiap pokok bahasan yang ada. Dari setiap konsep dikembangkan beberapa
pertanyaan tes (lihat bagan). Di sinilah pentingnya peranan kisi‑kisi sebagai
alat untuk memenuhi validitas isi.
TES HASIL
BELAJAR
Bidang studi : ……………….. Semester : ……………….. Kelas : |
Pokok | Konsep atau materi esensial | Jumlah perta- nyaan | Jenis tes | abilitas yang diakui |
Pokok | 1.1 ……………… | 3 soal | pilihan | Aplikasi dan |
Pokok | 1.2 ……………… | 2 soal | Aplikasi dan | |
Pokok | 2.1 ……………… | 2 soal | ||
2.2 ……………… | 3 soal | |||
Pokok | 3.1 ……………… | 3 soal | ||
3.2 ……………… | 2 soal | |||
dan seterusnya |
Dalam hal
tertentu tes yang telah disusun sesuai dengan kurikulum (materi dan tujuannya)
agar memenuhi validitas isi, peneliti atau pemakai tes dapat meminta bantuan
ahli bidang studi untuk menelaah apakah konsep materi yang diajukan telah
memadai atau tidak, sebagai sampel tes. Dengan demikian validitas isi tidak
memerlukan uji coba dan analisis statistik atau dinyatakan dalam bentuk angka-angka.
(b) Validitas
bangun pengertian (Construct validity)
Validitas
bangun atau bangun pengertian (Construct validity) berkenaan dengan
kesanggupan alat ukur mengukur pengertian‑pengertian yang terkandung dalam
materi yang diukurnya. Pengertian‑pengertian yang terkandung dalam konsep
kemampuan, minat, sebagai variabel penelitian dalam berbagai bidang kajian
harus jelas apa yang hendak diukurnya. Konsep‑konsep tersebut masih abstrak,
memerlukan penjabaran yang lebih spesifik, sehingga mudah diukur. Ini berarti
setiap konsep harus dikembangkan indikator‑indikatomya. Dengan adanya indikator
dari setiap konsep maka bangun pengertian akan nampak dan memudahkan dalam
menetapkan cara pengukuran. Untuk variabel tertentu, dimungkinkan penggunaan
alat ukur yang beraneka ragam dengan cara mengukurnya yang berlainan.
Menetapkan
indikator suatu konsep dapat dilakukan dalam dua cara, yakni (a) menggunakan
pemahaman atau logika berpikir atas dasar teori pengetahuan ilmiah dan (b)
menggunakan pengalaman empiris, yakni apa yang terjadi dalam kehidupan nyata.
Contoh: Konsep mengenai “Hubungan Sosial”, dilihat
dari pengalaman, indikatornya empiris adalah keterkaitan dari
–
bisa bergaul dengan orang lain
–
disenangi atau banyak teman‑temannya
–
menerima pendapat orang lain
–
tidak memaksakan pendapatnya
–
bisa bekerja sama dengan siapa pun
–
dan lain‑lain.
Mengukur
indikator‑indikator tersebut, berarti mengukur bangun pengertian yang terdapat
dalam konsep hubungan sosial. Contoh lain: Konsep sikap dapat dilihat dari
indikatornya secara teoretik (deduksi teori) antara lain keterkaitan dari
–
kesediaan menerima stimulus objek sikap
–
kemauan mereaksi stimulus objek sikap
–
menilai stimulus objek sikap
–
menyusun/mengorganisasi objek sikap
–
internalisasi nilai yang ada dalam objek sikap.
Apabila hasil
tes menunjukkan indikator‑indikator tes yang tidak berhubungan secara positif
satu sama lain, berarti ukuran tersebut tidak memiliki validitas bangun
pengertian. Atas dasar itu indikatornya perlu ditinjau atau diperbaiki kembali.
Cara lain untuk menetapkan validitas bangun pengertian suatu alat ukur
adalah menghubungkan (korelasi) antara alat ukur yang dibuat dengan alat ukur
yang sudah baku/standardized, seandainya telah ada yang baku. Bila
menunjukkan koefisien korelasi yang tinggi maka alat ukur tersebut memenuhi
validitasnya.
(c) Validitas
ramalan (predictive validity)
Validitas
ramalan artinya dikaitkan dengan kriteria tertentu. Dalam validitas ini yang
diutamakan bukan isi tes tapi kriterianya, apakah alat ukur tersebut dapat
digunakan untuk meramalkan suatu ciri atau perilaku tertentu atau kriteria
tertentu yang diinginkan. Misalnya alat ukur motivasi belajar, apakah dapat
digunakan untuk meramal prestasi belajar yang dicapai. Artinya terdapat
hubungan yang positif antara motivasi dengan prestasi. Dengan kata lain dalam
validitas ini mengandung ciri adanya relevansi dan keajegan atau ketetapan (reliability).
Motivasi dapat digunakan meramal prestasi bila skor‑skor yang diperoleh dari
ukuran motivasi berkorelasi positif dengan skor prestasi. Validitas ramalan ini
mengandung dua makna. Pertama validitas jangka pendek dan kedua jangka panjang.
Validitas jangka pendek, artinya daya ramal alat ukur tersebut hanya untuk masa
yang tidak lama. Artinya, skor tersebut berkorelasi pada waktu yang sama.
Misalnya, ketetapan (reliability) terjadi pada semester dua artinya daya ramal
berlaku pada semester dua, dan belum tentu terjadi pada semester berikutnya.
Sedangkan validitas jangka panjang mengandung makna skor tersebut akan
berkorelasi juga di kemudian hari. Mengingat validitas ini lebih menekankan
pada adanya korelasi, maka faktor yang berkenaan dongan persyaratan terjadinya
korelasi harus dipenuhi. Faktor tersebut antara lain hubungan dari konsep dan
variabel dapat dijelaskan berdasarkan pengetahuan ilmiah, minimal masuk akal
sehat dan tidak mengada‑ada. Faktor lain adalah skor yang dikorelasikan
memenuhi linieritas. Ketiga validitas yang dijelaskan di atas idealnya dapat
digunakan dalam menyusun instrumen penelitian, minimal dua validitas, yakni
validitas isi dan validitas bangun pengertian. Validitas isi dan bangun
pengertian mutlak diperlukan dan bisa diupayakan tanpa melakukan pengujian
secara statistika.
B. Reliabilitas
Reliabilitas alat ukur adalah ketetapan atau keajegan alat
tersebut dalam mengukur apa yang diukurnya. Artinya, kapan pun alat ukur
tersebut digunakan akan memberikan hasil ukur yang sama. Contoh paling nyata
adalah timbangan atau meteran. Hal yang sama terjadi untuk alat ukur suatu
gejala, tingkah laku, ciri atau sifat individu dan lain‑lain. Misalnya alat
ukur prestasi belajar seperti tes hasil belajar, alat ukur sikap, kuesioner dan
lain‑lain, hendaknya meneliti sifat keajegan tersebut.
Tes hasil belajar dikatakan ajeg apabila hasil pengukuran
saat ini menunjukkan kesamaan hasil pada saat yang berlainan waktunya, terhadap
siswa yang sama. Misalnya siswa kelas V pada hari ini di tes kemampuan
matematik. Minggu berikutnya siswa tersebut di tes kembali. Hasil dari kedua
tes relatif sama. Sungguhpun demikian masih mungkin terjadi ada perbedaan hasil
untuk hal‑hal tertentu akibat faktor kebetulan, selang waktu, terjadinya
perubahan pandangan siswa terhadap soal yang sama. Jika ini terjadi, kelemahan
terletak dalam alat ukur itu, yang tidak memiliki kepastian jawaban atau
meragukan siswa. Dengan kata lain derajat reliabilitasnya masih rendah.
Di lain pihak perbedaan hasil pengukuran bukan disebabkan
oleh alat ukurnya, melainkan kondisi yang terjadi pada diri siswa. Misalnya
fisik siswa dalam keadaan sakit pada waktu tes yang pertama, motivasi pada
waktu tes pertama berbeda dengan motivasi tes pada berikutnya.
Atas dasar itu perbedaan hasil pengukuran pertama dengan
hasil pengukuran berikutnya bisa teijadi akibat perubahan pada diri subjek yang
diukur dan atau oleh faktor yang berkaitan dengan pemberian tes itu sendiri.
Hal ini tidak mengherankan dan sudah umum terjadi, yang sering dinyatakan
dengan sebutan/istilah kesalahan pengukuran. Ini berarti, skor hasil
pengukuran yang pertama dan skor hasil pengukuran kedua terhadap subjek sama,
dimungkinkan terjadinya kesalahan pengukuran disebabkan oleh dua faktor di
atas. Oleh karenanya setiap skor hasil pengukuran menghasilkan dua bagian,
yakni hasil pengukuran pertama yang disebut skor sejati dan hasil pengukuran
berikutnya terhadap subjek yang sama, yang mengandung hasil skor plus
kesalahan pengukuran.
Komponen skor sejati dan skor yang mengandung kesalahan
pengukuran dinyatakan dalam suatu persamaan matematis sebagai berikut:
X =b + s,
dengan:
X = skor
yang diamati
b = skor
sejati
s =
kesalahan pengukuran
Dalam suatu
penelitian skor yang diamati adalah skor sejati ditambah skor kesalahan
pengukuran sehingga variansi skor yang diamati X2 adalah variansi
skor sejati Tb2 ditambah variansi skor kesalahan Ts2 atau
Tx2 = Tb2 + Ts2.
Indeks reliabilitas alat ukur dalam suatu penelitian dapat
dicari dengan mengkorelasikan skor‑skor yang diperoleh dari hasil pengukuran
yang berulang‑ulang pada waktu yang berbeda, atau dengan kelompok pertanyaan
yang sepadan. Prosedur ini dilakukan dengan cara memberikan tes dua kali kepada
subjek yang sama pada waktu yang berbeda. Cara kedua adalah membagi alat ukur
(tes) menjadi dua bagian yang sama atau yang setarap untuk melihat keajegan tes
tersebut. Cara yang pertama dikenal dengan tes ulang (test retest) dan
cara kedua dikenal dengan pecahan sebanding/setara.
a. Reliabilitas
tes ulang
Tes ulang (test‑retest)
adalah penggunaan alat ukur terhadap subjek yang diukur, dilakukan dua kali
dalam waktu yang berlainan. Misalnya tes hasil belajar matematika untuk siswa
SD kelas V, diberikan hari ini, lalu diperiksa hasilnya. Seminggu kemudian tes
tersebut diberikan lagi pada siswa yang sama dan hasilnya diperiksa. Hasil
pengukuran yang pertama kemudian dikorelasikan dengan hasil pengukuran yang
kedua untuk mendapatkan koefisien korelasinya (r). Koefisien korelasi ini
disebut koefisien reliabilitas tes ulang, yang hasilnya akan bergerak dari ‑
1,0 sampai + 1,0. Bila koefisien reliabilitas mendekati angka 1,0 merupakan
indeks reliabilitas tinggi. Artinya hasil pengukuran yang pertama relatif sama
dengan hasil pengukuran yang kedua. Dengan kata lain alat ukur tersebut memiliki
tingkat keajegan atau ketetapan (reliabel). Untuk pengukuran ilmu‑ilmu sosial
dan pendidikan indeks reliabilitas 0,75 sudah dianggap cukup mengingat sifat
dan ilmu sosial dan pendidikan berbeda dengan ilmu‑ilmu eksakta.
Jarak atau selang waktu antara pengukuran pertama
dengan pengukuran kedua sebaiknya tidak terlalu dekat dan juga tidak terlalu
jauh. Jika terlalu dekat/pendek, hasil pengukuran banyak dipengaruhi oleh
ingatan siswa tentang jawaban yang diberikan pada pengukuran yang pertama,
bukan karena keajegan alat ukurnya. Sebaliknya jika selang waktu pengukuran
pertama dengan pengukuran kedua terlalu lama, bisa terjadi adanya perubahan
pengetahuan dan pengalaman siswa sehingga mempengaruhi koefesien reliabilitasnya.
Asumsi yang digunakan dalam tes ulang ialah karakteristik yang diukur oleh
alat ukur tersebut stabil sepanjang waktu, sehingga jika ada perubahan skor
hasil kedua pengukuran lebih disebabkan kesalahan alat ukur. Cara tes ulang (test‑retest)
banyak digunakan dalam menetapkan atau menentukan tingkat reliabilitas
alat ukur dalam penelitian sosial dan pendidikan.
b. Reliabilitas
pecahan setara
Reliabilitas
bentuk pecahan setara tidak dilakukan pengulangan pengukuran kepada subjek yang
sama tetapi menggunakan hasil dari bentuk tes yang sebanding atau setara yang
diberikan kepada subjek yang sama pada waktu yang sama pula. Dengan demikian
diperlukan dua perangkat alat ukur yang disusun sedemikian rupa agar memiliki
derajat kesamaan atau kesetaraan baik dari segi, isi, tingkat kesukaran alat
ukur, abilitas yang diukur, jumlah pertanyaan, bentuk pertanyaan dan segi‑segi
teknis lainnya. Yang berbeda hanyalah pertanyaan. Bila penyusun kesetaraan
alat ukur bisa dicapai seoptimal mungkin maka koefisien reliabilitas dari
prosedur ini dianggap paling baik dibandingkan dengan prosedur tes ulang. Namun
kesulitannya terletak dalam menyusun perangkat alat ukur yang benar‑benar mengandung
derajat kesetaraan tinggi.
c. Reliabilitas
belah dua
Reliabilitas
belah dua mirip dengan reliabilitas pecahan setara terutama dari
pelaksanaannya. Dalam prosedur ini alat ukur diberikan kepada kelompok subjek
cukup satu kali atau satu saat. Butir‑butir soal dibagi dua bagian yang
sebanding, biasanya membedakan soal nomor genap dengan soal nomor ganjil.
Setiap bagian soal diperiksa hasilnya, kemudian skor dari kedua bagian tersebut
dikorelasikan untuk dicari koefisien korelasinya. Mengingat korelasi tersebut
hanya berlaku separuh tidak untuk seluruh pertanyaan, maka koefisien korelasi
yang didapatkannya tidak untuk seluruh soal, tapi hanya separuhnya. Oleh sebab
itu koefisien korelasi belah dua perlu diubah ke dalam koefisien korelasi untuk
seluruh soal dengan menggunakan rumus ramalan Spearmen Brown:
Contoh:
Koefisien korelasi belah dua adalah 0,60
Dari contoh di
atas terjadi peningkatan koefisien korelasinya, setelah dilakukan pengubahan.
Assumsi yang digunakan dalam prosedur belah dua adalah kedua bagian alat ukur
itu pararel, sekalipun sering keliru atau tidak benar. Akibat adanya pengubahan
koefisien reliabilitas, prosedur belah dua cenderung menunjukkan koefisien reliabilitas
yang tinggi daripada prosedur tes ulang dan pecahan setara. Oleh sebab itu
penggunaan belah dua harus lebih berhati‑hati. Prosedur ini digunakan bila alat
ukur mengandung atau terdiri dari banyak item, item relatif berat/sukar (power
test), materi yang diuji cukup komprehensif sehingga memungkinkan penyusunan
dua soal untuk satu permasalahan yang sama untuk memenuhi belah dua.
d. Kesamaan
rasional
Di samping cara‑cara
yang dijelaskan di atas ada prosedur menghitung reliabilitas tanpa melakukan
korelasi dari dua pengukuran atau pecahan setara dan belah dua. Cara tersebut
adalah kesamaan rasional. Prosedur ini dilakukan dengan menghubungkan setiap
butir dalam satu tes dengan butir‑butir lainnya dan dengan tes itu sendiri
secara keseluruhan. Salah satu cara yang sering digunakan adalah menggunakan
rumus Kuder-Rechardson atau KR 21.
Rumusnya:
Misalnya disusun tes
sebanyak 80 soal. Setelah diberikan kepada sejumlah siswa dalam kelas tertentu,
lalu dicari nilai rata‑rata dan simpangan bakunya. Misalnya diperoleh nilai
rata‑rata 60 dan simpangan bakunya 8. Dengan rumus di atas maka:
Uraian ukuran
reliabilitas yang telah dijelaskan di atas dapat dipertimbangkan oleh peneliti,
cara mana yang paling tepat digunakan bergantung pada peneliti. Pertimbangan
tersebut, antara lain sifat variabel yang diukur, jenis alat ukur, jumlah
subjek yang diukur, serta hasil‑hasil pengukuran yang diharapkan sesuai dengan
tujuan penelitian.