Tujuan dasar di balik
pemodelan regresi linier sederhanasecara konseptual
adalah untuk menemukan garis lurus terbaik dari bidang dua dimensi yang terdiri dari pasangan nilai X dan Y (yaitu pengukuran X dan Y).Setelah garis ditemukan menggunakan metode varians minimum, berbagai uji statistik dapat dilakukan untuk menentukan seberapa cocok garis tersebut dengan penyimpangan yang diamati dari nilai Y.
Persamaan linier (y = mx + b) memiliki dua parameter yang harus diestimasi dari data X dan Y yang diberikan, yaitu kemiringan (m) dan titik potong y (b). Setelah kedua parameter ini diestimasi, Anda dapat memasukkan nilai observasi ke dalam persamaan linier dan mengamati prediksi Y yang dihasilkan oleh persamaan tersebut.
Untuk menaksir parameter m dan b menggunakan metode varians minimum, kita perlu mencari nilai taksiran m dan b yang meminimalkan nilai Y yang diamati dan diprediksi untuk semua nilai X. Perbedaan antara nilai yang diamati dan nilai prediksi disebut kesalahan ( y i- (mx i+ b) ), dan jika Anda mengkuadratkan setiap nilai kesalahan lalu menjumlahkan residunya, hasilnya adalah prediksi kuadrat Angka buruk. Penggunaan metode varians minimum untuk menentukan kecocokan terbaik melibatkan pencarian estimasi m dan b yang meminimalkan varians prediksi.
Dua metode dasar dapat digunakan untuk mencari estimasi m dan b yang memenuhi metode varians minimum. Pada pendekatan pertama, seseorang dapat menggunakan proses pencarian numerik untuk menetapkan nilai m dan b yang berbeda dan mengevaluasinya, yang pada akhirnya menentukan estimasi yang menghasilkan varians minimum. Metode kedua adalah menggunakan kalkulus untuk mencari persamaan untuk memperkirakan m dan b. Saya tidak akan membahas kalkulus dalam menurunkan persamaan ini, namun saya menggunakan persamaan analitis ini di kelas SimpleLinearRegression untuk menemukan estimasi kuadrat terkecil m dan b (lihat getSlope() dan getYIntercept dalam metode kelas SimpleLinearRegression).
Meskipun Anda mempunyai persamaan yang dapat digunakan untuk mencari taksiran kuadrat terkecil dari m dan b, bukan berarti jika Anda memasukkan parameter-parameter tersebut ke dalam persamaan linier, hasilnya akan berupa garis lurus yang sesuai dengan data. Langkah selanjutnya dalam proses regresi linier sederhana ini adalah menentukan apakah varians prediksi yang tersisa dapat diterima.
Anda dapat menggunakan proses pengambilan keputusan statistik untuk menolak hipotesis alternatif bahwa garis lurus sesuai dengan data. Proses ini didasarkan pada perhitungan statistik T, menggunakan fungsi probabilitas untuk mencari probabilitas observasi besar secara acak. Seperti disebutkan di Bagian 1, kelas SimpleLinearRegression menghasilkan sejumlah nilai ringkasan, salah satu nilai ringkasan penting adalah statistik T, yang dapat digunakan untuk mengukur seberapa cocok persamaan linier dengan data. Jika kecocokannya baik, statistik T akan cenderung bernilai besar; jika nilai T kecil, sebaiknya ganti persamaan linier Anda dengan model default yang mengasumsikan bahwa mean dari nilai Y adalah prediktor terbaik ( karena Rata-rata dari sekumpulan nilai seringkali dapat menjadi prediktor yang berguna untuk observasi berikutnya).
Untuk menguji apakah statistik T cukup besar sehingga tidak menggunakan nilai rata-rata Y sebagai prediktor terbaik, Anda perlu menghitung probabilitas diperolehnya statistik T secara acak. Jika probabilitasnya rendah, maka asumsi nol bahwa mean adalah prediktor terbaik dapat dihilangkan, dan oleh karena itu kita dapat yakin bahwa model linier sederhana cocok dengan data. (Lihat Bagian 1 untuk informasi lebih lanjut tentang penghitungan probabilitas statistik-T.)
Kembali ke proses pengambilan keputusan statistik. Hal ini memberi tahu Anda kapan sebaiknya tidak mengadopsi hipotesis nol, namun tidak memberi tahu Anda apakah akan menerima hipotesis alternatif. Dalam suatu penelitian, hipotesis alternatif model linier perlu ditetapkan melalui parameter teoretis dan statistik.
Alat penelitian data yang akan Anda buat mengimplementasikan proses pengambilan keputusan statistik untuk model linier (uji-T) dan menyediakan ringkasan data yang dapat digunakan untuk menyusun parameter teoretis dan statistik yang diperlukan untuk membangun model linier. Alat penelitian data dapat diklasifikasikan sebagai alat pendukung keputusan bagi pekerja pengetahuan untuk mempelajari pola dalam kumpulan data berukuran kecil hingga menengah.
Dari sudut pandang pembelajaran, pemodelan regresi linier sederhana layak dipelajari karena merupakan satu-satunya cara untuk memahami bentuk pemodelan statistik tingkat lanjut. Misalnya, banyak konsep inti dalam regresi linier sederhana yang memberikan dasar yang baik untuk memahami regresi berganda (Regresi Berganda), analisis faktor (Analisis Faktor), dan deret waktu (Time Series).
Regresi linier sederhana juga merupakan teknik pemodelan yang serbaguna. Ini dapat digunakan untuk memodelkan data lengkung dengan mentransformasikan data mentah (biasanya dengan transformasi logaritmik atau pangkat). Transformasi ini membuat data menjadi linier sehingga dapat dimodelkan menggunakan regresi linier sederhana. Model linier yang dihasilkan akan direpresentasikan sebagai rumus linier yang berkaitan dengan nilai yang ditransformasikan.
Fungsi Probabilitas
Pada artikel sebelumnya, saya menghindari masalah implementasi fungsi probabilitas di PHP dengan meminta R untuk mencari nilai probabilitas. Saya tidak sepenuhnya puas dengan solusi ini, jadi saya mulai meneliti pertanyaan: apa yang diperlukan untuk mengembangkan fungsi probabilitas berdasarkan PHP.
Saya mulai mencari informasi dan kode secara online. Salah satu sumber keduanya adalah buku Numerical Recipes in C. Probability Functions. Saya menerapkan kembali beberapa kode fungsi probabilitas (fungsi gammln.c dan betai.c) di PHP, tetapi saya masih belum puas dengan hasilnya. Tampaknya memiliki lebih banyak kode daripada beberapa implementasi lainnya. Selain itu, saya memerlukan fungsi probabilitas terbalik.
Untungnya, saya menemukan Perhitungan Statistik Interaktif John Pezzullo. Situs web John tentang fungsi distribusi probabilitas memiliki semua fungsi yang saya butuhkan, diimplementasikan dalam JavaScript untuk mempermudah pembelajaran.
Saya mem-porting fungsi Student T dan Fisher F ke PHP. Saya mengubah API sedikit agar sesuai dengan gaya penamaan Java dan menyematkan semua fungsi ke dalam kelas yang disebut Distribusi. Fitur hebat dari implementasi ini adalah metode doCommonMath, yang digunakan kembali oleh semua fungsi di perpustakaan ini. Tes lain yang tidak saya terapkan (uji normalitas dan uji chi-kuadrat) juga menggunakan metode doCommonMath.
Aspek lain dari transplantasi ini juga perlu diperhatikan. Dengan menggunakan JavaScript, pengguna dapat menetapkan nilai yang ditentukan secara dinamis ke variabel instan, seperti:
var PiD2 = pi() / 2
Anda tidak dapat melakukan ini di PHP. Hanya nilai konstanta sederhana yang dapat ditetapkan ke variabel instan. Semoga kekurangan ini teratasi di PHP5.
Perhatikan bahwa kode di Listing 1 tidak mendefinisikan variabel instan—ini karena dalam versi JavaScript, variabel tersebut diberi nilai secara dinamis.
Listing 1. Implementasi fungsi probabilitas
<?php
// Distribusi.php
// Hak Cipta John Pezullo
// Dirilis dengan persyaratan yang sama seperti PHP.
// Port PHP dan OO'fying oleh Paul Meagher
class Distribution {
function doCommonMath($q, $i, $j, $b) {
$zz = 1;
$z = $zz;
$k = $i;
sementara($k <= $j) {
$zz = $zz * $q * $k / ($k - $b);
$z = $z + $zz;
$k = $k + 2;
}
kembalikan $z;
}
fungsi getStudentT($t, $df) {
$t = abs($t);
$w = $t / akar persegi($df);
$th = atan($w);
jika ($df == 1) {
kembali 1 - $th / (pi() / 2);
}
$sth = dosa($th);
$cth = cos($th);
jika( ($df % 2) ==1 ) {
kembali
1 - ($th + $sth * $cth * $this->doCommonMath($cth * $cth, 2, $df - 3, -1))
/ (pi()/2);
} kalau tidak {
kembali 1 - $sth * $ini->doCommonMath($cth * $cth, 1, $df - 3, -1);
}
}
fungsi getInverseStudentT($p, $df) {
$v = 0,5;
$dv = 0,5;
$t = 0;
while($dv > 1e-6) {
$t = (1 / $v) - 1;
$dv = $dv / 2;
jika ( $ini->getStudentT($t, $df) > $p) {
$v = $v - $dv;
} kalau tidak {
$v = $v + $dv;
}
}
kembalikan $t;
}
fungsi getFisherF($f, $n1, $n2) {
// diterapkan tetapi tidak ditampilkan
}
fungsi getInverseFisherF($p, $n1, $n2) {
// diterapkan tetapi tidak ditampilkan
}
}
?>
Metode keluaran
Sekarang Anda telah mengimplementasikan fungsi probabilitas di PHP, satu-satunya tantangan yang tersisa dalam mengembangkan alat penelitian data berbasis PHP adalah merancang metode untuk menampilkan hasil analisis.
Solusi sederhananya adalah dengan menampilkan nilai semua variabel instan ke layar sesuai kebutuhan. Di artikel pertama, saya melakukan hal itu ketika menunjukkan persamaan linier, nilai T, dan probabilitas T untuk Studi Burnout. Sangat membantu untuk dapat mengakses nilai tertentu untuk tujuan tertentu, dan SimpleLinearRegression mendukung penggunaan ini.
Namun, metode lain untuk mengeluarkan hasil adalah dengan mengelompokkan bagian-bagian keluaran secara sistematis. Jika Anda mempelajari keluaran dari paket perangkat lunak statistik utama yang digunakan untuk analisis regresi, Anda akan menemukan bahwa mereka cenderung mengelompokkan keluarannya dengan cara yang sama. Mereka sering kali menyertakan Tabel Ringkasan, tabel Analisis Varians, tabel Estimasi Parameter, dan Nilai R. Demikian pula, saya membuat beberapa metode keluaran dengan nama berikut:
showSummaryTable()
tampilkanAnalysisOfVariance()
tampilkanParameterEstimates()
tampilkanRValues()
Saya juga memiliki metode untuk menampilkan rumus prediksi linier ( getFormula() ). Banyak paket perangkat lunak statistik tidak mengeluarkan rumus, tetapi mengharapkan pengguna membuat rumus berdasarkan keluaran metode di atas. Hal ini sebagian karena bentuk akhir rumus yang akhirnya Anda gunakan untuk memodelkan data Anda mungkin berbeda dari rumus default karena alasan berikut:
Perpotongan Y mungkin tidak memiliki interpretasi yang berarti, atau nilai masukan mungkin telah diubah. sedemikian rupa sehingga Anda mungkin perlu membatalkan konversinya untuk mendapatkan penjelasan akhir.
Semua metode ini mengasumsikan bahwa media keluarannya adalah halaman web. Mengingat Anda mungkin ingin menampilkan nilai ringkasan ini dalam media selain halaman web, saya memutuskan untuk menggabungkan metode keluaran ini dalam kelas yang mewarisi kelas SimpleLinearRegression. Kode dalam Listing 2 dimaksudkan untuk menunjukkan logika umum kelas keluaran. Untuk membuat logika umum lebih menonjol, kode yang mengimplementasikan berbagai metode pertunjukan telah dihapus.
Listing 2. Mendemonstrasikan logika umum kelas keluaran
<?php
// HTML.php
// Hak Cipta 2003, Paul Meagher
// Didistribusikan di bawah GPL
include_once "slr/SimpleLinearRegression.php";
class SimpleLinearRegressionHTML extends SimpleLinearRegression {
function SimpleLinearRegressionHTML($X, $Y, $conf_int) {
Regresi Linier Sederhana::Regresi Linier Sederhana($X, $Y, $conf_int);
}
fungsi showTableSummary($x_name, $y_name) {} }
fungsi showAnalysisOfVariance() { }
fungsi showParameterEstimates() { }
fungsi showFormula($x_name, $y_name) { }
fungsi showRValues() {}
}
?>
Konstruktor kelas ini hanyalah pembungkus konstruktor kelas SimpleLinearRegression. Artinya, jika Anda ingin menampilkan output HTML dari analisis SimpleLinearRegression, Anda harus membuat instance kelas SimpleLinearRegressionHTML alih-alih langsung membuat instance kelas SimpleLinearRegression. Keuntungannya adalah Anda tidak akan mengacaukan kelas SimpleLinearRegression dengan banyak metode yang tidak digunakan, dan Anda dapat lebih bebas menentukan kelas untuk media keluaran lainnya (mungkin mengimplementasikan API yang sama untuk jenis media berbeda).
Output GrafisMetode
output yang telah Anda terapkan sejauh ini menampilkan nilai ringkasan dalam format HTML. Cocok juga untuk menampilkan plot sebar atau plot garis dari data ini dalam format GIF, JPEG, atau PNG.
Daripada menulis sendiri kode untuk menghasilkan plot garis dan distribusi, saya pikir akan lebih baik menggunakan perpustakaan grafis berbasis PHP yang disebut JpGraph. JpGraph sedang dikembangkan secara aktif oleh Johan Persson, yang situs web proyeknya menjelaskannya sebagai berikut:
Baik untuk grafik "diperoleh dengan cara yang cepat tetapi tidak tepat" dengan kode minimal, atau untuk grafik profesional kompleks yang memerlukan kontrol yang sangat halus, JpGraph dapat digunakan Menggambar mereka menjadi mudah. JpGraph juga cocok untuk grafik jenis ilmiah dan bisnis.
Distribusi JpGraph mencakup sejumlah contoh skrip yang dapat disesuaikan untuk kebutuhan spesifik. Menggunakan JpGraph sebagai alat penelitian data semudah menemukan contoh skrip yang melakukan hal serupa dengan yang saya butuhkan dan mengadaptasinya agar sesuai dengan kebutuhan spesifik saya.
Skrip di Listing 3 diekstraksi dari alat eksplorasi data sampel (explore.php) dan mendemonstrasikan cara memanggil perpustakaan dan mengisi kelas Line dan Scatter dengan data dari analisis SimpleLinearRegression. Komentar dalam kode ini ditulis oleh Johan Persson (basis kode JPGraph mendokumentasikannya dengan baik).
Listing 3. Detail fungsi dari contoh alat eksplorasi data explore.php
<?php
// Cuplikan yang diekstraksi dari skrip explore.php
include ("jpgraph/jpgraph.php");
include("jpgraph/jpgraph_scatter.php");
include("jpgraph/jpgraph_line.php");
// Membuat grafik
$grafik = Grafik baru(300.200,'otomatis');
$graph->SetScale("linlin");
// Judul pengaturan
$grafik->judul->Set("$judul");
$grafik->img->SetMargin(50,20,20,40);
$grafik->xaxis->SetTitle("$x_name","center");
$grafik->yaxis->SetTitleMargin(30);
$graph->yaxis->title->Set("$y_name");
$graph->title->SetFont(FF_FONT1,FS_BOLD);
// pastikan sumbu X selalu berada di
// terbawah di plot dan bukan hanya di Y=0 saja
// posisi default
$graph->xaxis->SetPos('min');
// Buat plot pencar dengan beberapa warna yang bagus
$sp1 = ScatterPlot baru($slr->Y, $slr->X);
$sp1->tandai->SetType(MARK_FILLEDCIRCLE);
$sp1->tandai->SetFillColor("merah");
$sp1->SetColor("biru");
$sp1->SetBerat(3);
$sp1->mark->SetWidth(4);
// Buat garis regresi
$lplot = LinePlot baru($slr->DiprediksiY, $slr->X);
$lplot->SetWeight(2);
$lplot->SetColor('navy');
// Tambahkan plto ke baris
$grafik->Tambah($sp1);
$graph->Tambahkan($lplot);
// ... dan guratan
$graph_name = "temp/test.png";
$grafik->Gerakan($nama_grafik);
?>
<img src='<?php echo $graph_name ?>' vspace='15'>
?>
Skrip Riset Data
Alat riset data terdiri dari skrip tunggal (explore.php) yang memanggil metode kelas SimpleLinearRegressionHTML dan pustaka JpGraph .
Skrip ini menggunakan logika pemrosesan sederhana. Bagian pertama skrip melakukan validasi dasar pada data formulir yang dikirimkan. Jika data formulir ini lolos validasi, bagian kedua skrip akan dijalankan.
Bagian kedua skrip berisi kode yang menganalisis data dan menampilkan hasil ringkasan dalam format HTML dan grafik. Struktur dasar skrip explore.php ditunjukkan pada Listing 4:
Listing 4. Struktur explore.php
<?php
// jelajahi.php
if (!empty($x_values)) {
$X = meledak(",", $x_values);
$angkaX = hitungan($X);
}
jika (!kosong($y_values)) {
$Y = meledak(",", $y_values);
$angkaY = hitungan($Y);
}
// menampilkan formulir entri data entri jika variabel tidak disetel
if ( (kosong($judul)) OR (kosong($x_nama)) OR (kosong($x_values)) OR
(kosong($y_name)) ATAU (kosong($conf_int)) ATAU (kosong($y_values)) ATAU
($numX != $numY) ) {
// Kode untuk menampilkan formulir entri dihilangkan
} kalau tidak {
include_once "slr/SimpleLinearRegressionHTML.php";
$slr = SimpleLinearRegressionHTML baru($X, $Y, $conf_int);
echo "<h2>$title</h2>";
$slr->showTableSummary($x_name, $y_name);
gema "<br><br>";
$slr->tampilkanAnalysisOfVariance();
echo "<br><br>";
$slr->showParameterEstimates($x_nama, $y_name);
echo "<br>";
$slr->showFormula($x_nama, $y_name);
echo "<br><br>";
$slr->showRValues($x_nama, $y_name);
echo "<br>";
sertakan("jpgraph/jpgraph.php");
include("jpgraph/jpgraph_scatter.php");
include("jpgraph/jpgraph_line.php");
// Kode untuk menampilkan grafik ada di dalam
// skrip explore.php Kode untuk dua plot baris ini
// menyelesaikan skrip:
// Kode yang dihilangkan untuk menampilkan plot sebar plus garis
// Kode yang dihilangkan untuk menampilkan plot sisa
}
?>
Studi kerusakan akibat kebakaran
Untuk mendemonstrasikan cara menggunakan alat penelitian data, saya akan menggunakan data dari studi hipotetis kerusakan akibat kebakaran. Studi ini menghubungkan jumlah kerusakan akibat kebakaran di kawasan pemukiman besar dengan jaraknya dari stasiun pemadam kebakaran terdekat. Misalnya, perusahaan asuransi akan tertarik mempelajari hubungan ini untuk tujuan menentukan premi asuransi.
Data untuk penelitian ini ditunjukkan pada layar input pada Gambar 1.
Gambar 1. Layar input yang menampilkan data penelitian
Setelah data diserahkan, dianalisis dan hasil analisis tersebut ditampilkan. Kumpulan hasil pertama yang ditampilkan adalah Ringkasan Tabel , seperti yang ditunjukkan pada Gambar 2.
Gambar 2. Ringkasan Tabel adalah kumpulan hasil pertama yang ditampilkan
Ringkasan Tabel menampilkan data masukan dalam bentuk tabel dan kolom tambahan yang menunjukkan nilai prediksi Y sesuai dengan nilai observasi
Gambar 3 menunjukkan tiga tabel ringkasan data tingkat tinggi setelah Ringkasan Tabel.
Gambar 3. Menampilkan tiga tabel ringkasan data tingkat tinggi berikut Ringkasan Tabel
Tabel Analisis Varians menunjukkan bagaimana penyimpangan nilai Y dapat dikaitkan dengan dua sumber utama penyimpangan, varians yang dijelaskan oleh model (lihat baris Model) dan varians yang tidak dijelaskan oleh model (lihat baris Error). Nilai F yang besar berarti model linier menangkap sebagian besar deviasi dalam pengukuran Y. Tabel ini lebih berguna dalam lingkungan regresi berganda, di mana setiap variabel independen memiliki satu baris dalam tabel.
Tabel Estimasi Parameter menunjukkan estimasi intersep sumbu Y (Intercept) dan kemiringan (Slope). Setiap baris berisi nilai T dan peluang pengamatan nilai T ekstrim (lihat kolom Prob > T). Prob > T untuk kemiringan dapat digunakan untuk menolak model linier.
Jika probabilitas nilai T lebih besar dari 0,05 (atau probabilitas yang sama kecilnya), maka Anda dapat menolak hipotesis nol karena probabilitas mengamati nilai ekstrim secara acak adalah kecil. Jika tidak, Anda harus menggunakan hipotesis nol.
Dalam studi kerugian akibat kebakaran, kemungkinan diperolehnya nilai T secara acak sebesar 12,57 kurang dari 0,00000. Artinya model linier merupakan prediktor yang berguna (lebih baik daripada mean nilai Y ) terhadap nilai Y yang sesuai dengan rentang nilai X yang diamati dalam penelitian ini.
Laporan akhir menunjukkan koefisien korelasi atau nilai R. Mereka dapat digunakan untuk mengevaluasi seberapa cocok model linier dengan data. Nilai R yang tinggi menunjukkan kesesuaian yang baik.
Setiap laporan ringkasan memberikan jawaban atas berbagai pertanyaan analitis tentang hubungan antara model linier dan data. Konsultasikan buku teks karya Hamilton, Neter, atau Pedhauzeur untuk pembahasan analisis regresi lebih lanjut.
Elemen laporan akhir yang akan ditampilkan adalah plot sebaran dan grafik garis data, seperti terlihat pada Gambar 4.
Gambar 4. Elemen laporan akhir—plot distribusi dan grafik garis
Kebanyakan orang familiar dengan deskripsi grafik garis (seperti grafik pertama dalam seri ini), jadi saya tidak akan mengomentarinya kecuali mengatakan bahwa perpustakaan JPGraph dapat menghasilkan grafik ilmiah berkualitas tinggi untuk Web. Ini juga berfungsi dengan baik ketika Anda memasukkan data distribusi atau garis lurus.
Plot kedua menghubungkan residu ( Y yang diamati, Y yang diprediksi) dengan nilai Y yang Anda prediksi. Ini adalah contoh grafik yang digunakan oleh pendukung Analisis Data Eksplorasi (EDA) untuk membantu memaksimalkan kemampuan analis dalam mendeteksi dan memahami pola dalam data. Para ahli dapat menggunakan diagram ini untuk menjawab pertanyaan tentang:
Alat studi data ini dapat dengan mudah diperluas untuk menghasilkan lebih banyak jenis grafik — Histogram, kotak plot, dan plot kuartil — ini adalah alat EDA standar.
Arsitektur perpustakaan matematika
Hobi saya terhadap matematika membuat saya tertarik pada perpustakaan matematika dalam beberapa bulan terakhir. Penelitian seperti ini mendorong saya untuk berpikir tentang bagaimana mengatur basis kode saya dan mengantisipasi pertumbuhan di masa depan.
Saya akan menggunakan struktur direktori di Listing 5 untuk saat ini:
Listing 5. Struktur direktori yang mudah dikembangkan
matematika/ burnout_study.php jelajahi.php api_studi.php navbar.php dist/ Distribusi.php nelayan.php pelajar.php sumber.php jpgraf/ dll... slr/ Regresi Linear Sederhana.php Regresi Linier SederhanaHTML.php suhu/ |
Nantinya, pengaturan variabel PHP_MATH akan dilakukan melalui file konfigurasi untuk seluruh perpustakaan matematika PHP.
Apa yang kamu pelajari?
Dalam artikel ini, Anda mempelajari cara menggunakan kelas SimpleLinearRegression untuk mengembangkan alat penelitian data untuk kumpulan data berukuran kecil hingga menengah. Sepanjang jalan, saya juga mengembangkan fungsi probabilitas asli untuk digunakan dengan kelas SimpleLinearRegression dan memperluas kelas tersebut dengan metode keluaran HTML dan kode pembuatan grafik berdasarkan perpustakaan JpGraph.
Dari sudut pandang pembelajaran, pemodelan regresi linier sederhana layak untuk dipelajari lebih lanjut, karena telah terbukti menjadi satu-satunya cara untuk memahami bentuk pemodelan statistik yang lebih maju. Anda akan mendapat manfaat dari pemahaman yang kuat tentang regresi linier sederhana sebelum mempelajari teknik yang lebih canggih seperti regresi berganda atau analisis varians multivariat.
Meskipun regresi linier sederhana hanya menggunakan satu variabel untuk menjelaskan atau memprediksi penyimpangan variabel lain, menemukan hubungan linier sederhana di antara semua variabel penelitian sering kali masih menjadi langkah awal dalam analisis data penelitian. Hanya karena data bersifat multivariat tidak berarti data tersebut harus dipelajari menggunakan alat multivariat. Faktanya, memulai dengan alat dasar seperti regresi linier sederhana adalah cara yang bagus untuk mulai mengeksplorasi pola dalam data Anda.