CLT je statistička pretpostavka da će, s obzirom na dovoljno veliku veličinu uzorka iz populacije sa konačnim nivoom varijanse, srednja vrijednost svih varijabli uzorkovanih iz iste populacije biti približno jednaka srednjoj vrijednosti cijele populacije. Prema središnjoj graničnoj teoremi, srednja vrijednost uzorka podataka će postati bliža srednjoj vrijednosti cijele populacije u pitanju kako se veličina uzorka povećava, bez obzira na stvarnu distribuciju podataka. Pogledajmo šta je centralna granična teorema, čemu služi i njene ključne komponente.
Šta je centralna granična teorema (CLT)
U teoriji vjerojatnosti, središnja granična teorema (CLT) kaže da se distribucija varijable uzorka približava normalnoj distribuciji (tj. "zvonastoj krivulji") kako se veličina uzorka povećava pod pretpostavkom da su svi uzorci identični po veličini i bez obzira na stvarni oblik distribucije stanovništva. Drugim riječima, CLT je statistička pretpostavka da će, s obzirom na dovoljno veliku veličinu uzorka populacije sa konačnim nivoom varijanse, srednja vrijednost svih varijabli uzorkovanih iz iste populacije biti približno jednaka srednjoj vrijednosti cijele populacije. Nadalje, ovi uzorci se približavaju normalnoj raspodjeli i njihove varijanse su približno jednake varijansi populacije kako se veličina uzorka povećava, prema zakonu velikih brojeva. Iako je ovaj koncept prvi razvio Abraham de Moivre 1733. godine, on je formaliziran tek 1920. godine, kada ga je poznati mađarski matematičar George Pólya nazvao središnjom graničnom teoremom.

Formula središnje granične teoreme. Izvor: Inchcalculator.com.
Čemu služi središnji granični teorem (CLT)?
Prema središnjoj graničnoj teoremi, srednja vrijednost uzorka podataka će postati bliža srednjoj vrijednosti cijele populacije u pitanju kako se veličina uzorka povećava, bez obzira na stvarnu distribuciju podataka. Drugim riječima, podaci su tačni da li je distribucija normalna ili aberantna. Kao opšte pravilo, veličina uzorka između 30 i 50 se smatra dovoljnom da se CLT zadovolji, što znači da je raspodela srednjih vrednosti uzorka prilično normalna. Stoga, što se više uzoraka uzme, rezultati će više ličiti na normalnu distribuciju. Imajte na umu, međutim, da će središnja granična teorema i dalje biti aproksimirana u mnogim slučajevima za mnogo manje veličine uzorka, kao što je n=8 na=5.3
Ilustracija središnje granične teoreme za pristrasnu populaciju vrijednosti. Izvor: ResearchGate
Ključne komponente centralne granične teoreme
Centralna granična teorema se sastoji od nekoliko ključnih karakteristika. Ove karakteristike se uglavnom vrte oko uzoraka, veličine uzorka i populacije podataka.
- Uzorkovanje je sukcesivno. To znači da su neke jedinice uzorka zajedničke s jedinicama uzorka odabranim u prethodnim prilikama.
- Uzorkovanje je nasumično. Svi uzorci moraju biti odabrani nasumično tako da imaju istu statističku šansu da budu odabrani.
- Uzorci moraju biti nezavisni. Odabir ili rezultati iz jednog uzorka ne bi trebali utjecati na buduće uzorke ili rezultate drugih uzoraka.
- Uzorci moraju biti ograničeni. Često se kaže da uzorak ne bi trebao prelaziti 10% populacije ako se uzorkovanje vrši bez zamjene. Općenito, veće veličine populacije opravdavaju korištenje veće veličine uzorka.
- Veličina uzorka se povećava. Centralna granična teorema postaje relevantna kako se bira više uzoraka.