Normál eloszlás
Hajnali 6-kor Robert Lee már a szerverfarm előtt áll, mosolyogva kortyolja a kávéját, amikor Emily Grant, az IT Director odahívja:
“Robert, a holnapi Black Friday forgalomra vonatkozóan 95%-os biztonsággal kell megmondanunk a szerverkapacitást. Ne legyen túl kevés, de túlkölteni sem akarunk!”.
Robert gyorsan előveszi a napi látogatószám adatait, feltételezi a normál eloszlást, és kiszámolja a 95%-os felső határértéket (μ + 1.65σ). Másnap a szerverpark sem nem omlik össze, sem nem áll feleslegesen üresen.
Nézzük, mi a normal distribution, és hogyan segíti a marketing-IT együttműködést.
0. Mi az a normál eloszlás
Szimmetrikus, haranggörbe alakú folytonos eloszlás, melyet átlag (μ) és szórás (σ) jellemez.
1. Miért jó?
Gyakori előfordulás: rengeteg természetes és üzleti jelenség (pl. termelési hibák, magasság, pénzügyi hozamok) közel normál eloszlású.
Matematikailag kényelmes: zárt alakú sűrűség- és eloszlásfüggvények, analitikus megoldások sok modellben.
Központi határeloszlás tétel: sok független hatás összege közelít a normál eloszláshoz, ezért a hibák és átlagok gyakran normálisak.
2. Hogyan számítható?
Sűrűségfüggvény (PDF):
f(x) = (1 / (σ * √(2π))) * exp( - (x – μ)² / (2σ²) )
μ: eloszlás középértéke (átlag)
σ: standard deviáció (szórás)
Eloszlásfüggvény (CDF):
F(x) = ∫[–∞→x] f(t) dt
Excel:
PDF: NORM.DIST(x; μ; σ; FALSE)
CDF: NORM.DIST(x; μ; σ; TRUE)
Inverz (kvantilis): NORM.INV(p; μ; σ)
3. Mikor használd?
Folytonos, szimmetrikus adatoknál, ahol a középérték körül a leggyakoribbak az értékek.
Statikus tesztek (t-teszt, ANOVA), ahol a hibák normális eloszlása a feltétel.
Monte Carlo-szimuláció bemeneti eloszlásként, ha indokolt a normális bizonytalanság.
4. Marketing-példák
Készlet‐igény: napi eladások ingadozása szórással μ körül.
Árkockázat: napi árfolyam- vagy versenypiaci ár-ingadozás modellezése.
Kampányválasz-arány: nagy mintán a válaszarány átlagának eloszlása.
5. Case Study: napi látogatószám előrejelzés
Adatok (30 nap):
átlagos napi látogatószám μ = 1 000, szórás σ = 150.
PDF kiszámítása egy napra:
NORM.DIST(1 200; 1000; 150; FALSE) ≈ 0.0018
Valószínűség, hogy a látogatók száma ≤ 1 200:
NORM.DIST(1 200; 1000; 150; TRUE) ≈ 0.9082
Threshold beállítás: A 95-ös percentilis
NORM.INV(0.95; 1000; 150) ≈ 1 235
Eredmény:
95 %-os valószínűséggel < 1 235 látogató lesz.
6. Mikor ne használd?
Ha az adatok erősen torzítottak vagy egyoldalúan elnyújtottak (pl. bevételek, amik nem negatívak).
Ha sok kiugró érték van, amelyek megzavarják a szimmetriát.
Ha az eloszlás több csúccsal (multimodális), nem egyetlen középértékkel írható le.
7. Milye üzleti kérdésekre adhat választ?
Hogyan használjuk a normál percentiliseket az A/B teszt eredmények kiértékeléséhez (pl. 95%-os szignifikancia)?
A pénzügy azt kéri, normalizáld a bevételeket, hogy összehasonlíthassák a különböző forgalmi csatornákat – mikor érdemes transzformálni?
Ha sok kiugró adatunk van (outlier), mikor probléma a normál eloszlás feltételezés, és mit teszel?
A CRM riportban a kampányválasz-arányt µ és σ értékekkel adjuk meg – hogyan magyarázod el a marketing csapatnak?