Bevezetés a valószínűséghez és a statisztikához

Fotó: Darius Soodmand az Unsplash-en
„A valószínűségi elméletet busz alá kell dobni” - mesterséges intelligencia szakértő, Carlos E. Perez.

A valószínűségi elmélet tanulmányozásával kezdjük, majd belekerülünk a statisztikákba.

A valószínűséget és a statisztikát minden alkalommal használják a számítástechnikában. Gépi tanulás? Valószínű. Adattudomány? Ez statisztika.

Magas szintű valószínűség

A valószínűség lehetőséget ad arra, hogy összefoglaljuk a lustaságból és a tudatlanságból származó bizonytalanságot. Más szavakkal: a valószínűség megtudja annak valószínűségét, hogy valami történni fog.

Diszkrét valószínűség

A diszkrét valószínűség a valószínűségi elmélet formalizálása, amely a diszkrét matematika alapján leírja a számítógépeken való alkalmazás valószínűségét.

A diszkrét valószínűséggel kapcsolatos problémák megoldásakor a valószínűségi szóközök használatával kezdjük. Egy valószínűségi tér a párosítás (S, P), ahol:

  1. S az összes elemi esemény mintaterülete X ∈ S. Az S tagjait a kísérlet kimenetelének nevezzük.
  2. P a valószínűség-eloszlás, azaz a P (x) valós számot hozzárendeljük minden X ∈ S elemi eseményhez úgy, hogy valószínűsége 0 és 1 között legyen és ∑P (x) = 1

A 2. pont esetében a P (x) értéket úgy kell értelmezni, mint „X valószínűsége”. A valószínűségnek mindig 0 és 1 között kell lennie, vagy gyakran 0% és 100% között kell lennie.

Példa

Képzelje el, hogy eldob egy érmét. A valószínűségi tér (S, P).
Az S eredmény ** S = {H, T} **, ahol S lehet fej vagy farok.
Ezért van a valószínűsége
P (H) = P (T) = 1/2
A fejek valószínűsége megegyezik a farok valószínűségével, amely megegyezik a felével. Más szavakkal, ha egy érmét megfordítunk, akkor esélye van arra, hogy fej- vagy farokoldalával felfelé forduljon.

A valószínűség-eloszlást akkor tekintjük egységesnek, ha minden eredmény ugyanolyan valószínű.

Bevezetés a valószínűségi problémák megoldásába

Sokan, beleértve az egyetemi tanárokat és a doktoranduszokat, nem tudják megoldani a valószínűségi problémákat. Amint azt a cikk késõbbi részében tárgyaltuk, a Monty Hall problémája híres probléma és erre jó példa.

Tegyük fel, hogy játékszeren vesz részt, és három ajtó közül választhat: az egyik ajtó mögött egy autó; a többiek mögött kecske. Választ egy ajtót, mondjuk №1, és a házigazda, aki tudja, mi van az ajtók mögött, kinyit egy másik ajtót, mondjuk №3, amelynek kecske van. Ezután azt mondja neked: „Szeretne venni a 2. számú ajtót?” Az Ön előnye az, hogy megválasztja a választását?

Ezt a kérdést Voe Savantnak küldték, aki akkoriban a legmagasabb IQ volt a világon. Voe Savant azt válaszolta, hogy 2/3 esély van arra, hogy megnyerje az autót, ha váltana, és 1/3 esély, ha nem vált.

Emberek ezrei vitatkoztak a Monty Hall problémájáról, és sok matematikai egyetemi tanár azt állította, hogy Amerikában a matematikai analfabetizmusok áradtak, mert a javasolt Monty Hall problémamegoldás rossz volt.

Ez a probléma a következő héten minden matematikai osztályban megjelent, és több ezer olvasó, akik matematikából PhD-vel rendelkeznek, magyarázta, hogy Savant tévedett. Még Paul Erdős, a világ egyik legismertebb matematikusa, azt mondta, hogy Savant tévedett.

Nekik sajnos Savantnak igaza volt. Ez egy egyszerű valószínűségi probléma, amelyet formálisan meghatározva meg lehet magyarázni. Sok matematikus használta intuícióját ennek a problémának a megoldására, és nem követi az alább ismertetett valószínűségi probléma megoldásának lépéseit.

Néhány lépést meg kell tennie egy valószínűségi probléma megoldása előtt, hogy igazolja, hogy teljes mértékben megérti a problémát.

Mintahely

A mintaterület az a készlet, amely tartalmazza az összes lehetséges eredményt.

Tehát adva egy érmét, a mintaterülete {fejek, farok}, mivel az érme csak fejekre vagy farokra landolhat.

Eredmény

Az eredmény a kísérlet elvégzését követõ összes információból áll. Amikor egy érmét elfordítasz, és a fejére landol, az eredmény {heads}.

Valószínűségi hely

A valószínűségi hely a mintaterület, de minden lehetséges eredményre valószínűséget alkalmazunk. Az érme megfordításával a valószínűség szóköz {(Fej, 0,5), (Farok, 0,5)}.

A valószínűségi térben szereplő összes valószínűség teljes valószínűségének egyenlőnek kell lennie 1. Egyetlen valószínűség sem lehet kevesebb, mint 0 és több, mint 1.

Sok nagy teljesítményű hallgató azt mondja nekem, hogy megpróbálják a lehető legjobban elképzelni, hogy miről van szó.

Példa

Tegyük fel, hogy dobunk egy 6-oldalú kocka, és ki akarjuk dolgozni annak valószínűségét, hogy kapunk egy 4-et.

  1. Számolja ki a lehetséges események számát. A kocka 6 oldala van. Tehát 6 lehetséges esemény van
  2. Döntse el, melyik eseményt vizsgálja valószínűségének szempontjából. A probléma tudassa velünk, hogy megpróbálunk egy négyeset dobni.
  3. Számolja meg annak a valószínűségét, hogy a fejek bekövetkezhetnek a lehetséges eseményekből. A szerszámnak csak az egyik oldala van, amelyben 4 pont van, tehát csak egy esély van arra, hogy a teljes 6 esélyből négyet dobjon be.
  4. Írja be, hogy az esélyek száma hány százalékban fordulhat elő a lehetséges események számánál. (1/6)

Bár ez egy egyszerű megoldandó probléma, szemlélteti a fontosabb lépéseket, amikor megteszik a nehezebb valószínűségi problémákat.

Események

Az eseményeket a valószínűségi elméletben gyakran figyelmen kívül hagyják, és nem sokat beszélnek erről, ezért vállaltam magam, hogy kibővítsem, mi az esemény és miért fontosak ebben a szakaszban.

Az esemény egy valószínűség szerint egy kísérlet kimenetele. A bayes-i valószínűségben egy eseményt úgy definiálnak, hogy a következő lehetséges állapotteret leírja az aktuális állapotból származó ismeretek felhasználásával.

Egy eseményt gyakran „e” karakterrel jelölnek. Mint például egy esemény P (e) valószínűsége. Az események valószínűségnél sokkal fontosabbak, mint a legtöbb ember.

Egy esemény kocka, például egy „5” gördítésének vagy farok megszerzésének az eredménye lehet, ha érmét megfordítanak.

Események lehetnek:

  1. Független - Minden eseményt nem befolyásolnak korábbi vagy jövőbeli események.
  2. Függõ - Egy eseményt más események is befolyásolnak
  3. Kölcsönösen kizárólagos - az események nem fordulhatnak elő egyszerre

Miért fontosak az események?

Nos, az események lehetővé teszik, hogy valószínűséggel csináljunk néhány csodálatos dolgot. Vegyük például a Monty Hall problémáját. Próbálja ki az alábbi kérdést:

Az egyik ajtó egyik díszes sportkocsival rendelkezik, a másik 2 ajtó kecskével rendelkezik. Válasszon bármilyen tetszőleges ajtót, folytassa!

Oké, tegyük fel, hogy az 1. szót választotta, a játék show házigazda nyit egy ajtót, amely kecskét tartalmaz, tehát tegyük fel, hogy kinyitjuk a 3. számú ajtót és egy kecskét is. Tehát tudja, hogy az 1. ajtó az Ön választása, a 3. ajtó egy kecske és a 2. ajtó érintetlen. Megjegyzés: Nem számít, milyen ajtót választott ki eredetileg, az a fontos, hogy Ön ajtót válasszon, és a gameshow házigazda nyitja az ajtót egy kecskével.

A játék show aztán megkérdezi: „Biztos benne, hogy az 1. ajtó helyes? Szeretne váltani?

Mit csinálsz?

Nos, a valószínűség azt állítja, hogy a 2. számú ajtót kell választanunk, ahogy Ön átváltaná. Miért? Nos, a 2. számú ajtónak 2/3 esélye van, vagy 77% esélye van az autó tárolására, az 1. ajtó (az eredeti választása) pedig 33% esélye van egy autó elhelyezésére.

Whaaaaattt ??

Ez egy híres valószínűségi probléma, a Monty Hall probléma, és bemutatja, hogy az események hogyan befolyásolhatják a valószínűségeket. Ennek magyarázata érdekében nézze meg ezt a Numberphile videót az alábbiak szerint:

Az esemény kiegészítésének valószínűsége

Az esemény kiegészítése az esemény összes többi eredménye.

Például, ha az esemény Tails, a kiegészítés a Heads. Ha az esemény {hétfő, kedd}, a kiegészítés {szerda, csütörtök, péntek, szombat, vasárnap}.

Ha ismeri a p (x) valószínűségét, akkor megtalálhatja a bókot az 1 - P (x) elvégzésével. Mivel az összes valószínűség 100% -kal egyenlő, ezt 1-ként fejezhetjük ki.

Miért hasznos a kiegészítő?

Időnként könnyebb először a komplement kidolgozása a tényleges valószínűség előtt. Például:

Határozzuk meg annak valószínűségét, hogy ha 2 meghalnak, akkor a két pontszám eltérő

A különböző pontszámok olyanok, mint a 2-es és a 3-as, illetve az 1-es és a 6-os megszerzése. Az összes lehetséges eltérő pontszám halmaza meglehetősen nagy, de az összes lehetséges eltérő pontszám kiegészítése (pontszámok azonosak) meglehetősen alacsony. Valójában ez a következő:

{(1, 1), (2, 2), (3,3), (4,4), (5,5), (6,6)}

A különböző kombinációk száma összesen 6 * 6, ami 36, tehát az azonos pontszám elérésének valószínűsége 6/36 vagy 1/6. Most 1/6-t távolíthatunk el az 1-től (gondoljunk 1-re, mint univerzális készletre), amely egyenlő 5/6-tal.

Két esemény egyesülése (Inklúzió-kizárás elve)

Ez arra vár, hogy tudjon egy kicsit a halmazelméletről, ezért kattintson ide további információkért.

Ha két esemény kölcsönösen kizárja egymást (nem fordulhatnak elő egyszerre), akkor annak valószínűsége, hogy egyszerre történjen, 0.

Ha két esemény nem zárja ki egymást, akkor a két esemény egyesülésének valószínűsége mindkét esemény összesített valószínűsége.

Azért vesszük el az A és B metszéspontját, mert P (A) + P (B) mindazt tartalmaz, ami A-ban vagy B-ben található, de az unió működése miatt olyan metszéspont lesz, amely 2 A-t és 2 B, tehát el kell távolítani a kereszteződést, hogy megkapjuk az egyes események valószínűségét.

Más szavakkal, A olyan elemeket tartalmaz, amelyek B-ben vannak, és B olyan elemeket, amelyek A-ban vannak:

Három Disjoint Események Szövetsége

Tegyük fel, hogy 3-szor dobtam egy tisztességes kocka.
S az események sorozata, amely a három hosszon olyan, hogy {1..6) ³}
P (x) = 1/6 * 6 * 6 = 1/216 minden x ∈ S-re
Mi a valószínűsége, hogy legalább egy 6-at dobunk?
Mivel tehát háromszor dobjuk el a kocka, E1 legyen annak a valószínűsége, hogy a kockacsavar 6, E2 = P (6), E3 = P (6)
Szeretnénk kitalálni
P (E1∪E2∪E3)

Ne feledje, hogy a valószínűségek uniója P (A) + P (B) - A és B metszete. Szeretnénk A, b és C unióját, amely magában foglalja a középső metszéspontot is. Elvesszük az A B, A C, B C kereszteződéseit, és hozzáadjuk mind a 3 metszéspontját, hogy a középső részt kapjuk.

Szóval ez csak:

Lehet, hogy észrevetted, hogy a kereszteződés 6/216. Ez zavarónak tűnhet, mert mi nem határoztuk meg kézzel erre a készletre. Ne aggódj: Az metszésképlet a következő:

Példakérdés

Mivel 4 érme van, mi a valószínűsége annak, hogy legalább három közülük farok származik?

Az az esemény, amelyben legalább 3 érme farokba kerül, öt diszjunkt esemény összekapcsolása, hogy minden érme farokból áll (1 diszjunkt esemény) és hogy 4 meghatározott érme (4 diszjunkt esemény) jön fel fejekkel. Ez zavarónak tűnhet, ezért vizuálisan elmagyarázom. Nyugodtan hagyja ki a következő bekezdést, ha nem zavarod.

A diszjunkt esemény azt jelenti, hogy az események nem fordulhatnak elő egyszerre. Az első szétválasztási esemény a „mi van, ha minden érmék farokba kerülnek?” Vagyis az 5 érme {T, T, T, T, T}. A másik 4 esemény mi lesz, ha egy megadott érme feljön? Tehát az első szétválasztási esemény {H, T, T, T}, a második {T, H, T, T} stb. Mivel legalább 3 érmre szükségünk van farokhoz, {H, H, T, T} nem érvényes.

Az öt különálló esemény összekapcsolása az egyes események valószínűségének összeadása.

Először megtudhatja annak valószínűségét, hogy ezen a téren bármilyen valószínűség lehetséges. A problémás terület {H, T} 4 különböző érme felett. Minden érmének 1/2-es esélye van fejnek vagy faroknak, és 4 érme van, tehát az 1/2 * 1/2 * 1/2 * 1/2 1/16 esélye az államterület bármely lehetséges eredményére.

Ezért egy esemény valószínűsége P (1/16)

Tudjuk, hogy tudjuk, mennyire valószínű, hogy a {H, T} bármilyen kombinációját kapjuk a 4 érme felett, és ezt felhasználhatjuk annak meghatározására, hogy mennyire valószínű, hogy megkapjuk az 5 különálló eseményt. Mivel minden esemény diszjunkt, az egyik esemény nem érinti a másikot, tehát csak 1/16 * 5 eset (az 5 diszjunkt esemény esetén), ami 5/16 eredményt eredményez.

Így valószínűsége annak, hogy legalább 3 érme farokba jön, 5/16.

Feltételes valószínűség

Feltételes valószínűség esetén az esemény csak akkor fordulhat elő, ha egy másik esemény történt. Kezdjük egy egyszerű problémával:

John kedvenc programozási nyelvei a Haskell és az x86 Assembley. Legyen A képviseli azt az eseményt, amely kényszeríti az osztályt Haskell megtanulására, és B képviseli azt az eseményt, amikor egy osztályt arra kényszerít, hogy megtanulja az x86 Assembley-t.
Egy véletlenszerűen kiválasztott napon Jánt maga a Sátán veszi át, tehát P (A) valószínűsége 0,6, P (B) valószínűsége 0,4, és feltételes valószínűsége annak, hogy Haskell-t tanítja, mivel x86 Assembleyt tanította. ez a nap P (A | B) = 0,7.
Az információk alapján mi a P (B | A), azzal a feltétellel, hogy John az x86 Assembley-t tanítja, tekintettel arra, hogy Haskell-t tanította, a legközelebbi százra kerekítve?

P (A és B) valószínűsége = P (A | B) * P (B) az „|” pont szerint olvasható, az „A | B” szerint „A adott B-vel”. Azt is lehet írni, mint P (B | A) * P (A).

Ennek oka P (A | B) * P (B), mert az valószínűsége "Figyelembe véve annak a valószínűségét, hogy B megtörténik, A megtörténik", és B valószínűsége P (B). (A | B) valószínűsége eltér a P (B) -től, és P (A és B) csak akkor fordulhat elő, ha P (B) megtörténik, amely lehetővé teszi P (B | A) megtörténését.

Tehát ezt matematikai képletké alakíthatjuk:

P (A és B) = P (A | B) * P (B) = 0,7 * 0,5 = 0,35
Megoldom
P (B | A) * P (A)
P (A) = 0,5
Így
0,6 * P (B | A)
Most nem tudjuk, mi a P (B | A), de meg akarjuk tudni. Tudjuk, hogy P (B | A) P (A és B) részét kell képeznie, mert P (A és B) valószínűsége annak, hogy mindkét esemény így történik ...
P (A és B) = 0,35
0,35 = P (B | A) * 0,5
Egyszerű algebrai manipulációval
0,35 / 0,5 = P (B | A)
P (B | A) = 0,7

A feltételes valószínűség vizuális magyarázatáért nézze meg ezt a Khan Academy videót

Bayes Therom

A Bayes Therom lehetővé teszi, hogy kiszámítsuk az események valószínűségét, ha előzetes tudomást szerezünk az eseményekről. Ez inkább megfigyelés, mint termó, mivel mindenkor helyesen működik. A Bayes therom-ot Thomas Bayes készítette, aki ezt a megfigyelést jegyzetfüzetbe vette. Sosem publikálta, így életének ideje alatt nem vették figyelembe a híres termóta miatt.

Bayes Therom a https://betterexplained.com/articles/colorized-math-equations/ webhelyről

A adott B valószínűsége a B adott A valószínűsége (megjegyzés: itt megfordítva) az A valószínűségének osztva a B valószínűségével.

Természetesen ez zavarónak hangzik, ezért segíthet egy példa megjelenésében.

Tegyük fel, hogy egy újabb mexikói fekete kátrány heroint találtak az utcákon, és a rendőrség meg akarja határozni, hogy valaki használ-e vagy sem.
A gyógyszer 99% -ban érzékeny, azaz azon emberek aránya, akiket helyesen azonosítottak a drogot szedő személyekkel.
A gyógyszer 99% -kal specifikus, azaz azon emberek aránya, akiket helyesen azonosítottak úgy, hogy nem szedik a drogot.
Megjegyzés: 1% -os hamis pozitív arány van mind a felhasználók, mind a nem felhasználók között.
Tegyük fel, hogy a John Moores emberének 0,5% -a veszi a drogot. Mi a valószínűsége annak, hogy egy véletlenszerűen kiválasztott John Moores hallgató pozitív teszttel rendelkező felhasználó?

Miután megszerezte az összes információt, egyszerűen helyettesíti az értékeket, és kidolgozza azokat.

Az alábbiakban bemutatunk egy videót, amely a Bayes Theromot intuitív módon magyarázza a valós példákkal, a hátsó történelemmel, valamint a Bayes Therom filozófiájával:

Ha azt szeretné látni, hogy a Bayes Therom miként használható a gépi tanulásban - nézd meg ezt!

Véletlen változók

A véletlen változó egy függvény, nem véletlen vagy változó.

A véletlenszerű változónak nem kell közvetlenül meghatároznia az S mintaterületet, hanem hozzá kell rendelnie annak valószínűségét, hogy az (X) változó egy bizonyos értéket vesz fel. A korábbi valószínűséggel ellentétben, ahol meg kellett határoznunk egy mintát, csak magát a valószínűséget érdekeljük.

A véletlen változókat gyakran P (f = r) formában írják, ahol f az esemény neve és r a valószínűség.

Valószínűleg 0 és 1 között kell lennie, mint minden valószínűségi értéknél.

NEM írunk (bármilyen jelöléssel) (F = r) arra az esetre, ha F minden változó az R-től eltérő.

Példa erre

P (Die = 1) = 1/6
Az a valószínűség, hogy ez a szerszám értéke 1, 1/6
NOT P (Die = 1) az az esély, amelyben a die van
(Die = 2) OR (Die = 3) OR (Die = 4) OR (Die = 5) Or (Die = 6)

P komplemense (f = r); a véletlenszerű változók ábrázolására 1 - P (f = r), ahol 1 100% vagy csak 1.

Néha szimbólumokat (szavakat) használunk a számok helyett a véletlenszerű változók ábrázolására. Ez nagyon hasznos. Tegyük fel, hogy az időjárás 4 állapot közül 1 lehet, napos, eső, felhős, hó. Így az Weather = 1 hozzárendelése helyett Weather = sunny is írhatnánk.

Időnként hosszú az összes valószínűség felírása, például P (Időjárás = napos) = 0,7 vagy P (Időjárás = eső) = 0,3. Ha az értékeket sorrendben rögzítjük, akkor P (Időjárás) = (0,7, 0,3) írható

A vastag P betűvel jelöljük, hogy az eredmény egy olyan számvektor, amely az Időjárás egyedi értékeit képviseli. Erre példa: P (időjárás) = (0,7, 0,3).

Közös valószínűség-eloszlások

A közös valószínűség-eloszlás lehetővé teszi több véletlenszerű változó, általában 50 vagy 100, de példáinkban kevesebb is lesz.

Az időjárási és a Cavity véletlen változók P (időjárás, üreg) lehetséges közös valószínűségi eloszlását az alábbi táblázat adja:

Ez a fogüregek és az időjárás közös valószínűségi eloszlása. A üreg egy logikai érték, vagy 0, vagy 1, és 4 lehetőség van az időjárásra. Ha közös P valószínűségi eloszlást akarunk létrehozni (időjárás, üreg), akkor a fenti táblázatot készítjük.

Időjárás = napos és üreg = 1 valószínűsége 0.144. A közös eloszlás valószínűsége 1-re növekszik.

Teljes közös valószínűség-eloszlás

Teljes valószínűség-eloszlásnak nevezzük, ha minden, ami a domain szempontjából releváns. A fenti példától eltérően az üregek és az időjárás nem azonos tartományban vannak.

Tegyük fel, hogy a Fogfájás, Üreg, Fogás véletlen változói teljesen leírják a fogorvos látogatását

Ezután a következő táblázat adja a teljes közös valószínűség-eloszlást:

Innen

marginalizálódás

A véletlen változók marginális valószínűségeit kiszámolhatjuk a változók összegzésével. Például a fenti példában, ha a P valószínűségét szeretnénk összeadni (üreg = 1), akkor az összes valószínűséget össze kell adni, ha az üreg értéke 1.

Konditális / hátsó valószínűség

Kiszámolhatjuk a teljes ízület eloszlásának feltételes / utólagos valószínűségét ugyanúgy, mint mi normál módon tennénk.

Vegye figyelembe, hogy (F, G) jelentése F (és metszéspont) G.

Várható érték

A várt érték pontosan olyan, amilyennek hangzik, mire számít az érték? Ezzel kiszámíthatja a 6 dobásnál nagyobb kockák átlagértékét, vagy bármi olyat, ami valóban kapcsolódik a valószínűséghez, ha van értéktulajdonsága.

Tekintettel a kimenetelekre = (1, 2) és a valószínűségekre ((1/8, 1/4)) a várt érték, E [x] E [x] = 1 (1/8) + 2 (1/4) = 0,625.

Tegyük fel, hogy a kerékpártípusokat számoljuk, és 4 kerékpárunk van. Minden kerékpárhoz kódot rendelünk:

Minden kerékpárhoz adunk egy számot. Minden kódoláshoz láthatjuk, hogy 2 bitet használunk. Vagy 0 vagy 1. A várt értékhez nem csak a változó értékére, hanem a valószínűségre is szükségünk van. Minden kerékpár azonos eséllyel rendelkezik. Tehát minden kerékpárnak 25% esélye van a megjelenésre.

A várható érték kiszámításával a valószínűséget 2 bittel megszorozzuk, és így kapjuk meg:

Mi lenne, ha a valószínűség nem lenne azonos?

Azt kell tennünk, hogy szorzzuk meg a bitszámot a valószínűséggel

Az entrópia

Az entrópia a véletlenszerű változóval társított bizonytalanság mértéke. Ez a változó értékének kommunikálásához szükséges bitek várható száma.

Az entrópia megpróbálja megadni egy számot, hogy mennyire bizonytalan valami.

Statisztika

A statisztika nem valószínűségi elmélet. A statisztika a valószínűségi elméletből származó ötletek valós alkalmazása. Ezek felhívhatják a következőket:

  1. Pszefológia - A szavazási minták elemzése
  2. Adatelemzés - Adattan
  3. Minőség ellenőrzés

Mintahely

A mintaterület egy adatgyűjtemény egyetlen véges halmazként, amely úgy néz ki, mint:

Ahol S a mintaterület.

Valószínűségi eloszlás

Tegyük fel, hogy véletlenszerű embert akarunk kiválasztani minden olyan emberből, akik elolvasják a Sun újságot. Egy személy kiválasztásának valószínűsége a következő:

A valószínűségi eloszlás egy olyan mintaterület, ahol minden elem valószínűségi értéke 0 és 1 között van hozzárendelve, amely jelzi, hogy valószínűleg mikor válogatják őket.

Összességében, ha s egy S elem, azaz ha egy elem az S mintahalmaz halmazának (csoportjának) része, akkor:

Ha hozzáadja a mintaterület minden elemének valószínűségét, akkor ennek 1-nek kell lennie.

Ha ki akarjuk venni az adatkészletet, akkor átmentünk az adatkészlet minden egyes személyén, hogy jól érezzük magunkat a minta általánosságáról. Ha azonban 7 milliárd ember lenne ebben az adatkészletben, akkor ez nagyon-nagyon hosszú időt vehet igénybe.

Kétféle módon tudunk mintavételezni az adatokat.

Vagy véletlenszerűen választhatunk ki embereket az adatkészletből, és mintát használhatjuk, vagy pedig kézzel kiválaszthatjuk az adatok egy meghatározott részhalmazát.

Az egységes adatkészlet olyan, ahol mindenki valószínűleg válogatásra kerül. Az elfogult minta nem egységes, az embereket kézzel választották ki.

Az elfogulatlan adatkészletek „tisztességesnek” tűnnek, míg az elfogulatlanok „tisztességtelennek” tűnnek. Elfogulatlan mintával nem tudjuk rögzíteni az eredményt. Nem változtathatjuk meg az adatokat kedvéért.

Időnként nem törődünk a méltányossággal, és néha az elfogulatlan minták váratlan eredményekhez vezethetnek.

Véletlen változók

Emlékszel korábban, amikor azt mondtuk, hogy a véletlen változók függvények? Nos, ha véletlenszerű változót alkalmaz egy mintaterületre, akkor a következő populáció:

Ebből a mintaterületből elfogult adatkészletet kap. Ez elfogult, mert nem véletlenszerűen választunk ki embereket a készletben; szűrőt alkalmazunk - egy szabályt a halmazra, hogy a népesség egy részhalmazát kapjuk.

Paul Dunne professzor ezt a véletlenszerű változókról mondhatta:

A valószínűség-eloszlás fogalma. Ez egy annak a valószínűségének a leírása, hogy egy populáció (azaz halmaz) egy tagját kiválasztják. Például, ha egy halált veszünk figyelembe, akkor a populációnak 6 tagja van: {1,2,3,4,5,6} Van egy valószínűségi eloszlás, amely megfelel a tiszta halálnak, tehát mindegyiknek valószínűsége 1/6 választott. Ha ez egy elfogult szerszám, akkor például a valószínűség eloszlása ​​P [6] = 5/6 P [1] = 0 és P [2] = P [3] = P [4] = P [5] = 1/24
 Ezzel az egyedi eredmények összege 1.
A véletlenszerű változóra elsősorban úgy gondolhatunk, ha elfelejtjük a valószínűségeket és gondolkodunk egy tetszőleges függvényről a populációtól például a valós számokra. A próbapéldánkban f (x) = x²-et választhattunk, ellentétben a valószínűség-eloszlási függvénnyel, a választott függvénynek nincs korlátozása: a populáció tagjainak nem kell, hogy 0 és 1 között legyenek, a függvény értékeinek összege nem 1-ig kell hozzáadniuk. Ahol a „véletlen változó” gondolata akkor lép be, amikor egy függvényt valószínűség-eloszlással kombinálnak. Most az eloszlást nem úgy kell kezelni, hogy pusztán a népesség egyik tagját választja, hanem úgy, hogy egy véletlenszerű stílusban a függvény ÉRTÉKÉT választják, azaz a kiválasztott tag visszatérése helyett (pl. Egy szerszám dobásakor) az adott tag függvényértéke jelentett (pl. a dobott szám négyzete).

Átlagos átlagérték véletlenszerű változókkal

Az S populációt tekintve, amelynek tagjait eloszlás szerint vesznek mintába, D. A d alatt az r (ek) véletlen változó (várható) átlagértékét (várt)

Ez egyszerűen azt állítja, hogy a várt érték a következők „súlyozott” összege (átveszi a teljes népesség összes tagját (tagjait), S):

annak esélye, hogy D kiválasztja az s-t, megszorozva az r által visszaadott függvény értékével, azaz r (s) -vel.

Elfogulatlan eloszlások

Elfogulatlan eloszlások esetén a várható érték az összes véletlenszerű változó összesített összege osztva a populáció méretével:

Ez csak a tipikus középérték, az iskolai tanulás. A tanárnőm egy remek dalt tanított nekem, hogy emlékezzem a különbségekre az átlag, a tartomány, a medián stb. Között.

Hé nagyító, a középérték a középpont, amelyet hozzáadunk és osztunk az átlaghoz. Az üzemmódot látja a legjobban, és a tartomány a különbség között!

Tegyük fel, hogy az S olyan eredmények gyűjteménye, amelyek 6000-szeres szerszámgörgéssel jelenhetnek meg.

Akkor a „tisztességes” meghaláshoz minden eredményt 1000-szer látni kell.

Tegyük fel, hogy van egy olyan játékunk, ahol a játékosok 1 fontot vesznek fel, és ha a meghal a {1, 2, 3} egyikére esik, akkor a játékos 2 dollárt kap azután, különben elveszítik a tétet. Egy tisztességes játékban a játékos elvárhatja, hogy az idő felét 3/6 = 1/2 = nyeri.

Bizalom tesztelése

Tegyük fel, hogy a kísérlet kimenetelének hipotézise X, a tényleges kimenetele Y.

Az Y eredmény annyira távol van az előrejelzéstől, hogy a hipotézis hamis. Ezt nevezzük jelentőségnek.

A semleges hipotézis szerint az eredmény X.

A jelentőség azt jelzi, hogy annak a valószínűsége, hogy a megfigyelt eredmény „konzisztens” a várható eredménnyel.

Hipotézist „meg lehet tagadni” a megfigyelt eredményekkel három növekvő magabiztossági szinttel:

  1. Annak a valószínűsége, hogy X megtartja Y-t, legfeljebb 0,05 (szignifikáns)
  2. Annak valószínűsége, hogy X fennáll, figyelembe véve, hogy Y eredményt kapott, legfeljebb 0,01 (nagyon szignifikáns)
  3. Annak valószínűsége, hogy X fennáll, figyelembe véve, hogy Y eredményt kapott, 0,001 (nagyon erősen szignifikáns)

Kétféle hiba jelentkezhet itt:

1. típusú hiba - egy valódi hipotézist elutasítanak 2. típusú hiba - egy hamis hipotézist elfogadnak

Jelentősség mérése

Az esemény kimenetele „közelebb és közelebb” válik a várt érték felé, amelyet úgy definiálhatunk, mint a devianciát. Emlékezzünk arra, hogy egy véletlen változó eseménye a mintában:

A szórás csak:

„Mennyire távol van egy választott tag a várható változótól”

Hát nem néz ki borzalmasan? Nos, ha beletennénk az első képletet, az így nézne ki:

Nem úgy néz ki, mint valaha a legszörnyűbb formula?

az r (s) rész véletlenszerű változó, a populáció részhalmaza. Ez a rész egy véletlenszerű tag várható értéke.

A szórás mindig nem negatív értéket eredményez.

A szórás csak ez a képlet, négyzet alakú.

Valójában általában így írják:

Csak azt akartam látni, hogy milyen receptre válthat a képlet.

A szórás csak:

„Mennyire távol van a legnagyobb (vagy legkisebb) adatpont az átlagtól”.

Q-teszt

Figyelembe véve a kísérlet becsült X eredményét és a tényleges eredményt, Y. Ha tudjuk a környezet eltérését, amelyben a kísérletet beállítottuk, akkor kiszámolhatjuk az értéket:

Ha q> 0,01, akkor X valószínűséggel tartja a legjobbat 0,05 Ha q> 2,33, akkor X a legjobb valószínűséggel tartja 0,01 Ha q> 3,09, akkor X a legjobb valószínűséggel tartja a 0,001-et.

Ha tetszett ez a cikk, lépjen kapcsolatba velem!

LinkedIn | Twitter | Hírlevél