Hipotézis tesztelése

Egy egyszerű és rövid bemutató a hipotézisek teszteléséhez Python segítségével

Kép a következőhöz: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

Ebben a blogban röviden bemutatom a hipotézis tesztelését statisztikai módszerekkel a Python-ban. A hipotézis tesztelése része annak a tudományos módszernek, amelyet mindannyian ismerünk, és ezt valószínűleg már a korai oktatási éveinkben megtanultak. A statisztikákban azonban sok kísérletet végeznek egy populáció mintájával.

„Annak meghatározása, hogy egy megfigyelési minta halmaza milyen számokkal magyarázza a javasolt magyarázatot, általában megköveteli, hogy következtetéseket vonjunk be, vagy amint azt a statisztikusok hívják, a bizonytalanság okához. A bizonytalansággal történő érvelés a statisztikai következtetések középpontjában áll, és általában a Nullhipotézis szignifikancia tesztelésnek nevezett módszer alkalmazásával történik. ” -Ovens.

Ennek a blognak a példájaként a Kaggle-en található európai foci adatkészletet fogom használni, és hipotézis tesztelést fogok végezni. Az adatkészlet itt található.

1. lépés

Tegyen megfigyelést

Az első lépés a jelenségek megfigyelése. Ebben az esetben a következő lesz: Van-e hatása a védelmi agressziónak az átlagosan megengedett célokra?

2. lépés

Vizsgálja meg a kutatást

A jó gondolkodásmód az okosabb munka, nem pedig a nehezebb. Egy jó dolog, ha megfigyeléssel kapcsolatos kutatások már léteznek. Ha igen, segíthet a kérdés megválaszolásában. A már létező kutatások vagy kísérletek ismerete segít jobban megszervezni a kísérletünket, vagy akár válaszolhat a kérdésünkre, és nem kell a kísérletet elvégeznünk.

3. lépés

Készítsen Null hipotézist és alternatív hipotézist

Alternatív hipotézis az oktatott találgatásunk, a nulla hipotézis pedig egyszerűen az ellenkezője. Ha az alternatív hipotézis állítja, hogy két változó között szignifikáns kapcsolat van, akkor a nullhipotézis szerint nincs szignifikáns kapcsolat.

Nullhipotézisünk a következő: Nincs statisztikai különbség a célok között, ha a csapatok 65-nél nagyobb vagy annál nagyobb védelmi agresszióval bírnak, szemben a 65-nél fiatalabb csapatokkal.

Alternatív hipotézis: A statisztikai különbség a célok között megengedett, ha a csapatok 65-nél nagyobb vagy annál nagyobb védelmi agresszióval bírnak, szemben a 65-nél fiatalabb csapatokkal.

4. lépés

Határozzuk meg, hogy hipotézisünk egy- vagy kétutas-teszt.

Egy farkú teszt

"Ha 0,05 szignifikanciaszintet használsz, akkor az egyoldalú teszt lehetővé teszi az összes alfa számára, hogy tesztelje a statisztikai szignifikancia egy irányba." Az egyoldalú tesztre példa lehet: „A 65-nél alacsonyabb agresszivitási fokozatú labdarúgó-csapatok statisztikailag szignifikánsan több célt tesznek lehetővé, mint a 65-nél alacsonyabb besorolású csapatok.”

Kétirányú teszt

„Ha 0,05 szignifikanciaszintet használsz, akkor a kétirányú teszt lehetővé teszi az alfa felének, hogy az egyik irányban statisztikai szignifikanciát teszteljen, az alfa felét pedig a másik irányba. Ez azt jelenti, hogy 0,025 van a teszt statisztikájának eloszlásának minden egyes végén. ”

Kétirányú teszttel mindkét irányban tesztelheti a statisztikai szignifikanciát. Esetünkben mindkét irányban teszteljük a statisztikai szignifikanciát.

5. lépés

Állítsa be a küszöbérték szignifikancia szintjét (alfa)

(alfa-érték): Az a határérték, amelynél a nullhipotézis elutasításával rendben vagyunk. Az alfaérték bármilyen érték lehet, amelyet 0 és 1 között állítunk be. A tudományban azonban a leggyakoribb alfaérték 0,05. A 0.05-ra beállított alfa azt jelenti, hogy rendben vagyunk a nullhipotézis elutasításával, annak ellenére, hogy 5% vagy kevesebb esélye van arra, hogy az eredmények véletlenszerűségből származnak.

P-érték: Az adatok véletlenszerű megérkezésének számított valószínűsége.

Ha kiszámoljuk a p-értéket, és ez 0,03-ra áll, akkor ezt úgy értelmezhetjük, hogy „3% esély van arra, hogy a látott eredmények valójában véletlenszerűségből vagy tiszta szerencséből származnak”.

Kép a Learn.co-tól

Célunk, hogy kiszámítsuk a p-értéket, és összehasonlítsuk az alfa-val. Minél alacsonyabb az alfa, annál szigorúbb a teszt.

6. lépés

Végezzen mintavételt

Itt van a futball nevű adatkészletünk. Tesztelésünkhöz csak két oszlopra van szükség az adatkészletünkben: team_def_aggr_rating és célok_allowed. Ezt a két oszlopot kiszűrjük, majd létrehozunk két részhalmazt a 65-nél nagyobb vagy annál nagyobb védekező agresszióval rendelkező csapatok és a 65-nél alacsonyabb védekező agresszióval rendelkező csapatok számára.

Csak arra, hogy emlékezzünk a hipotézistesztünkre:

A védelmi agresszió hatása átlagosan megengedett célokra. Nullhipotézis: Nincs statisztikai különbség a célok között, ha a 65-nél nagyobb vagy annál nagyobb védelmi agresszióval rendelkező csapatok gólokkal szemben vannak, szemben a 65-nél fiatalabb csapatokkal. Alternatív hipotézis: A statisztikai különbség a célok között megengedett, ha a nagyobb védelmi agressziós osztályzattal rendelkező csapatok megengedettek. 65 vagy annál nagyobb, szemben a 65 év alatti csapatokkal. Kétfarkú teszt Alfa: 0,05

Most két mintaszámunk van, amelyeken statisztikai teszteket végezhetünk. Ezt a lépést megrajzolom a két eloszlást, hogy vizuális képet kapjunk.

7. lépés

Végezzen kétmintás T-tesztet

A kétmintás t-tesztet annak meghatározására használják, hogy a két populáció átlaga egyenlő-e. Ehhez a Python modult fogjuk használni, az úgynevezett statsmodels néven. Nem fogok túl sokat foglalkozni a statsmodellekkel, de itt láthatod a dokumentációt.

8. lépés

Értékelje és zárja le

Emlékezzünk arra, hogy az általunk beállított alfa a = 0,05 volt. Mint a vizsgálati eredményekből kiderül, hogy a p-érték alacsonyabb, mint az alfa-értékeink. Elutasíthatjuk a nulla hipotézisünket, és 95% -os bizalommal elfogadhatjuk alternatív hipotézisünket.

Köszönöm, hogy elolvasta! A hipotézis tesztelésével kapcsolatban részletesebben megnézheti ezt a GitHub csoportos projektet, amelyben itt részt vettem a hipotézis tesztelésében.

Erőforrások:

Sütők, Matthew. „Statisztika és a“ tudományos módszer ”, a YourStatsGuru-ból beolvasva. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Bevezetés a SAS-be. UCLA: Statisztikai Tanácsadó Csoport. innen: https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (elérhető májusban 16, 2019).

Mérnöki statisztikai kézikönyv. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm