Pravděpodobnost

Z Multimediaexpo.cz

Pravděpodobnost náhodného jevu je číslo, které je mírou očekávatelnosti výskytu jevu. Náhodným jevem rozumíme opakovatelnou činnost prováděnou za stejných (nebo přibližně stejných) podmínek, jejíž výsledek je nejistý a závisí na náhodě. Příklady mohou být například házení kostkou nebo losování loterie. Pravděpodobnost události se obecně označuje reálným číslem od 0 do 1. Událost, která nemůže nastat, má pravděpodobnost 0, a naopak jistá událost má pravděpodobnost 1. Někdy se kvůli názornosti pravděpodobnost uvádí v procentech, tedy setinách klasického vyjádření. Jinou používanou mírou pravděpodobnosti je šance (anglicky odds), která je definována jako poměr pravděpodobnosti definované běžným způsobem ku pravděpodobnosti, že nastane opačná událost: šance = p / (1 – p). Šance se často v praxi uvádí jako celočíselný zlomek, například „mám šanci jedna ku jedné, že stihnu vlak“ znamená totéž jako „je pravděpodobnost 0,5, že stihnu vlak“ (a to samé, jako „pravděpodobnost 50%, že stihnu vlak“).

Obsah

Historie

Matematizací pojmu pravděpodobnost se ve své korespondenci zabývali Pierre de Fermat a Blaise Pascal (1654), a to zejména v kontextu hazardních her a kombinatorických problémů. Základy pravděpodobnosti jako matematické discipliny poté dále rozvinuli Christian Huygens, Abraham de Moivre a zejména Jacob Bernoulli. Zdaleka nejvýznamnějším a dodnes inspirativním klasikem teorie pravděpodobnosti byl však Pierre-Simon Laplace. Ve svém monumentálním díle o teorii pravděpodobnosti (Théorie analytique des probabilités) nejen že systematizoval veškeré poznání svých předchůdců, ale dalekosáhle je rozpracoval i aplikoval na téměř všechny oblasti tehdejšího vědeckého poznání - od fyziky až po sociální vědy. V pojetí Laplace představuje pravděpodobnost nástroj pro popis všech problémů s neúplnou vstupní informací. Přínosů Laplace pro teorii pravděpodobnosti je tolik, že ani jejich základní výčet zde není možný. Mimo jiné (znovu)objevil jednu z klíčových formulí teorie pravděpodobnosti, známou dnes jako Bayesův teorém, který navíc zobecnil pro situace s obecnou apriorní informací. Na řešení konkrétního astronomického problému - určení přibližné hmotnosti Saturnu - ukázal Laplace užití pravděpodobnosti na oblast jevů, pro které opakovaný či hromadný výskyt nemá smysl. Viz též Bayesovská teorie pravděpodobnosti. Jako předobraz metody maximální entropie odvodil Laplace rozložení chyb (v podstatě Gaussovu křivku) pro některé konkrétní experimenty. Populárně stylizovaným úvodem k jeho hlavnímu pravděpodobnostnímu dílu byla jeho „filosofická“ esej o pravděpodobnosti. Tento úvod byl sice mnohem rozšířenější a čtivější, než jeho dílo hlavní, vedl však bohužel též k různým zkresleným představám a mýtům o Laplaceově pravděpodobnostním odkazu. V hlavním Laplaceově pravděpodobnostním díle dominuje jím vynalezená (a pro pravděpodobnost velmi významná) metoda generujících funkcí. Laplace pozvedl teorii pravděpodobnosti na úroveň, která pak celé století po jeho smrti nebyla překonána. Novější vývoj sledoval dvě hlavní linie: jedna z nich se zabývala zejména pravděpodobností v kontextu tzv. hromadných jevů a fakticky vedla k výrazně zúženému a v podstatě statistickému pojetí pojmu pravděpodobnosti (tzv. „frekvencionistická“ škola, jejímž hlavním propagátorem byl von Mises). Druhá vývojová linie je charakterizovaná zejména pracemi vědců jako byli Kolmogorov (zejména matematika) a Jaynes (zejména fyzika), které zachovávají obecnost a ducha Laplaceova „bayesovského“ pojetí pravděpodobnosti, staví je však na modernější základy. V pracích Kolmogorova figuruje pravděpodobnost jako teorie normované míry, v pracích Jaynese je interpretována pravděpodobnost jako zobecněná logika. Obě tato pojetí jsou do značné míry ekvivalentní. Unikátnost pravidel teorie pravděpodobnosti, která představovala dlouho otevřenou otázku v základech teorie, značně ujasnili R. T. Cox a E. T. Jaynes. Souběžně ve 20-tém století došlo k „pravděpodobnostní revoluci“ ve fyzice, zejména v kontextu oblastí jako statistická fyzika, kvantová mechanika, teorie chaosu, informační fyzika, atd. Rozvoj poznatků o teorii pravděpodobnosti tak stále není ani zdaleka uzavřen.

Definice

Množinu všech možných výsledků pokusu (experimentu) značíme \(\Omega\). Jednotlivé možné výsledky pokusu značíme \(\omega\). Podmnožiny množiny \(\Omega\) se nazývají (náhodné) jevy.

Klasická (Laplaceova) definice pravděpodobnosti

Nechť náhodný pokus splňuje předpoklady:

  1. Všech možných výsledků je konečný počet.
  2. Všechny výsledky jsou stejně možné.
  3. Všechny výsledky se vzájemně vylučují.

Pravděpodobností jevu A pak nazveme číslo \(P(A) = \frac{m}{n}\), kde \(n\) je počet všech výsledků náhodného pokusu a \(m\) je počet výsledků příznivých jevu A; \(n=|\Omega|\), \(m=|A|\). Diskuse: Je zapotřebí zdůraznit, že Laplace uvedenou definici předložil jen jako jednoduchý a názorný zvláštní případ pro výpočet hodnoty pravděpodobnosti. Mnoho Laplaceových následovníků chybně usuzovalo, že Laplace chápal pravděpodobnost jen pro uvedené zjednodušení. To je však hrubý omyl. Naopak, Laplace předkládá ve svém díle i nástroje pro mnohem obecnější situaci. Například takové, které vyžadují úplnou formu součinového pravidla (de facto Bayesův teorém) a nevyžadují tudíž předpoklad, že všechny výsledky jsou apriori stejně možné. Anebo pro situace, které neumožňují mnohonásobné opakování experimentu ve statisticky stabilních podmínkách. Viz např. Laplaceův problém stanovení pravděpodobné hmotnosti Saturnu. Laplaceovo pojetí pravděpodobnosti je bayesovské - jako zobecnění logiky pro úlohy s neúplnou informací.

Statistická definice pravděpodobnosti

Opakujme náhodný pokus \(N\)-krát, přičemž předpokládejme, že výskyt náhodného jevu \(A\) pozorujeme v \(K\) případech. Číslo \(K\) se nazývá četností jevu \(A\). Poměr \(\frac{K}{N}\) se pak označuje jako poměrná či relativní četnost jevu \(A\). Jestliže se s rostoucím \(N\), tedy se zvyšováním počtu opakování pokusu, relativní četnost \(\frac{K}{N}\) blíží nějakému číslu, pak toto číslo můžeme považovat za pravděpodobnost daného jevu. Diskuse: Statistickou definici pravděpodobnosti označujeme též jako frekvencionistickou. Při velkém počtu pokusů se za jistých předpokladů bude relativní četnost blížit pravděpodobnosti daného jevu. Musí však platit, že statistický experiment probíhá ve statisticky ustálených podmínkách. Dále je zřejmé, že statistickou definici nelze dobře použít, pokud jev není opakovatelný. Klasickou i statistickou definicí tak získáme stejnou hodnotu pravděpodobnosti jen za poměrně silných (i když v praxi dosti častých) předpokladů.

Geometrická definice pravděpodobnosti

Dalším příkladem definice pravděpodobnosti může být tzv. geometrická definice. Zde je definice pravděpodobnosti založena na porovnání objemů, ploch či délek geometrických útvarů. Uvažujme např. dvojrozměrnou situaci. Podle geometrické definice je pak pravděpodobnost jevu \(A\) určena jako \(P(A) = \frac{\omega}{S}\), kde \(S\) je obsah plochy (představující např. všechny možné výsledky náhodného pokusu) a \(\omega\) je celkový obsah plochy (která např. představuje výsledky, při nichž dojde k výskytu jevu \(A\)). Diskuse: Také geometrická definice v uvedené formě vychází z předpokladu, že všechny výsledky náhodného pokusu jsou stejně pravděpodobné (obecněji - že všechny elementy uvažovaného geometrického objektu mají „stejnou váhu“). S pomocí součinového pravidla (Bayesova teorému) ji lze snadno zobecnit i na situace s libovolným apriorním rozdělením pravděpodobností (různou váhou elementů geometrického objektu). Geometrickou definici pravděpodobnosti tedy není nutné svazovat s nějakými opakovanými náhodnými pokusy. Geometrická definice v uvedené zjednodušené podobě je přirozeným východiskem pro definici pravděpodobnosti jako určité normované míry, popsané axiomaticky jazykem teorie množin (Kolmogorovova definice).

Kolmogorova axiomatická definice

Hlavní článek: Kolmogorovovy axiomy pravděpodobnosti

Přiřazení pravděpodobnosti náhodnému jevu popisuje Kolmogorova axiomatická definice pravděpodobnosti z roku 1933. Je-li \(\Omega\) neprázdná množina a \(S\) je σ algebra náhodných jevů definovaných na \(\Omega\), pak pravděpodobností se nazývá reálná funkce \(P(A)\) definovaná na \(S\), která pro \(A\in S\) a \(A_1, A_2, ... \in S, A_i\cap A_j = \emptyset, i\neq j\) splňuje

  1. \(P(A)\geq 0\), tzn. pravděpodobnost každého jevu je nezáporná
  2. \(P(\Omega)=1\), tzn. pravděpodobnost jistého jevu je rovna 1.
  3. \(P\left(\cup_{i=1}^\infty A_i\right) = \sum_{i=1}^\infty P(A_i)\), tzn. pravděpodobnost sjednocení vzájemně se vylučujících jevů (tj. jejich průnik je nemožný jev) je rovna součtu jejich pravděpodobností.

Z uvedených axiomů vyplývá následující:

  • Pravděpodobnost je číslo v intervalu \(\langle 0,1 \rangle\), tzn. \(0\leq P(A)\leq 1\).
  • Nemožný jev má nulovou pravděpodobnost, tedy \(P(\emptyset) = 0\).
  • Pravděpodobnost sjednocení dvou navzájem se vylučujících jevů je rovna součtu jejich pravděpodobností, tzn. \(P(A_1\cup A_2) = P(A_1) + P(A_2)\). Tento důsledek lze zobecnit na sjednocení libovolného konečného počtu jevů, tzn. \(P\left(\cup_{i=1}^k A_i\right) = \sum_{i=1}^k P(A_i)\).
  • Pravděpodobnost opačného jevu je doplněk pravděpodobnosti výchozího jevu do jedné, tzn. \(P(\overline{A}) = 1 - P(A)\).
  • Je-li \(A\) částí jevu \(B\), pak pravděpodobnost jevu \(A\) je menší nebo rovna pravděpodobnosti \(B\), tzn. \(P(A)\leq P(B)\).
  • Je-li \(A\) částí jevu \(B\), pak pravděpodobnost rozdílu jevů \(B-A\) je rovna rozdílu pravděpodobností obou jevů, tzn. \(P(B-A) = P(B)- P(A)\).

Kolmogorova definice je dostatečně obecná, neboť funkce \(P\) může představovat míru na dané σ-algebře. Předchozí definice pak představují pouze speciální případy axiomatické definice. V praxi se však při výpočtu pravděpodobnosti často využívají.

Vlastnosti

  • \(P(A\cup B) = P(A) + P(B) - P(A\cap B)\)
  • \(P\left(\cup_{i=1}^n A_i\right) = \sum_{i=1}^n P(A_i) - \sum_{i=1}^{n-1}\sum_{j=i+1}^n P(A_i\cap A_j) + \sum_{i=1}^{n-2}\sum_{j=i+1}^{n-1}\sum_{k=j+1}^n P(A_i\cap A_j\cap A_k) + \cdots + {(-1)}^{n-1} P\left(\cap_{i=1}^n A_i\right)\)
  • Pro posloupnost jevů \(A_1 \subset A_2 \subset \cdots\) platí \(P\left(\cup_{i=1}^\infty A_i\right) = \lim_{i\to\infty} P(A_i)\)
  • Pro posloupnost jevů \(A_1 \supset A_2 \supset \cdots\) platí \(P\left(\cap_{i=1}^\infty A_i\right) = \lim_{i\to\infty} P(A_i)\)

Podmíněná pravděpodobnost

Náhodný jev určujeme vždy k určitým podmínkám. Nejsou-li na výskyt daného jevu \(A\) kladeny žádné další podmínky, potom pravděpodobnost \(P(A)\) jevu \(A\) označujeme jako nepodmíněnou pravděpodobnost. Pokud se jev \(A\) může vyskytnout pouze tehdy, vyskytl-li se jev \(B\), jehož pravděpodobnost je \(P(B)>0\), pak hovoříme o podmíněné pravděpodobnosti jevu \(A\) a označujeme ji \(P(A|B)\). Při \(P(B)>0\) lze pravděpodobnost jevu \(A\), která je podmíněna výskytem jevu \(B\) vyjádřit jako

\(P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{|A \cap B|}{|B|}\)

Máme-li náhodné jevy \(A_1, A_2, ..., A_n\), pak pravděpodobnost jejich průniku je

\(P\left(\cap_{i=1}^n A_i\right) = P(A_1)P(A_2|A_1)P(A_3|A_1\cap A_2)\cdots P\left(A_n|\cap_{i=1}^{n-1}A_i\right)\)

Speciálním případem tohoto vztahu je pravděpodobnost průniku dvou jevů \(A, B\), tedy pravděpodobnost, že jevy \(A, B\) nastanou současně. Podle tohoto vztahu je tato pravděpodobnost rovna součinu pravděpodobnosti jednoho jevu a podmíněné pravděpodobnosti jevu druhého, tzn.

\(P\left(A\cap B\right) = P(A)P(B|A) = P(B)P(A|B)\)

Nezávislé jevy

Řekneme, že jevy \(A\) a \(B\) jsou nezávislé, pokud jev \(A\) nezávisí na výskytu jevu \(B\) a současně pravděpodobnost výskytu jevu \(B\) nezávisí na jevu \(A\). Pokud pravděpodobnost výskytu jevu \(A\) nezávisí na výskytu jevu \(B\), pak musí platit \(P(A|B)=P(A)\). Podle vztahu pro podmíněnou pravděpodobnost tedy platí

\(P(A \cap B) = P(A) \cdot P(B)\).

Vzhledem k tomu, že ani výskyt jevu \(B\) nezávisí na výskytu jevu \(A\), musí současně platit \(P(B|A)=P(B)\), odkud však opět získáme vztah \(P(A\cap B) = P(A)P(B)\). Uvedené tvrzení lze obrátit, tzn. jestliže platí \(P(A\cap B) = P(A)P(B)\), pak jsou jevy \(A,B\) nezávislé. Podobně řekneme o jevech \(A_1, A_2, ..., A_n\), že jsou nezávislé, pokud platí

\(P(A_1\cap A_2\cap\cdots\cap A_n) = P(A_1)P(A_2)\cdots P(A_n)\)

Nezávislost splňující tento vztah bývá označována jako skupinová nezávislost jevů. Každý jev je totiž nezávislý nejen na ostatních jevech, ale je také nezávislý na (libovolných) průnicích ostatních jevů. Nezávislost jevů po dvou je typ nezávislosti, kdy každý jev je nezávislý na ostatních jevech, nemusí však být nezávislý na průnicích jiných jevů.

Příklad

Mějme čtyři krabice, přičemž každá krabice má víko a uvnitř je koule. První krabice je bílá, uvnitř je bílá koule a víko krabice je také bílé. Druhá krabice je bílá, uvnitř je černá koule a víko je také černé. Třetí krabice je černá, uvnitř je černá koule a víko je bílé. Poslední krabice je černá, uvnitř je bílá koule a víko je černé. Za náhodný jev \(A\) budeme považovat, že náhodně vybraná krabice je černá, za jev \(B\) vezmeme, že náhodně vybraná krabice obsahuje černou kouli, a jevem \(C\) bude, že náhodně vybraná krabice má černé víko. Z předchozího lze zjistit

\(P(A) = P(B) = P(C) = \frac{1}{2}\)

Pro současný výskyt dvojic jevů platí

\(P(A\cap B) = P(A\cap C) = P(B\cap C) = \frac{1}{4}\)

Vzhledem k tomu, že neexistuje žádná černá krabice s černou koulí a černým víkem, bude

\(P(A\cap B\cap C) = 0\)

Je tedy vidět, že náhodné jevy \(A,B,C\) jsou po dvou nezávislé, avšak nejsou nezávislé.

Vzorec úplné pravděpodobnosti

Jestliže jevy \(A_1, A_2, ..., A_n\) tvoří úplný systém jevů, pak pravděpodobnost libovolného jevu \(B\) lze určit pomocí tzv. vzorce úplné pravděpodobnosti

\(P(B) = \sum_{i=1}^n P(A_i)P(B|A_i)\)

Bayesův vzorec

Mějme úplný systém jevů \(A_1, A_2, ..., A_n\). Jestliže je výsledkem náhodného pokusu jev \(B\), pak k určení podmíněné pravděpodobnosti jevu \(A_i\) vzhledem k jevu \(B\) použijeme Bayesův vzorec, který zapisujeme

\(P(A_i|B) = \frac{P(A_i)P(B|A_i)}{\sum_{k=1}^n P(A_k)P(B|A_k)}\)

pro \(i=1,2,...,n\).

Rozdělení

Rozdělení pravděpodobnosti je funkce, která přiřazuje pravděpodobnosti událostem nebo tvrzením. Pro každou sadu událostí existuje mnoho způsobů, jak přiřadit pravděpodobnost, takže výběr rozdělení odpovídá různým předpokladům o události. Existuje několik způsobů, jak vyjádřit rozdělení pravděpodobnosti. Nejobvyklejší je uvést hustotu rozdělení pravděpodobnosti; samotná pravděpodobnost jevu se pak získá integrací funkce hustoty. Distribuční funkci lze také uvést přímo. Rozdělení pravděpodobnosti nazveme diskrétní, pokud je definováno na spočetné, diskrétní množině, jako je podmnožina celých čísel. O spojitém rozdělení mluvíme v případě, že existuje spojitá distribuční funkce, např. polynomická nebo exponenciální. Většina rozdělení, které mají praktické využití, jsou buď diskrétní nebo spojité, ale existují i rozdělení, která nespadají do žádné z těchto dvou kategorií. Důležitá diskrétní rozdělení jsou například jednoduché rozdělení, Poissonovo, binomické, negativní binomické a Maxwellovo–Boltzmannovo. Mezi důležitá spojitá rozdělení patří normální rozdělení, rozdělení gama, Studentovo rozdělení a exponenciální rozdělení. Náhodné veličiny jsou proměnné, jejichž hodnoty při konstantních podmínkách závisí na náhodě, přičemž každá z těchto hodnot vystupuje s určitou pravděpodobností. Náhodné veličiny mohou být diskrétní nebo spojité a odpovídá jim diskrétní nebo spojitá distribuční funkce.

\( F(x) = \Pr\left[ X \le x \right] \)

Tato funkce je monotónní, neklesající, má nejvýše spočetně mnoho bodů nespojitosti a je spojitá zleva. Diskrétní distribuční funkce je určena náhodnou veličinou, která je diskrétní, tedy může nabývat jen konečně mnoha hodnot xi. Hodnoty xi jsou body nespojitosti a příslušné pravděpodobnosti jsou skoky disktribuční funkce v těchto bodech. \(F(x) = \Pr \left[X \le x \right] = \sum_{x_i \le x} p(x_i)\) pro \(i = 1, 2, ...\,\!\). Spojité náhodné veličině odpovídá spojitá distribuční funkce. \( \Pr \left[ a \le X \le b \right] = \int_a^b f(x)\,dx \) kde f(x) je funkce hustoty pravděpodobnosti.

Související články