20 januára 2012

Ajkina úloha

Moja doktorandka Ajka Bachratá mi včera zadala takúto domácu úlohu:

Vieme, že v istej skupine 1000 ľudí je aritmetický priemer IQ presne 100 a rozptyl je presne 900. Aký je maximálny možný počet ľudí v tejto skupine, ktorí majú IQ aspoň 150?

Ako svedomitý školiteľ som si svoju domácu úlohu vyriešil a keďže sa mi celkom páčila, rozhodol som sa, že sa o ňu podelím aj s Vami. Riešenie si nevyžaduje žiadnu náročnú matematiku, no súčasne nie je úplne priamočiare.

Poznámka: V našej úlohe nie je úplne jednoznačne povedané čo sa myslí pod pojmom "rozptyl". Keď si pozrieme príslušnú stránku wikipedie, tak zistíme, že do úvahy prichádzajú dve mierne odlišné definície: "vychýlený výberový rozptyl" a "nevychýlený výberový rozptyl". Ak by mal štatistik len súbor reálnych dát

y1,y2,...,y1000

bez znalosti presnej strednej hodnoty rozdelenia, z ktorého dáta pochádzajú, skoro určite by použil "nevychýlený výberový rozptyl". Avšak v našom príklade sa dohodnime, že kvôli jednoduchosti riešenia budeme pod pojmom "rozptyl" uvažovať "vychýlený výberový rozptyl", čiže aritmetický priemer čísiel

(y1-100)2,(y2-100)2,..., (y1000-100)2.

Ak by sme náhodne vybrali 1000 ľudí z populácie, tak ich priemerné IQ bude skutočne okolo 100, ale výberový rozptyl bude oveľa menší ako 900 (pre štandardizované testy bude približne 225). Skupina zo zadania by musela byť teda veľmi zvláštna...

10 komentárov:

ajka povedal(a)...

Aby som to ešte trochu upresnila, tak spomínaná úloha nie je priamo odo mňa, ale od mojej mamy. Doma sme sa nevedeli dohodnúť na jedinom riešení, tak som to posunula ďalej..

goober povedal(a)...

Mne ich vychádza 264 (čo by malo byť aj teoretické maximum, ak som sa nesekol), napríklad takto:
1 x 161
1 x 158
1 x 152
261 x 150
48 x 83
685 x 82
2 x 77
1 x 71

Radoslav Harman povedal(a)...

goober: Fajn!

Väčším problémom je však dokázať, že daný počet je naozaj teoretické maximum...

goober povedal(a)...

Všeobecnejšie, horná hranica na počet "géniov" s IQ o G väčším ako priemer (t.j. IQ väčšie ako 100+G), pri celkovom počte kandidátov N a (vychýlenom výberovom) rozptyle D je rovná N/(1+G^2/D).

Táto hranica je "tesná", pokiaľ nám nevadia škaredé čísla. V Ajkinej úlohe som ale predpokladal, že IQ je vždy vyjadrené celým (a dokonca kladným) číslom, a tak bolo v tom mojom riešení hore treba trochu šachovať s hauznumerami.

Dôkaz formulky zatiaľ prenecháme čitateľovi :-)

Radoslav Harman povedal(a)...

goober: Každopádne Tvoja formulka (počkajme si, či niekto nájde dôkaz), ktorá je presná pre "neceločíselné" počty géniov, dáva hodnotu 264,705..., čo už implikuje, že Tvoje riešenie 264 je správne pre celočíselnú verziu úlohy.

"Neceločíselná" verzia tohto optimalizačného problému sa dá považovať za spojitú relaxáciu celočíselnej verzie problému. Situácia je trochu podobná ako pri riešení "ťažkých" problémov celočíselného programovania pomocou "ľahších" problémov klasického lineárneho programovania (pozri tu).

goober povedal(a)...

Veru tak, ja som tiež najprv našiel formulku, zaokrúhlil výsledok a potom šamanil a numerolodžil, kým sa to do tej 900ky netrafilo presne :-)

kacka povedal(a)...

Ja si trochu prihrejem polievočku na Vašom blogu pan kolega, ak dovolíte. Som Ajkina mamina a učila som v zimnom semestri predmet FVPS, Formalizmus vo vyučovaní pravdepodobnosti a štatistiky na ZŠ a SŠ. Chceli sme v predmete študentom ukázať, že formálne vedomosti sú síce užitočné, ale je dobre vedieť, čo s nimi.
To, že vieme disperziu vypočítať, je síce dobré, ale lepšie je, keď vieme aj to, načo je dobrá.


Súčasťou skúšky preto bola táto úloha, aj keď v nej bola ešte navyše podmienka, že IQ nie je nižšie ako 50.

Radoslav Harman povedal(a)...

Zdravim :) Pochopitelne disperzia je absolutne klucova pre vela tvrdeni a technik v pokrocilejsej pravdepodobnosti a statistike, ale jej vyuzitie sa da vysvetlit aj pre studentov, ktori poznaju len jej definiciu (dokonca len definiciu vyberovej disperzie) - v zasade na ohranicenie pravdepodobnosti "velkych odchyliek" (v podobnom zmysle ako Cebysevova nerovnost).

Tato uloha je preto velmi fajn, no napriek tomu si myslim, ze uplne precizny matematicky dokaz optimality uvedeneho riesenia je pomerne narocny (predovsetkym zdovodnenie, ze pozadovane "extremalne" rozdelenie je koncentrovane do dvoch bodov, ak chapeme ulohu v "relaxovanom" spojitom zmysle v sulade s diskusiou vyssie).

Iny sposob ako presvedcit studentov, ktori poznaju len definiciu, ze disperzia rozdelenia je dolezita charakteristika, je "fyzikalny": Ako vieme, stredna hodnota sa da interpretovat ako tazisko sustavy hmotnych bodov a disperzia je umerna kinetickej energii tejto sustavy rotujucej okolo taziska konstantnou uhlovou rychlostou.

Menej konkretna, ale zaujimava interpretacia je aj "geometricka": disperziu mozeme chapat ako druhu mocninu normy nahodnej premennej, ak chapeme nahodne premmenne s nulovou strednou hodnotou ako vektory. V tejto interpretacii je kovariancia skalarnym sucinom dvoch nahodnych premennych a korelacia je kosinus "uhla" medzi dvomi nahodnymi premennymi.

goober povedal(a)...

Táák, už viem dokázať niekoľko ďalších tvrdení o tom celočíselnom prípade:

- Pokiaľ N a D sú súčasne nepárne, úloha nemá žiadne riešenie.

- Tá moja horná hranica nie je vždy tesná. Napríklad pre N=1000, D=900, G=40, formulka predpovedá hornú hranicu 360, ktorá je ale nedosiahnuteľná v celých číslach.

- Pre N väčšie alebo rovné 8 viem dokázať existenciu skoro-optimálneho celočíselného (ale nie nutne kladného) riešenia, v ktorom je aspoň dolná-celá-časť (N-8)/(1+G^2/D) géniov (IQ 100+G alebo viac). Napríklad v prípade z Ajkinho zadania takto dostávame zadarmo 262, namiesto skutočného optima 264.

Radoslav Harman povedal(a)...

goober: Tak aj v tejto úlohe si sa dostal oveľa ďalej ako ja (hoci ja som sa tejto úlohe nevenoval veľmi dlho). Tvoj potenciál by sa dal určite využiť aj na riešenie serióznych, ťažkých matematických problémov a slušnú kariéru v akademickom svete...