17 januára 2008

Smerujeme k individualizovanej karme článkov?

Otváram si blog.sme a vidím, že za posledný deň pribudlo vyše stovky nových príspevkov. Všetky sa samozrejme nedajú prečítať; dokonca len prejsť názvami je pomerne zdĺhavé. Rozmýšľam, ako si mám vybrať článok, ktorému obetujem svoj čas a nádej vkladám do článkov pod hlavičkou "Top karma". Ale chyba lávky. Články s top karmou určite zaujmú veľa ľudí, niektoré sa naozaj príjemne čítajú, ale žiadny z nich nie je presne to čo hľadám.

Je jasné, že nie každého zaujíma to, čo je vo všeobecnosti najpopulárnejšie. Ja osobne by som chcel čítať predovšetkým príspevky, ktoré viac stavajú na poznaní ako na emóciách. (Všimnite si, že emócie akoby boli nutnou podmienkou na dosiahnutie masovej obľúbenosti a to nielen na blogoch.) Kontroverzné a umelecky ladené blogové príspevky sú obvykle v poriadku, nemám nič proti ich publikovaniu, ale aj kockáč ako ja je predsa človek, ktorý má právo na to svoje počítaníčko. Či nie?

Riešenie by mohlo byť v inom systéme hodnotenia článkov; v čomsi, čo pracovne nazvem individualizovaná karma, skrátene i-karma, čiže hodnotenie príspevkov ušité na mieru každému užívateľovi zvlášť.

Predstavme si napríklad, že každý registrovaný užívateľ môže hodnotiť článok na stupnici od 0 do 10 bodov. Ja sám tiež budem články takto hodnotiť a po istom čase bude možné určiť, ktorí ľudia majú podobný vkus ako ja - totiž tí, ktorých hodnotenia článkov sa "veľmi nelíšia" od mojich hodnotení. Takýmto spôsobom bude teda možné vypočítať číselnú odchýlku, akúsi nepodobnosť, či "vzdialenosť vkusov" medzi dvojicami užívateľov. I-karma nejakého článku by potom mohla byť váženým priemerom hodnotení daného článku, pričom váhy by boli určené tak, že čím má niekto podobnejší vkus tomu môjmu, tým väčšiu váhu bude mať práve jeho hodnotenie článku na výpočet mojej i-karmy. Inými slovami, ak má niekto tendenciu hodnotiť články podobne ako ja, tak jeho hlas by mal mať väčší vplyv na moje rozhodnutie, či si daný článok mám prečítať, alebo nie.

Viem, že je to návrh, ktorý by bolo potrebné premyslieť do detailov; pričom niektoré sú technicky komplikované. Napríklad ma nevie napadnúť ako obísť to, že by sa musela uchovávať celá matica vzájomných vzdialeností vkusov registrovaných užívateľov, čo môže byť nielen náročné na pamäť, ale aj na vysoký výpočtový výkon spojený s priebežnou aktualizáciou údajov. Samozrejme, bolo by tiež treba vhodne navrhnúť matematickú špecifikáciu na výpočet vzájomných vzdialenosti medzi vkusom užívateľov a podobne. Som však presvedčený, že všetky tieto problémy by sa dali vyriešiť.

A ešte jedna poznámka na záver. V systéme s i-karmou (a možno aj v už existujúcich systémoch) by bolo lepšie vyzvať užívateľov na hodnotenie typu "Do akej miery ste spokojní s tým, že ste si tento článok prečítali". V súčasnosti používané výzvy zvádzajú skôr k hodnoteniu podľa miery súhlasu s obsahom, čo je prakticky nezávislé na kvalite daného článku. Vážnym rizikom systému i-karmy je totiž to, že môže viesť k vytváraniu oddelených a navzájom sa neustále vzďaľujúcich názorových klubov. Podľa mňa je však veľmi prospešná aj kultivovaná konfrontácia takých názorov, ktoré sú diametrálne odlišné.

pošli na vybrali.sme.sk pošli do vybrali.sme.sk

12 komentárov:

  1. dobry den,
    na "individualnej karme" je z velkej casti zalozeny cely web2.0 teda minimalne je to jeho asi jedina zaujimava feature -- ak chcete pocuvat hudbu, ktoru pocuvaju ludia s vkusom podobnym vasmu, tak si pustite http://last.fm , po par sto vypocutiach vam system priradi susedov s podobnym vkusom a odporuca hudbu ktoru pocuvaju oni, pricom samozrejme mnozinu susedov neustale obnovuje...
    k tomu ako takyto system efektivne vytvorit sa da asi najst celkom dojst informacii medzi blogmi a pracami ucastnikov milion dolarovej sutaze Netflix prize, ktorej cielom je co najkvalitnejsi odhad filmoveho vkusu na zaklade predchadzajucich hodnoteni...
    uz len najst niekoho kto by toto lokalne pre sme.sk naprogramoval, alebo niekoho zo sme kto by bol ochotny takyto system prebrat.
    (isto sa tu najde ktosi kto vie ci cosi takto sikovne este nevzniklo na poli blogovych prispevkov, knihy, filmy a hudba sa takto uz hladat da, tak preco nie blogy...)

    OdpovedaťOdstrániť
  2. Ten ich system hodnotenia je celkovo chory. Uz dlhu dobu blog.sme.sk nesledujem, ale mam pocit, ze sa hodnotiace postupy prilis nezmenili. Sucasne hodnotenie karmou je dost netradicne pre web - implicitne predpoklada, ze sa mi clanok nepaci. Navstevnici web stranok su vsak lenivy a aj ked sa im clanok paci, tak castokrat nekliknu na "zvys karmu" - to musi algoritmus zohladnit a to uz je chyba. Aj ked clanok povazujem za fakt zly, tak nemam moznost povedat "karma dole". To ale povazujem za mensi problem. Horsie je (ako ste uz spomenul), ze uzivatelia nerozlisuju medzi "dobry clanok" a "suhlasim". Kvalitny clanok, ktory naburava moje presvedcenie, (podvedome) neohodnotim kladne. Naopak - zly clanok, ktory "ma pravdu", okarmim. Karma je ok pokial hladam globalne najakceptovanejsie clanky.

    Navrhovana i-karma je... tazky problem. Hned ma napadli dve stranky, ktore sa pasuju s rovnakym problemom - google.com a digg.com. Kazda z opacnej strany. Digg je podobny ako vybrali.sme.sk (popravde je vybrali.sme.sk kopiou Digg-u), s tym rozdielom, ze tam je ovela viac ludi a tym padom vacsia motivacia oklamat system. Digg sa prave snazi odhalit skupinky, ktore maju rovnake chute a ich hodnoteniam prisudit ovela mensiu vahu ako ostatnim. Google zase (velmi zjednodusene) hodnoti stranky vyznamne podla toho, kolko inych stranok na ne odkazuje (linkou). V pripade i-karmy je linkou pridanie karmy a rozumny predpoklad je, ze ked uzivatel pridal karmu zhruba rovnakym clankom ako ja, tak ten zvysok ("moje" minus "zhruba") sa mi bude pacit tiez. Problem je, ze pri blog.sme.sk nie je u bezneho navstevnika nic ako "priatelia" od coho by som sa mohol odrazit (prehladavat vsetkych uzivatelov pre vsetkych uzivatelov... fuf, narocne). Totiz, je asi rozumny predpoklad, ze moji priatelia maju podobne zaujmy ako ja a teda ich zaujimaju podobne clanky, alebo ma minimalne zaujima to, co zaujima ich. Na druhej strane, v blog.sme.sk si pamatam, ze najaktivnejsi uzivatelia boli samotni bloggeri. Teda by som sa snazil odrazit tam - je dobra sanca, ze ma bude zaujimat to co sa pacilo autorovi clanku, ktoreho clanok sa paci mne. Kazdopadne, mam pocit, ze tak skoro sa taketo nieco na blog.sme.sk neobjavi...

    R. Vasko

    OdpovedaťOdstrániť
  3. Zaujímavý spôsob na toto používa napr. Google v niektorých svojich aplikáciách (tušímže personalizované news). V podstate chceme k človeku nájsť ľudí s podobným vkusom (=v minulosti čítali podobnú množinu článkov) a ponúknuť nášmu hrdinovi články, ktoré ich zaujali. A toto sa efektívne dá dosiahnuť jednoduchým trikom: zvolíme si náhodné usporiadanie všetkých článkov a všetkých ľudí zahešujeme, pričom hash(človek) = id prvého článku v našom poradí, ktorý čítal. Toto spôsobí, že prob(hash(človek1)=hash(človek2)) je úmerná podobnosti ich vkusu -- a teda ľudia s rovnakým hashom ako ja sú pomerne dobrá reprezentatívna vzorka, ktorej samplovaním sa dá zistiť, čo sa mi asi bude páčiť. (A rieši to problém priveľkej časovej a pamäťovej zložitosti, čo spomínaš v piatom odseku.)

    OdpovedaťOdstrániť
  4. OK chalani. Vase fundovane komentare su hodnotnejsie ako moj povodny prispevok :-)

    Trochu som pobrowsoval a zistil som, ze mate samozrejme pravdu - velmi podobnymi napadmi ako je i-karma sa to na webe len tak hemzi, dokonca zakladna myslienka mojej i-karmy ma uz aj svoje meno Collaborative filtering. Podobne myslienky vyuziva vela websitov poskytujucich hudbu, knihy, spravy, alebo vyhladavanie. (O blogoch som sa nedocital, ale aj v tejto oblasti je silny predpoklad, ze to uz niekto niekde implementoval a stacilo by len trochu dlhsie hladat a na nieco take by som natrafil.)

    Je zrejme, ze individualizovane hodnotenie (prakticky cohokolvek) je uzitocny napad a budeme sa s nim v roznych formach stretavat stale castejsie. A mozno aj na SME sa o nieco take pokusia, aj ked zacinam mat trochu obavy, ze na to nemaju dostatocne siroku citatelsku zakladnu. (Ale aspon cosi by s tym hodnotenim asi naozaj mali robit.)

    misof: Co sa tyka toho nahodneneho mechanizmu vyberu ludi s podobnym "vkusom", to je pekny trik; mozno vhodny aj ako priklad k mojim prednaskam z pravdepodobnosti pre informatikov :)

    OdpovedaťOdstrániť
  5. Individuálna karma je úplne skvelý nápad... ale nemá zmysel čakať na to, až ju zavedú na webe SME. Dá sa zaviesť na osobitnom webe, ktorý len bude linkovať cudzie články, podobne ako Digg. Výhoda: dostanú sa tam aj články z iných webov.

    OdpovedaťOdstrániť
  6. Poznam na to jeden pomerne jednoduchy algoritmus.

    Vola sa to spreading activation search. Sikovnym cachovanim sa da dosiahnut aj to, ze to netreba rekurzivne furt preratavat.

    Napriklad tu su ludia zoskupeni podla toho ako casto prispievaju do rovnakych tem na fore.

    http://forum.vodaci.info/relations/

    Viem to spravit nad hocicim? Kto to kupi? ;-)

    OdpovedaťOdstrániť
  7. Hodnotenie kvality textov výrazne inteligentnejšie ako na blog.sme.sk, možno niečo podobné, ako navrhuješ, sa tento rok na sme.sk určite objaví, aj keď to asi nebude (najskôr) na blogoch.
    Keby to nebolo tak extrémne ťažké zrealizovať, asi by sme dnes všetci nepoužívali Google, ale existovali by (oveľa skôr) aj iné vyhľadávače, ktoré dokážu takéto dynamické vzťahy medzi textami zachytiť.
    Ak máš chuť sa tomu bližšie venovať alebo máš nejaké konkrétne nápady, tak sa ozvi, matematikov v tíme nikdy nie je dosť :)
    Tomáš Bella, SME

    OdpovedaťOdstrániť
  8. moja obľúbená stránka s kolaboratívnym filtrovaním pre filmy
    (a jediná ktorú naozaj používam)
    je tento školský projekt:
    http://movielens.umn.edu/

    od google asi zdroják tomáš bella nedostane, ale napr. títo ľudia o tom píšu články..

    OdpovedaťOdstrániť
  9. Idea je to pekná, dostať na prvých miestach články, ktoré sú v súlade s mojim vkusom a záujmami. Ale mňa mrazí pri pomyslení, že by mi informačný obsah selektoval a niektoré informácie do popredia pretláčal nejaký algoritmus (hoci som tiež absolvent MMF UK :)) Pre mňa je oveľa príjemnejšie, keď sa to deje "náhodou". Pričom samozrejme tiež nečítam ani všetky nadpisy, ale zapájam svoje predsudky. T.j. minulé skúsenosti. Povedzme meno autora, informačný zdroj, odkaz z obľúbeného informačného zdroja. Google je fajn, naozaj toho veľa nájde, ale napríklad na niektoré veci je úplne nevhodný. A keď si človek vypestuje závislosť na nejakom algoritme, ktorý bude považovať za "dokonalý", obmedzí svoju schopnosť selektovať, vyberať a k niektorým informáciám sa nemusí vôbec dostať. Môže sa mu zdať, že neexistujú, že sú nedôveryhodné, keď mu ich neponúkol "superalgoritmus".

    OdpovedaťOdstrániť
  10. Dakujem za hodnotne komentare a odkazy.

    Viliam, johno, Michal (ahoj!): collaborative filtering (pricom "spreading activation" je
    jedna zo zaujimavych technik na CF, ktora by asi bola pouzitelna aj pre mensi pocet uzivatelov) ma ohromne siroke pouzitie. Pomocou CF je nielen mozne odporucit niekomu ake blogove prispevky by si mohol precitat, alebo ake filmy by sa mu mohli pacit na zaklade jeho doterajsieho hodnotenia a hodnotenia inych uzivatelov, ale napriklad aj aky vyrobok odporucit na kupu v internetovych obchodoch a podobne (napriklad som si skoro isty, ze v pozadi toho, co nam individualne odporuca Amazon, bezi nejaky CF algoritmus). Mozno by sa naozaj dala zalozit nejaka nezavisla komercna sluzba, ktora by CF ponimala takto siroko, vyvinula by si vseobecne pouzitelne algoritmy a zabezpecovala by pre rozne www-sity idividualizovane hodnotenie cohokolvek. Na temu CF je dostupnych skutocne uz pomerne vela odbornych clankov: vaznejsi zaujemcovia si mozu pozriet napriklad tieto.

    perohryz: Co sa tyka mojej potencialnej angazovanosti pre sme.sk, v zasade sa nebranim aplikaciam (naprogramoval som napr. podstatnu cast www.orsr.sk), ale momentalne mam vela inych rozrobenych casovo narocnych projektov na skole a z IT technologii som uz trochu vypadol. Ale mozno by sa nasli nasi studenti, obvykle velmi sikovni (v modernych IT technologiach je kazdopade vacsina z nich na tom ovela lepsie ako ja :-), ktori by s Vami radi spolupracovali napriklad v ramci svojej diplomovky. Inak sme.sk je velmi fajn, hoci stale je co zlepsovat, ako vo vsetkom. Nech sa Vam dari aj nadalej.

    Tibor: Suhlasim. Moj posledny odstavec v hlavnom clanku chcel vyjadrit cosi podobne ako Ty. Mali by sme samozrejme byt vystavovani aj inym nazorom a vkusom, neuzavriet sa uplne do uzkej supiny podobnych ludi. Obcasne a mozno dokonca caste nahodne zabludenie kamsi inam je prospesne. Urcite musi byt zachovane cele spektrum roznych moznosti pristupu k informaciam, pricom kazdy si vyberie to, co mu najviac vyhovuje. Nikto by nemal sa snazit niekomu vnutit algoritmus, ktory by mu podsuval isty specificky typ informacii, ani by nemal nastojit na tom, ze orientovat sa na zaklade takehoto algoritmu je nutne to najlepsie; kazdy algoritmus na triedenie komplexnych informacii ma nutne aj svoje nevyhody. Ale na druhej strane ak mame ohromne mnozstvo poloziek, napriklad na Amazone su stovky tisic knih, tak nejaky odporucaci, alebo aspon vyhladavaci algoritmus je nielen vhodny doplnok, ale v podstate nevyhnutnost.

    OdpovedaťOdstrániť
  11. Samozrejme by pri danom prirastku clankov na sme.sk celkovo bol vhodny filter v style "co citaju ludia, ktori citaju to, co ja" a to vratane RSS :-)

    skusmo som si nedavno vlozil do citacky hlavne RSS zo SME a tam toho pribudalo tolko, ze to podla mna nie je schopny precitat nikto :-) Neviem, ci SME.sk ma RSS "titulky", kde sa toho "premelie" menej, no uz tu by sa zmensenie poctu poloziek "za hodinu" naozaj hodilo :-)

    zaujimavy clanok, zaujimavy namet a ked Tomas Bella povie, ze sa tym zaoberaju, tak tento rok s niecim urcite vybehnu :-)

    OdpovedaťOdstrániť
  12. Dobry den opat po case a najma po skuskach :-)

    Mozno o dost jednoduchsie a lahsie realizovatelne ako ste navrhli by bola uplne jednoducha metoda, ktora mi napadla ked som nad tym chvilku premyslal. Kazdy clovek (ci uz bloger alebo diskuter, ktory moze hodnotit) by mal vyplneny zoznam niekolkych klucovych slov, ktore ho zaujimaju (napr. matematika, statistika, veda). Ak by sa v clanku, ktory hodnoti objavovali tieto slova, mal by jeho hlas vyssiu vahu. Tym by sa poriesilo, ze ludia, ktori sa do veci nerozumeju maju rovnaku vahu ako odbornici.

    Tento system by bol zaujimavy aj preto, ze napriklad "Vyber SME" by automaticky zaradoval prioritne clanky, ktore obsahuju Vase klucove slova, cim by filtroval to obrovske mnozstvo clankov.

    Samozrejme je to este nedomyslene, ale ako myslienka do plena myslim obstojne

    OdpovedaťOdstrániť