This is version . It is not the current version, and thus it cannot be edited.
[Back to current version]   [Restore this version]

Jatkot tänne.


Mutuun luottaminen luokituksissa yleisenä asiana sinänsä, luotettavan aineiston puutteessa on hyvin hankala käyttää muutakaan. Enkä minä ainakaan ole vielä nähnyt ensimmäistäkään realistista syytä uskoa että muusta kuin turnaustuloksista olisi saatavissa luotettavaa materiaalia.

Erityisenä ongelmana ovat materiaalin vertailukelpoisuus (turnaukset vastaan muu data) ja pelaajien luokitusten muutokset ajan funktiona. Vertailukelpoisuusvaatimuksen pitäisi olla itsestään selvyys, mutta niin kauan kuin aikatekijä jätetään huomiotta -- ja se pitää huomioida kaikin osin joka osa-aineistossa -- meikäläinen pitää materiaalia riittävän epäluotettavana ettei siitä olisi kuin viitteiksi.

Lisäviitteitä taas ei erityisesti tarvita, koska turnaustulokset itse antavat runsaasti viitteitä siihen, että ketä pitää tarkkailla. Saattaa hämmästyttää asiaa tuntemattomia, mutta vastustaja-analyysi ja tulosanalyysi useamman turnauksen yli ovat rutiinitoimenpiteitä luokituskomitean arvioidessa korotustarpeita, erityisesti vahvimpien pelaajien oslta. Ja ovat olleet sitä jo vuosikausia.

Sinänsä kehottaisin Markkua varovaisuuteen, kun tutkaillaan eri turnausten parituksia, ja erityisesti Takapotkun kanssa. Nykypäivänä kaikki turnaukset joita meikäläinen parittaa sisältävät ainakin joitakin kommervenkkejä ja käsiparituksia, joiden takoitus on joko paritusten optimointi samanlaisia turnauksia silmällä pitäen tai jonkun muun sekundääripäämäärän saavuttaminen kuten esimerkiksi luokitusdatan maksimointi. Näitä en ole kuitenkaan koskaan tullut dokumentoineeksi, eikä niistä juuri tule julkisesti kerrottuakaan. Tosiasia kuitenkin on, että meikäläinen on tyypillisesti virittänyt paritusta hieman, etenkin kun en oikein pidä Gerlachin ohjelmaansa koodamista piilopäämääristä. Täynnee vielä huomauttaa, että nämä peukaloidut paritukset eivät yleensä huononna paritusta sinänsä, vaan pikemminkin tarpeen osuessa meikäläinen yliajaa Gerlachin piilopäämäärät joiltain osin omillaan.

Samoin olisin Markkuna varovainen yleistämään EGF:n voittotodennäköisyystaulukkoa, joka toki on sekä luotettava että tilastollisesti vahva aineisto, koska on tuntematonta että kuinka realistisia ovat pelaajien luokitukset heidän tullessaan turnaukseen. Outlierien määrän ollessa tuntematon, erityisesti aineiston rajatapauksista (isot luokituserot peleissä) tehdyt väitteet ovat hyvin riskialttiita.

Toki on huomattava että ainakin kaksi markun arvauksista/väitteistä osui oikeaan: Petri on ollut pitkään pelaamatta, ja että korotusten selvittäminen kiireellä huonontaa tuloksia, erityisesti koska/jos/kun turnauspaikalla ei ole käytettävissä turnaustuloshistoriaa (esmes Internet-yhteyttä.) Itse asiassa ei ollut ollenkaan hullumpi asia etten PoGo Openissa julistanut korotuksia paikan päällä, vaan ne löytyivät vasta tänne viedystä tuloslistasta.

Huomautan vielä, että katson aiemman väitteeni tasoitusturnausten luokitusmateriaalia huonontavasta luonteesta oikeaksi ja PoGo Openin sekä Jaakko Munkin vahvistamiksi -- mutten vielä suinkaan toteen näytetyksi. Esmes PoGo Openissa kahden kiven alitasoitus teki 50% peleistä luokitusmateriaaliksi kelpaamatonta, koska olivat valkeina alitasoituksella pelattuja. Kaiva siitä nyt sitten jotain, kun pelaajat pelasivat pääsääntöisesti 3-4 peliä joilla oli jotain väliä tältä kannalta. Asia tietty heijastui korotusten määrään ja suuruuksiin.

-- DonOlli, 7.4.

Olet varmaankin oikeassa siinä, että suurten (neljä kiveä?) luokituserojen peleistä tehdyt niissä voittamisen todennäköisyyteen perustuvat päätelmät sisältävät virhelähteenään sen, että EGF:n voittamistodennäköisyystilastoissa on saattaa olla poikkeavilla yksittäistapauksilla (outlyerit) liikaa vaikutusta. Toisaalta yli neljän kiven luokituseroilla voittamistodennäköisyysdataa ei ole edes EGF:n tilastoissa annettu.

Mielestäni ei kannata kantaa liikaa huolta siitä, ovatko vastustajien luokitukset oikeita vaiko eivät. Luokituksien sisällä on joka tapauksessa jonkin verran vaihtelua. Jos ne asetetaan voimakkaasti kyseenalaiseksi, tullaan samalla asettaneeksi voimakkaasti kyseenalaiseksi metodi, jolla ne on annettu - tässä tapauksessa mutu-menetelmä itse.

Jos kerran vastustaja analyysi on nykyään rutiinitoimenpide turnaustuloksia tarkasteltaessa sekä juuri päättyneen että menneiden, samalla luokituksella pelattujen turnausten osalta, olisi vähintäänkin kohtuullista valottaa kuinka se tehdään.

Mitä mutuun yleensä ottaen tulee, olisi äärimmäisen mielenkiintoista tietää, kuinka luotettavaa mutu itsessään on. On totta, että hyvin pienillä aineistoilla mutulla ei ole vaihtoehtoja, mutta kysymys on olennainen päätettäessä, mikä on optimaalinen tasapaino mutun ja laskennallisten menetelmien välillä minkäkinlaisissa olosuhteissa.

Yksi näkökohta, joka puoltaa laskennallisten menetelmien käytön varhaisempaa käyttöönottoa, on puolueettomuus. Ihmisluokittajat tekevät inhimillisiä virheitä.

-- Markku Jantunen, 7.4. 2003

No meikäläisen arvio perustuu aina siihen, että onko pelaaja osoittanut pelaavansa sillä tasolla johon olisin korottamassa. Tarkka voittoprosentti eritasoisia vastustajia vastaan on tietty epämääräinen, koska sitä ei kukaan oikeasti tiedä. Ja se tietty riippuu myös siitä että minkätasoista palaajaa arvioin.

Mainittakoon että siitä, kuinka paljon on yhden pykälän ero voittoprosenttina, liikkuu hyvin monenlaisia teorioita. Esmes EGF:n tulokset antavat yhden, Elo-systeemi antaa 67% (normaalijakauma) ja AGA:n Bayesilainen malli muistaakseni peräti 87%. Ja WAGC antaa epäilemättä kokonaan oman lukunsa. Yritä siinä sitten tietää asia kun on. WAGC:n tai EGF:n pelaaja-aineisto saattaa hyvin olla normaalista pelaajapopulaatiosta poikkeava ("ketkä siellä käyvät? edustavatko he tavallisia pelaajia?",) ja sekä Elon että Matthewsin sinänsä oikeelliset matemaattiset mallit ovat vieläkin oikeaksi todistamttamattomia. Asian tutkiminen matemaattisesti saattaisi antaa edes jotain arvoa sille, että mihin pitäisi luottaa, nykyisellään on ihan turha edes yrittää.

Mutun luotettavuuden tutkimiseksi voidaan kuitenkin seurata suomalaispelaajien menestystä EGC:ssä, joka kuitenkin on ehkä kaikkein tärkein mittari. Jos pelaajat siellä voittavat yleensä 8/10 tai enemmän, on jo vahva syy huolestua. 6/10 taas on täysin normaalia, ja 7/10 rajatapaus (mahtunee normaalijakauman virherajoihin, ellei aineisto ole suuri!) Tähän mennessä ei ole nähty todisteita siitä, että suomalaiset olisivat pärjänneet merkittävästi ulkomaalaisia paremmin.

Numeeristen työkalujen käyttöä siis haittaa se, ettei tiedetä mitä ne kertovat. Ja kaikilla luokituskomitean jäsenillä on erittäin huonoja kokemuksia numeeristen systeemien toimivuudesta. Näin ollen luotetaan siis ihmisten arvioihin. Tarvittaessa sitten konsultoidaan muita, tai jopa äänestetään. Niin kauan kuin kaikilla on halu hoitaa asia hyvin, kuten asia on tähän saakka ollut, erityisiä ongelmia ei tunnu esiintyvän.

Yhtä kaikki, itse ainakin pidän Paavon tulospulautinta erinomaisen arvokkaana välineenä turnausten analyysiin; kaikki mikä säästää vaivaa on pop. Se ei kuitenkaan osaa arvioida eri vastustajien päänahka-arvoja -- nimiä mainitsematta -- joten ei se mikään autuaaksitekevä ole. Tämä puoli kuitenkin asia tuntuu ainakin teikäläiseltä joka käänteessä unohtuvan.

Mainittkoon kuitenkin että luokituskomitealla on päämääränä pitää Suomen luokitus hyvällä eurooppalaisella tasolla. Maita joiden tasolle ei haluta vajota on vaikea nimetä, katsoen viime EGC:n tuloksia näyttää siltä että vaikkapa Itävalta ja Unkari kelpaavat, mutta niin kauan kun ei Romaniaa ja Hollantia ohiteta ollaan kuitenkin vielä selvillä vesillä. Pohjoismaat eivät siis välttämättä ole se referenssitaso mitä haetaan.

Ja tähän täynnee meikäläisen lopettaa tilasto-opetus, todeten että ellet vieläkään hahmota luotettavuudeltaan tuntemattoman aineiston perustumisen ongelmallisuuksia, en varmaankaan pysty sitä teikäläiselle tänä keväänä tämän paremmin kertomaankaan.

-- DonOlli

Add new attachment

In order to upload a new attachment to this page, please use the following box to find the file, then click on “Upload”.
« This particular version was published on 07-Apr-2003 17:52 by DonOlli.