SuomiGo: Luokituskeskustelu IV

More...

Pohdimme eilen TTgoK:n peli-illassa kysymystä, millaisilla turnausmeriiteillä tulee korottaa ja millaisilla ei, siis minimi- ja maksimivaatimuksista. Arvostaisin muiden luokittajien (Jaakko, Paavo jne.) ja muiden kontribuutioita.

Jos lähdetään siitä, että turnaustulokset ovat ensisijainen informaation lähde, ongelmaksi tulee turnaustulosten vertailu keskenään. Mikä on normaalia satunnaisvaihtelua luokituksen sisällä ja mikä ei? Oletetaan nyt yksinkertaisuuden vuoksi, että vastustajien luokitukset ovat kohdallaan tai niihin mahdollisesti tehtävät "päänahkakorjaukset" on jo tehty.

Turnausvoittojen jakauma turnauspelien sarjoissa on binomijakauma. Turnauspelien jono muistuttaa (eri tavoilla painotettujen) kolikoiden heittämistä. Tulos on käytännöllisesti katsoen aina joko voitto tai tappio. Joskus tulos on jigo, mutta jigot voidaan tarvittaessa helposti ottaa huomioon. Silloin voittojen määrien jakauma turnauspelien sarjoissa on trinomijakauma. Mitä suurempi turnauspelien määrä on, sitä enemmän voittojen määrän jakauma noudattaa normaalijakaumaa.

Binomijakauman kertymäfunktion arvoja laskevalla Java- appletilla voi leikkiä ja laskeskella erilaisia arvoja erilaisilla voittamistodennäköisyyksillä ja voittosuhteilla- ja määrillä. Huomautettakoon, että tuo appletilla laskee oikein vain, jos onnistumistodennäköisyys on vakio. Go-turnauksessahan onnistumistodennäköisyyttä ei tiedetä tarkasti ja se on eri eri peleissä eri vastustajia vastaan. Tuo applet antaa kuitenkin jonkilaisen kuvan binomijakauman käyttäytymisestä erilaisilla arvoilla. (Kertymäfunktio kertoo kuinka suuri osa tuloksista on enintään yhtä hyviä kuin annettu tulos. Vähentämällä kertomafunktion arvo 1:stä kertoo kuinka suuri osa tuloksista on parempia kuin annettu tulos.)

Seuraavassa lasken kuinka suuressa "top prosentissa" tulos on. Kyseessä on summa todennäköisyyksistä, että tulee täsmälleen yhtä monta voittoa tai enemmän.

Muutama esimerkki onnistumistodennäköisyydellä 0.5:

3/6	65%	6/12	62%	9/18	59%	12/24	58%
4/6	34%	8/12	20%	12/18	12%	16/24	8%
5/6	11%	10/12	2%	15/18	0.4%	20/24	0.07%
6/6	2%	12/12	0.02%	18/18	--	24/24	--

				7/15	70%
3/5	50%	5/10	62%	8/15	50%
		6/10	38%	9/15	30%
				10/15	15%
		7/10	17%	11/15	6%
4/5	19%	8/10	5%	12/15	2%
				13/15	0.4%
		9/10	1%	14/15	0.05%
5/5	3%	10/10	0.1%	15/15	--

Muutama esimerkki onnistumistodennäköisyydellä 0.4:

3/6	46%
4/6	18%
5/6	4%
6/6	0.4%

6/12	34%
8/12	6%
10/12	0.3%
12/12	--

9/18	26%
12/18	2%
15/18	0.02%
18/18	--

12/24	21%
16/24	1%
20/24	--
24/24	--

3/5	32%
4/5	8%
5/5	1%

5/10	37%
6/10	16%
7/10	5%
8/10	1%
9/10	0.1%
10/10	0.01%

7/15	39%
8/15	21%
9/15	10%
10/15	3%
11/15	0.9%
12/15	0.2%
13/15	0.03%
14/15	--
15/15	--

Paremman tuntuman saamiseksi asiaan voisi katsoa seuraavaksi menneistä go-kongresseista, kuinka todennäköisiä kuinkakin suuret voittoprosentit olivat muutamaa alinta ja ylintä McMahon-ryhmää lukuun ottamatta. Arvelen, että 5/10:stä poikkeavat tulokset valtaosassa McMahon-ryhmiä ovat harvinaisempia kuin kolikonheittokoetta katsoen voisi ajatella, koska McMahon-turnauksessa vastuksen voi odottaa kovenevan voiton jälkeen ja helpottuvan tappion jälkeen. Kuten yltä nähtiin, tällaiseen odotukseen on hyviä syitä, koska binomitodennäköisyys on varsin herkkä yksittäisen kokeen onnistumistodennäköisyydelle.

-- Markku Jantunen, 10.4. 2003

Oletetaanpa, että pelaaja tekee 7/10 -tuloksen. Oletetaan, että voittamistodennäköisyys kussakin pelissä on 0.5. Mikä on binomitodennäköisyys sille, että tulee vähintään yhtä hyvä tulos? Vastaus: 17%, joka mahtuu hyvin yleisesti käytettyihin virherajoihin (keskimmäiseen 95% enemmistöön kuuluvan tuloksen ei yleensä tilastomatematiikassa katsota poikkeavan odotetusta riittävästi ollakseen muuta kuin satunnaisvaihtelua).

Oletetaanpa, että pelaaja tekee kahdessa turnauksessa 7/10 -tuloksen. Mikä on todennäköisyys sille, että tulee vähintään yhtä hyvä tulos eli 14/20? Vastaus 6%, joka mahtuu yleisesti käytettyihin virherajoihin (vähintään yhtä hyviä saa olla korkeintaan 2.5%).

Seuraavassa taulukossa on laskettu vähintään yhtä hyvän tuloksen todennäköisyyksiä. Yksittäisen kokeen onnistumistodennäköisyys on aina 0.5, mikä ei vastaa todellisuutta McMahon-turnauksessa, mutta jonka voi olettaa antavan ylärajan odotetulle onnistumistodennäköisyydelle isossa McMahon-turnauksessa.

Turnauksien määrä	6/10	7/10	8/10	9/10
1	38%	17%	5%	1%
2	25%	6%	0.6%	0.02%
3	18%	2%	0.1%
4	13%	1%
5	10%	0.3%
6	8%	0.1%
7	6%	0.1%
8	5%	0.01%
9	4%
10	3%
11	2%
12	2%
13	1%
14	1%
15	1%
16	0.7%
17	0.6%
18	0.4%
19	0.4%
20	0.3%

Turnauksen määrän voisi tulkita tarkoittavan myös usean eri henkilön suoritusta samassa turnauksessa. Tällöin kuitenkin ylläolevien todennäköisyyksien yleistäminen koko kyseiseen joukkoon sellaisinaan edellyttäisi ainakin, että kaikkien tulos olisi täsmälleen sama. Yleistys populaatioon, josta kyseinen joukko on peräisin, edellyttäisi, että kyseinen joukko olisi edustava otos koko populaatiosta ja että vastustajatkin olisivat peräisin edustavista otoksista omista populaatioistaan. Periaatteessa nämäkin asiat olisivat laskettavissa ja arvioitavissa -- mukaanlukien tuollaisen arvion luotettavuus, mutta minä en sitä osaa ainakaan vielä tehdä.

-- Markku Jantunen, 11.4. 2003

Ylläolevat luvut ovat sinänsä oikeita, mutta verraten merkityksettömiä. Tarvitset yhden kiven tasoeron voittotodennäköisyyden yhden pelin todennäköisyydeksi sen sijaan että vetäisit hatusta luvun 0.5, jotta voidaan saada selville että mikä on riittävä tulos ettei se enään mahdu merkitsevyyden rajoihin. Osassa III kerroin asiasta lisää, mm. sen että tämä luku on tuntematon, johon omaan tapaasi vastasit ettei sillä voi olla mitään väliä. Arvaapa minkä takia en juurikaan noteeraa urputuksiasi, ettei vaan syynä olisi se että teikäläiselle väittelyn voittaminen tuntuu olevan tärkeämpää kuin tosiasiat.

Voin kuitenkin kertoa että tilastollinen merkitsevyys on niin kova vaatimus, etten usko kenenkään alle 3 danin tasolle korotetun täyttäneen sitä, ehkä usko kenenkään luokituskomitean tarkkailussa olevan sitä täyttävänkään, koska ihmiset korotetaan kauan ennen.

Sinänsä, olet toisaalla kertonut että olisit ymmärtänyt miksei numeerista inflaatioautomaattia haluta, mutta nyt olet kovaa vahtia yrittämässä sellaista keksiä. Ei siinä mitään, saahan näitä tutkia ja ihmetellä, kokeillakin, mutta sellaisen ajaminen kansallisen luokitusjärjestelmän perustaksi ilman erittäin perusteellista tutkimista olisi sulaa hulluutta. Toisin sanoen, jos et usko etteivät numeeriset järjestelmän toimi, mikset kokeilisi niitä itse? Onhan teillä Tampereella pelaajia joista saa luokitusdataa. Ihan samalla tavoin tuollainen toimii tai on toimimatta alemmallakin tasolla, ei sitä kansalliseksi systeemiksi ole pakko heti laittaa. Kannattaa sitten pitää mielessä että tuollaisen ongelmat tulevat esille tyypillisesti aikaisintaan puolen vuoden kuluttua siitä, kun sitä alettiin systemaattisesti käyttää, ja että kaikki systeemin ohi tapahtuvat korotukset kertovat ettei systeemi toimi riittävän hyvin.

Vielä tuosta numeerisen järjestelmän inflaatioautomaattiudesta. Tilastotieteestä mitään ymmärtävät tietävät sen, että numeerinen järjestelmä saa olla aivan helekatin konservatiivinen ettei satunnaisvaihtelu aiheuta liikaa aiheettomia korotuksia. Nämä aiheettomat korotukset sitten heijastuvat takaisinkytkennän kautta (ovat aineistona muille) kaikkiin luokituksiin, ja noidankehä on valmis. Et oletettavastikaan tule uskomaan tuota inflaatioautomaattipuolta, mutta pitäisi osoittaa jollain ihan oikealla menetelmällä ettei sellaista ole, jotta väite sen olemattomuudesta olisi uskottava.

Tästä syystä numeerista järjestelmää ei ole haluttu. Ainoa jäljelle jäävä malli on mutu, eli ruvetaan omaan kokemukseen pohjaten katsomaan että onko joku saanut niin hyvän tuloksen että korotus on aiheellista. Meikäläisellä ei ole tähän mitään kaavaa, tietenkään koska kyseessä on mutu, mutta sääntö on että pitää osoittaa pärjäävänsä tasolla jolle korotetaan. Mitä tahansa tarkkoja lukuja tähän laittaisinkin, ne eivät olisi kuin korkeintaan suuntaa-antavia, joten enpä siis laita.

Mainittakoon että tein tällä välin hieman analyysia GORreista ihan massana; GOR on kuitenkin tilastotieteellisesti viaabeli ja puolueeton vaikkakin tilastollisen merkitsevyyden vaatimukset tekevät siitä liian hitaan adaptoitumaan Suomalaisilla turnaustuloksilla -- ihan siitä huolimatta että uskotko sinä niihin vai et. Jos Suomen materiaali ei riitä GORrin realistisuuteen, niin sitten täällä ei ole riittävästi tarpeeksi hyviä turnauksia, jonka lisäksi pelaajat eivät viitsi hankkia pelejä ulkomaalaisia vastaan. Ja kumpikaan näitä ei tosiaankaan ole GORrin vika.

Ajoin GORreista jakaumat Euroopan luokituksille, ja vertasin eri jakaumapisteitä suomalaisten GORreihin. Tulos oli ettei kukaan dan-pelaaja tai korkea kyu Suomessa pääse Euroopan mediaanitasolle oman nominaaliluokituksensa joukossa. Lähinnä taisi olla Vesa. Aion jatkossa omalta osaltani käyttää GORrien jakaumia parhaana tunnettuna numeerisena luokitusjärjestelmän aputyökaluna. Kuten sanottua, tarkoitus on pitää Suomen luokitukset eurooppalaisittain järkevinä, ja jos on jokin muu kunnolla uskottava työkalu kuin GOR, en ainakaan itse siitä tiedä. Mainittakoon etten hetkeäkään usko että kukaan tulisi GORrien perusteella korotettua, mutta ainakin niistä näkee että miten Suomen taso voisi suhtautua Eurooppaan, jos GOR Suomessa toimisi kunnolla.

-- DonOlli, 11.4.

Korjasin pienen kirjoitusvirheen. -- Pekka, 11.4

En täysin tiedä, mitä Olli yllä tarkoitat. Tarkoitatko, että suomalaisten pelaajien GOR on alhaisempi kuin vastaavan luokitusten ulkomaalaisten pelaajien GOR? Mielestäni se on aivan väistämätön seuraus GOR:in nollasummaisuudesta ja Suomen nopeasti kasvaneesta pelaajapopulaatiosta. Vai mitä oikein tarkoitat?

-- Henri, 11.4

GOR ei ole nollasummapeli, siellä on korjaustekijä, jonka joku sanoi olevan 1,004 (en tarkistanut.) Ensi silmäyksellä vaikuttaa siltä, että tuo voisi olla liian pieni, mutta toisaalta paha sanoa varmemmin. Ja toisaalta taas kyseessä on EGF:n päätös, joten ei GOR-systeemiä täältäkään käsin voida muuttaa, ilman että EGF sen päätöksen tekee.

GORrin ongelmia Suomessa ovat ainakin B- ja C-luokan turnausten suuri osuus, liian suuri osuus tasoitusturnauksia ja taskuuntuminen, sen lisäksi että maintsemasi pelaajapopulaation räjähdysmäinen kasvu sotkee.

Yhtä kaikki, mielestäni on parempi käyttää tilastollisesti oikeellisia menettelyitä, kuten GORria, ja yrittää sovittaa olosuhteet (l. datan saatiolosuhteet kuten turnausten plaatu) siten että ne toimisivat, sen sijaan että sotketaan nykyisellään varsin hyvin toimiva luokitusjärjestelmä jollain ominaisuuksiltaan tuntemattomalla numeerisella menettelyllä.

-- DonOlli

Olen samaa mieltä siitä, että on hyvä käyttää tilastollisesti oikeellisia menettelyitä ja että GOR on tilastollisesti oikea. En täysin ole perillä siitä, miksi tasoitusturnaukset aiheuttavat ongelmia. Tasoitusturnauksessa minun ymmärtääkseni pitäisi olla oikeilla tasoituksilla pelattaessa melko tarkkaan tiedossa tuloksen odotusarvo.

-- H.

Ollille sanoisin, ettei kannata nyt unohtaa, etten ole väittämässä mitään sellaista noiden lukujen pohjalta, mitä tekstissäni ei suoraan sanota.

Eikö muuten olekin niin, että voittamistodennäköisyys samantasoista pelaajaa vastaan on samantasoisuuden määritelmän mukaan 50%? Taulukkoon kootut todennäköisyydet kertovat, kuinka todennäköinen jokin vähintään tietty voittojen määrä tietystä määrästä pelejä on sellaisessa kuvitteellisessa turnauksessa, jossa kaikki vastustajat ovat samantasoisia. Ei sen enempää eikä sen vähempää.

Noiden lukujen laskemiseen ei tarvita voittamistodennäköisyyttä yhden kiven tasoerolla. Voittamistodennäköisyys yhden kiven tasoerolla ei muuten ole vakio vaan riippuvainen tasosta. Tuo riippuvuus on olemassa sekä GoR-mallissa että todellisuudessa, kuten EGF:n virallisten luokituksien (ei GoR) mukaan lasketuiden taulukoiden mukaan on.

Lisäksi on totta, että tilastollisen merkitsevyyden tavanomainen vaatimus on niin ankara, että se tuottaa liian hitaan systeemin. Mutta en pidä hyväksyttävänä, jos eri henkilöiltä vaaditaan jyrkästi merkitsevyyksiltään eroavia näyttöjä.

On selvää, että lukuja voidaan näin pienistä aineistoista käyttää vain suuntaa antavina. Siksi Kari ja minä emme olekaan ehdottaneet automaattia, joka sanelisi korotukset kaikissa tapauksissa vaan ylä- ja alarajoja korotusnäyttövaatimuksille. En pitäisi kovinkaan hedelmällisenä lähtökohtana vasta-argumenteille lähteä olettamuksesta, että olisimme vaatineet luokitusautomaattia, joka päättää luokituksista kaikissa tapauksissa.

Toinen asia on, kuinka hyvä mutu-menelmä todellisuussa on. Jos mutu-menetelmää käytetään -- ja onhan sitä syytäkin käyttää, koska millekään automaatille ei korotuksia voi kokonaan uskoa -- olisi kenties kohtuullista aloittaa perinne, jossa korotukset perustellaan julkisesti.

-- Markku Jantunen, 11.4. 2003

Asiasta paremmin tietävät, kuinka vaikeaa olisi ajaa EGF:ssä läpi muutos, että EGF-pisteet nollautuisivat joka korotuksesta (ja onko tätä esim. kokeiltu joskus)? Tällöin systeemistä saataisiin melko tyydyttävä (ei esim. liian hidas) siten, että luokitukset tapahtuisivat nykyisellä mutu-meiningillä ja niitä ajateltaisiin lähinnä arvoniminä. Tällöin McMahon-ryhmät ja tasoitukset voitaisiin turnauksissa päättää pisteiden perusteella ja saataisiin mielestäni melko reilu systeemi (tämä on ainakin minulle ollut se asian pihvi tässä).

-- Kari Visala, 11.4. 2003

Henrille voisin kertoa, että tasoitusturnausten ongelma on se, että ne siirtävät luokitusdatan painopisteen yläpään pelaajista keskitason väärinluokitettuihin pelaajiin. Toisin sanoen, mustan voitot suurilla tasoituksilla estävät yläpään pelaajien informaation kertymisen, silloin kun keskitason pelaaja on nominaalitasoaan vahvempi. Ja kumpi olikaan yleisempää, keskitason pelaajan väärä luokitus vai yläpään pelaajan, kun kuitenkin keskitasolla oppiminen on helpompaa. Asian voisi yksinkertaistaa vaikka siten, että tasoitusturnauksista ei oikeastaan ikinä tule käyttökelpoista luokitusdataa turnauksen huippupelaajille.

Markulle sen verran vielä, että korotusrajojen laatiminen ja orjallinen noudattaminen on numeerinen automaatti -- ja miksi niitä rajoja sitten laadittaisiinkaan jos niitä ei aiota noudattaa. Aiemmin mainituista syistä, siitä tulee liian helposti inflaatioautomaatti, riippumatta siitä että sisällytetäänkö siihen myös alennusautomaatti. Ei siis ole millään tavoin realistista ottaa mitään numeerisia rajoja käyttöön, ennen kuin tiedetään edes jotain niiden pitemmän aikavälin vaikutuksista, esmes vuoden tai parin aikavälillä. Vaikutukset ovat helposti toisia kuin kuvitellaan.

Karille tiedoksi että GORreissa kyu-tasolla tuplakorotus ja dan-tasolla jokainen korotus aiheuttaa resetin, ja näin on ollut jo pitemmän aikaa. Tämäkään ei ole riittänyt poistaamaan käsitystä siitä, että GORrit eivät ole kohdallaan.

Eiköhän tämä taas riitäkin meikäläisen osalta vähäksi aikaa.

-- DonOlli

Add new attachment

Only authorized users are allowed to upload new attachments.

« This particular version was published on 11-Apr-2003 16:08 by DonOlli.

G’day (anonymous guest) My Prefs

In English

Gon pelaajille

Go-tietoa

Wiki-tietoa

Viittaavat sivut
Luokitus
Luokituskeskust...
Luokituskeskust...
Vanhat Keskuste...

JSPWiki v2.8.4-svn-9