Add new attachment

In order to upload a new attachment to this page, please use the following box to find the file, then click on “Upload”.

This page (revision-45) was last changed on 06-Jun-2005 15:35 by 194.157.96.130  

This page was created on 21-Apr-2004 12:27 by AnttiTarvainen

Only authorized users are allowed to rename pages.

Only authorized users are allowed to delete pages.

Difference between version and

At line 243 added 2 lines
At line 338 changed one line
* Pelaajien pisteiden keskiarvo siirretään joka turnauksen jälkeen tuhanteen (tämä nostaa hiukan vanhojen pelaajien luokitusta, mutta vaikutus on minimaalinen)
* Pelaajien pisteiden keskiarvo siirretään joka turnauksen jälkeen tuhanteen. (Tämä nostaa hiukan vanhojen pelaajien luokitusta, mutta vaikutus on minimaalinen.)
At line 377 added 105 lines
Suunnittelen mittaavani eri parametrien hyvyyttä järjestelmällisesti joskus myöhemmin, en välttämättä pian.
Muuten, shakin Elo-pohjaisten pistejärjestelmien toimintaa ja niiden puutteita on selitetty kansantajuisesti tässä artikkelissa: [http://math.bu.edu/people/mg/papers/acjpaper.ps].
[Antti Tarvainen], 27.4.
Timo, nähdäkseni rinnastat selvästi vertailukelvottomia asioita.
Olisitko laskemassa tulosten luotettavuutta poikkeamien neliösummalla
*kaikkien pelaajien kaikista tuloksista,
*yksilöityjen pelaajien tuloksista käytettävissä olevan peliuran aikana
*yksilöidyn pelaajan tuloksista yhden turnauksen aikana, vai
*yksittäisistä peleistä?
Ellei toisin osoiteta, on eri asia arvioida tuloksia eri
konteksteissa, se tekee tuloksista vertailukelvottomia, ja erityisesti
aineiston luonne asettaa tähän omat rajansa. Kun nyt aineisto ja sen
ominaisuudet ovat (vielä) tuntemattomia, ainakin itse olisin
äärimmäisen varovainen yleistämään näitä tilanteita ristiin (l. voisin
ehkä tehdä tuon uteliaisuuden aiheuttamasta mielenkiinnosta, mutta en
ainakaan pitäisi siitä saatuja tuloksia mitenkään oikeutettuina tai
etenkään oikeellisina.) Ja sittenpä voikin arvata mitä tällainen
perustavanlaatuinen määrittelyn tekemättä jättäminen vaikuttaa
työkalun (juuri esmes poikkeamien neliösummat) valintaan.
Mainittakoon että näiden erilaisten aineiston käyttötapojen aiheuttama
tulosten keskinäinen vertailukelvottomuus on näkynyt kaikissa
luokituskeskusteluissa ja joka käänteessä. Ihmiset eivät tunnu
hahmottavan että kyse on eri asioista. Näin ollen aivan ensimmäiseksi
pitäisi määritellä että mitä tutkitaan/mallinnetaan ja miten. Ei
varmaankaan kuulosta yllättävältä, että biometriassa ongelmakentän
määrittelyn jälkeen seuraava vaihe on poikkeuksetta määrittää
aineiston luonne ja että mitä menetelmiä siihen voi soveltaa.
Tarvaisen Antin kokeilu mallin virittämiseksi on ilman muuta iloista
nähtävää, mutta silti mieleeni tulee, että pitäisi ''pohtia
perusteita'' seuraaville:
*mihin perustuu parametri k:n raja-arvojen 32 ja 64 valitseminen
*miksi pelitaso alkaa muuttua puolen vuoden pelitauon jälkeen, ja muutos kasvaa lineaarisesti kahteen vuoteen saakka
*onko piste-ero transitiivinen sekä mahdollisesti lineaarinen, ja jos niin minkä suhteen
Kysymyksiä saadaan varmasti paljon, kun kyseenalaistetaan kaikki
hihasta vedetyt olettamukset. Jos tällaisia ei pohdita huolella,
ollaan sortumassa käytännössä samaan kuin mistä nykysysteemiä on
kritisoitu: mielivaltaan. Oletetaan että ihminen voi arvioida mallia
vain katsomalla sen antamia tuloksia, sen sijaan että lähdettäisi
jostain määriteltävistä perusteluista.
Tämän lisäksi pitäisi mallin antamia tuloksia tutkia suhteessa
oikeisiin pelituloksiin: ennustaako malli tulokset millään
järjellisellä tarkkuudella, ja miten luotettavasti (l.
systemaattisesti) sen tulokset ennustavat tapahtunutta. Tällä saataisi
keinoja arvioida ''miksi'' ja ''missä tapauksessa'' jokin nimenomainen
numeerinen malli voisi olla parempi kuin nykyinen, epäreiluksi
haukuttu systeemi.
Tämä ei kuitenkaan tarkoita että pitäisin eri asioiden kokeilemista
pahana, eihän aineiston ja mallin käyttäytymisestä voida saada
selville mitään ilman että niitä tutkitaan. Sen sijaan olisin erittäin
varovainen arvioimaan ''mitä tahansa'' mallia ilman että asiat voidaan
perustella muuten kuin että "se näyttää antavan parempia tuloksia."
Ylempänä on sitetty kysymys GOR-systeemin heikkouksista, kerronpa
tässä yhden perustavanlaatuisen heikkouden. ELO-systeemi pohjautuu
normaalijakaumaan. Shakissa tällä ei ole väliä, koska pelivahvuus on
abstrakti kokonaisluku jota verrataan vain siihen itseensä, gossa taas
siihen yritetään sitoa dan/kyu-luokitus, joka taas perustuu
tasoituskiviin. Hups, milläs perusteella nämä olivatkaan
vertailukelpoisia? Muitakin heikkouksia löytyy, mutta en aio tehdä
sitä suurta työtä, että analysoisin ne.
Pahoittelen jälleen osallistumistani, mutta tilastomenetelmien väärin
ymmärtäminen ja kyseenalainen käyttö ylitti jälleen
kirjoituskynnykseni. Ja tarkoitukseni on ensi sijassa esittää
rakentavaa kritiikkiä, mutta myös esittää miten hankala oikeasti
onkaan ongelmakenttä numeerisen systeemin laadinnassa.
-- DonOlli
Minusta sellaisen numeerisen järjestelmän laatiminen, joka pyrkii täyttämään kaikki go- luokitukselle asetetut vaatimukset yhtä aikaa, on erittäin kunnianhimoinen projekti eikä ole välttämättä edes tarpeellinen. Tarvaisen Antin mallin tarkoitus on esittää kärjelle järjestys. Mielestäni emme toistaiseksi edes tarvitse muunlaista automaattista järjestelmää. Myös yllä esitetty huomautus GOR-systeemin eräästä heikkoudesta on paikkansapitävä.
-- Markku
Viimeisimmästä Antin tekemästä listasta pistää silmämääräisesti esiin sellainen seikka, että se näyttäisi koostuvan n. 2-3 populaatiosta, jotka ovat pelanneet enimmäkseen keskenään. Tämä johtunee turnauksissa käytetyistä MacMahon-rajoista. Seurauksena vaikuttaisi olevan, että k.o. populaatioista ylempien heikommat pelaajat tippuvat tuntuvastikin alempien populaatioiden vahvempien pelaajien alle, vaikka keskinäisiä pelejä ei juurikaan ole. En ala erittelemään miksi satuin huomaamaan tämän :) Olisi mielenkiintoista nähdä turnausdata jollakin tavalla klusteroituna pelaajaparien mukaan.
--Paavo
- ''Tein jonkinlaisen kuvaajan josta näkee pelatut pelit sivulle [SuomalaistenTasaAvausPelienMatriisi] -- Tuomo K.''
Paavolle: Huomasin itsekin tuon. En keksinyt mitään heuristiikkaa, jolla tuota voisi kompensoida. Jos tulee mieleen, kannattaa ehdottaa. En tiedä myöskään, kuinka tuon klusteroinnin voisi hoitaa.
Ollille: Numerot ovat todellakin hatusta vedettyjä, enkä edes kokeillut muita arvoja. Olen samaa mieltä myös siitä, ettei tällaista järjestelmää kannata ottaa käyttöön, ennen kuin sen sen toimivuus on testattu.
-- [Antti Tarvainen], 27.4.
Ollille:
Eri pelijoukolle lasketut virheiden neliösummat eivät tosiaankaan ole vertailukelpoisia, eikä jollain joukolla saatu luku kerro sinänsä mitään erityisen mielekästä, paitsi että pienempi luku on parempi. Eikä sen ole tarvekaan kertoa, koska samalla joukolla saatuja lukuja eri ennustussysteemeistä voidaan kuitenkin vertailla mielekkäästi. Tämähän riittää eri systeemien vertailua varten, koska kaikki systeemit voidaan laittaa antamaan todennäköisyydet samalle joukolle pelejä ja tulosten selvitessä voidaan kaikille laskea virhe, jota voidaan vertailla. Virheiden neliösummien tilalla voi käyttää vaikka virheiden itseisarvojen keskiarvoa, joka tuottaa erilaisia lukuja, mutta joilla on intuitiivisesti suorempi tulkinta. Tuon virheiden kokoamisfunktion (siis esimerkkinä neliösumma, itseisarvojen keskiarvo tai mikä tahansa L_n normi) valinnalla mun mielestä vaikutetaan vain siihen, miten paljon erisuuruisista virheistä rangaistaan. Näin lasketut virheet eivät edelleenkään varmaankaan ole tilastollisesti merkittäviä, mutta annetun datan puitteissa parasta saatavissa olevaa tietoa. Intuitiivisesti kuitenkin virhe isommalle ja kattavammalle pelijoukolle on merkittävämpi kuin pienelle.
--Timo
[Ehdotus luokittajan nyrkkisäännöksi|EhdotusLuokittajanOhjenuoraksi]
-- Markku 6.6. 2005
Version Date Modified Size Author Changes ... Change note
45 06-Jun-2005 15:35 36.55 kB 194.157.96.130 to previous
44 06-Jun-2005 15:35 36.549 kB 194.157.96.130 to previous | to last
43 05-Mar-2005 19:14 36.451 kB TuomoKeskitalo to previous | to last
42 27-Apr-2004 14:43 36.331 kB 192.100.124.218 to previous | to last
41 27-Apr-2004 14:18 35.116 kB AnttiTarvainen to previous | to last
« This page (revision-45) was last changed on 06-Jun-2005 15:35 by 194.157.96.130