Työkaluja luokittamisen tueksi#


Kari TTgoK:n sivujen tarjonnasta: Ohjelmia (varsinkin GOR-laskuri) ei ole pahemmin testattu, joten teen microsoftit ja toivoisin, että käyttäjät testaavat ohjelmat ja valittavat sitten vaikka tänne sivulle.


Luokituskuvaaja antaa outoja jakaumia esimerkiksi rivillä 1k- 1k- 1k- 1k- 1k- 1k- 1k- 1k- 1d+ kun käytetään asetusta "EGF:n tilastollinen voitto%". Todennäköisyyskuoppa 5k kohdalla ei oikein vastaa tervettä järkeä.

-- Lauri Paatero 8.4.2005

Epäilen, että tuo "bugi" johtuu siitä, että käytin turnaustilaston voittoprosentteja aina neljän kiven erotukseen saakka, mutta koska tilastoja ei ollut saatavilla suuremmista eroista, arvioin suuremmat vahvuuserot samoiksi kuin laskennallinen voittoprosentti. Tämä aiheuttaa ohjelman käyttämiin voittoprosentteihin epäjatkuvuuskohdan juuri tuohon neljän/viiden kiven kohdalle (esimerkin tapauksessa 1k vs. 5k). Ongelman saisi pois siten, että ekstrapoloisi noita voittoprosentteja suuremmille taitoeroille jotenkin paremmin.

-- Kari

Sitä vähän rupesin epäilemään.

Pelkkä extrapolointi laitimmaisten pisteiden nojalla ei ole erityisen terveellinen teko, koska tuolloin extrapoloidaan kohinaisen datan eniten kohinaisita pisteistä.

Kyseisen datan sellaisenaan käyttö on sinänsä jo aika kyseenalainen ratkaisu, koska data on aika kohinaista (osassa soluista on varsin vähän pelejä). Prosessi helposti vahvistaa kohinaa.

Paremman tuloksen saisi, kun sovittaa (oletetun mallin mukaisen) funktion dataan. Tällöin saadaan osa kohinasta suodatettua pois. Samalla saa kohtuullisen luonnollisen extrapolaation. Sovitusta ei kannattane tehdä joka luokituksen osalta erikseen, vaan olettamalla että voittosuhde muuttuu "tasaisesti". Tällöin estimoitavien parametrien määrä pysyy kohtuudessa ja ylisovituksen riski ei ole kovin iso.

-- Lauri

Voipi olla huomionarvoista, että tällaisten epäjatkuvuuksien analysointi on kaukana helposta. Siitä johtuvien huonojebn analyysien takia tilastotieteellä on huono maine, kuten sanontakin sanoo: "valhe, emävalhe, tilasto."

Nytkin taidetaan olla kovaa vauhtia syyllistymässä datan käyttöön tavalla johon aineisto ei anna oikeutusta. Kaikkinainen aineiston muuntaminen ja muokkaaminen kovin usein hukkaa sen, että mikä datan merkitys itse asiassa olisi. Tässä yritetään datasta ekstrapoloida mielivaltaisella tavalla tietoa, eikä tästä tavasta ilmeisesti tiedetä kuin että "siltä nyt tuntuu." Nimenomaan, niin kauan kuin ei tutkita että mikä on tällaisen ekstrapoloinnin vaikutus saatujen uusien datapisteiden uskottavuuteen, ollaan esittämässä sellaisia johtopäätöksiä, joiden oikeutuksesta ei ole harmainta haisuakaan. Ja koska ei ole datapisteitä joilla validoida tämä ekstrapolointi, ei voida edes arvioida tätä vaikutusta.

Tällaisten datapisteiden esittäminen oikean datan joukossa on erityisen vaarallista, koska katsojalla ei ole edes mahdollisuutta saada selville että mikä osa on analysoijan arvausta ja mikä dataa. Johtopäätös oikean tilastotieteen puolella olisi ilman muuta että tällainen ekstrapoloidut datapisteet ekstrapoloimattomiin rinnastava aineisto on kokonaan menettänyt käyttökelpoisuutensa. Toisin sanoen, jo pelkkä ekstrapolointi on vaarallista, mutta datan esittäminen siten että ekstrapoloitu rinnastuu aitoon dataan, on (vaikkakin tahatonta) harhaan johtamista.

Laurin esittämä datan mallintaminen voi hyvinkin olla vähemmän vääristelevää, mutta se on yhtä lailla perusteetonta; edelleenkään ei tiedetä kuinka hyvin malli sopii alueelle josta ei ole dataa, ja että miten vastaava oikea data käyttäytyisi. Tämän lisäksi tulee itseään tukeva lähestymistapa; koska mallin antamia arvoja käytetään ekstrapolointiin, ekstrapoloidut arvot vastaavat erinomaisesti mallia (ennustavuus on täydellinen). Tällöin kaikki mallin hyvyyttä kuvaavat mittarit muuttuvat harhaisiksi, toisin sanoen malli itse on jatkoa varten hyödytön. Ja tätä taas ei monestikaan tulla ajatelleeksi.

Todennäköinen oikea tapa käsitellä tuo ekstrapolointi on sulkea ne poikkeavina arvoina pois siitä analyysista jossa Karin mainitsemia voittoprosentteja ei enään ole käytettävissä. Tämä voi vihlaista ilkeästi kun kovin arvokasta dataa joudutaan sulkemaan pois, mutta jos mallin perustana oleva data ei taivu, niin sitten ekstrapolointi vain johtaa harhaan. Vähin mitä tehdä, on esittää ekstrapoloitu data siten, että se ei estä muun datan arviointia, ja dokumentoida ekstrapolointi sekä siihen liittyvät riskit.

-- DonOlli

Authentication code:

Toolbar

Comment signature

Add new attachment

In order to upload a new attachment to this page, please use the following box to find the file, then click on “Upload”.

Here's a short reminder on the most common formatting rules you have at your disposal. A complete list is available in TextFormattingRules.

(empty line)     Make a paragraph break.
----             Horizontal ruler
[link]           Create hyperlink to "link", where "link" can be either an internal 
                 WikiName or an external link (http://)
[text|link]      Create a hyperlink where the link text is different from the actual 
                 hyperlink link.
[text|wiki:link] Create a hyperlink where the link text is different from the 
                 actual hyperlink link, and the hyperlink points to a named Wiki. 
                 This supports interWiki linking.

*                Make a bulleted list (must be in first column). Use more (**) 
                 for deeper indentations.
#                Make a numbered list (must be in first column). Use more (##, ###) 
                 for deeper indentations.

!, !!, !!!       Start a line with an exclamation mark (!) to make a heading. 
                 More exclamation marks mean bigger headings.

__text__         Makes text bold.
''text''         Makes text in italics (notice that these are single quotes ('))
{{text}}         Makes text in monospaced font.
;term:def        Defines 'term' with 'def'.  Use this with empty 'term' to make short comments.
\\               Forced line break (please use sparingly).

|text|more text| Makes a table. Double bars for a table heading.

Don't try to use HTML, since it just won't work.

To embed images just put them available on the web using one of the approved formats, and they will get inlined automatically. To see the list of approved formats, go check SystemInfo.

To make a code block, use triple {'s to open, and triple }'s to close.

(Wondering where this text comes from? It's on a page called Edit Page Help, which you can edit too!)