Onko wikissä jotenkin huomioitu häirikköosoitteiden "bannaaminen", kun noita mainoksia ym. näyttää nykyään tulevan silloin tällöin?

Erittäin korkealentoisena ideana, jonka toteuttaminen ei varmasti ole ongelmatonta eikä kovin korkealla missään prioriteettilistassa, wikiin voisi lisätä spämmisuodatuksen. Esim. jos joku lisää sivulle pelkkiä linkkejä sisältävän kappaleen (tai jotain muuta määriteltyihin sääntöihin sopivaa), muutos saisi jonkin määrän pisteitä. Pisteytys voisi riippua lisättyjen linkkien määrästä ja siitä, miten lähellä pääsivua muutokset ovat sivuhierarkiassa. Lisäksi jos samasta osoitteesta tehdään spämmiksi epäiltyjä muutoksia useammalle sivulle, se voisi nostaa kaikkien muutosten pisteitä. Jos pisteet ylittävät jonkin rajan, muutoksia ei hyväksyttäisi.

Jos haluaa olla oikein ovela, spämmerille itselleen voisi tietysti tarjoilla sivusta oman version, jossa muutokset näyttävät menneen läpi... :-)  Ja jotta virheellinen spämmiluokitus ei niin helposti pääsisi puremaan muita käyttäjiä, rekisteröidyn wikitunnuksen tekemät muutokset voisi hyväksyä automaattisesti. Jos spämmeri sitten rekisteröisi itselleen tunnuksen, sillä tehdyt muutokset olisi kai periaatteessa helppo poistaa.

(En silti ajatellut vapaehtoistua koodaamaan spämmisuodatinta wikiin, kunhan vain heittelin ideoita kun tuli mieleen...)

--[Juha Koivisto]

Mahtaisiko olla yksinkertaisempaa tarjota rekisteröimättömille käyttäjile eri versio editorista, sellainen joka ei antaisi laittaa ulkoisia linkkejä.

--[Matti]

Totta, tuskin tuollainen rajoitus kovasti haittaisi normaalia käyttöä (tai jos jotain haittaa niin wikitunnuksen voi luoda helposti).

Jos tunnuksettomien editointia rajoitetaan (tai myös jos tunnuksellisten muutokset hyväksytään helpommin), saattaa tietysti käydä niinkin, että häirikkö kirjautuu sitten sisään jollain sivuilta poimimallaan tunnuksella. Sellaisesta voisi olla paljon enemmän riesaa kuin nykyisistä ongelmista, ja sitä taitaa olla vaikea estää mitenkään.

--[Juha Koivisto]

Wikipedia.orgissa toimii mainiosti IP-pohjainen suodatus, ja olen myös täällä sulkenut tiettyjä IP-osoitteita pois kokonaan (eli jos ette voi editoida tätä Kiinasta, niin siinä selitys), joskin tämä on tehty palomuuritasolla.  JSPWiki ei sinällään tällä hetkellä tue IP:iden blokkaamista, joskin tämän varmaan voisi tehdä.

Sinälläänhän homma toimii niin kauan kuin ihmiset jaksavat siivota wikiä, avoimeen systeemin kun roskaa tulee aina.  Ja ainakin toistaiseksi kaikille avoimen järjestelmän edut ovat isommat kuin ne haitat mitä tulee kun sivuja pitää siivota aina silloin tällöin.  Muistakaa, että tämä on yhteinen pelikenttä, ja ainakin toistaiseksi täällä on enemmän "hyviä" käyttäjiä kuin "huonoja" käyttäjiä, joten sivuja pitäisi pystyä siivoamaan ja valvomaan ihan sosiaalisen paineen voimin :)

Mutta ideoita saa ja pitääkin esittää - jos joku ratkaisee spämmiongelman, niin totta kai sellainen ratkaisu ilmaantuu jspwikiin...

--[Janne Jalkanen]

Taas oli spammia. Ilmeisesti uudet sivut poistettiin nopeasti, koska muutoslista kutistui sitä uudelleen katsottaessa.
Mahtaisiko mistään löytyä kkodinpätkää, joka tunnistaisi sivulla olevan kielen? Tällöin voisi estää muiden kuin suomenkielisten sivujen tekemisen. Asian laita tietysti kerrottaisiin suomeksi. Jos muunkieliselle sivulla tulee tarve, niin sen perustamiseksi olisi olemassa jokin muu menettely.

Spämmit on toistaiseksi siivottu pois nopeasti. Vilkaisen yleensä viimeiset muutokset, jolloin ylimääräiset rivit listassa ärsyttävät.

--[Matti] Siivola 6.10.2004

Mun kommentaarini ja keskustelua asiasta [täällä|http://www.ecyrd.com/ButtUgly/Comment.jsp?page=Main_comments_061004_1].  Kielen tunnistaminen on kyllä oikeastaan pirun vaikeaa, ja tuollaiset voi tietysti kiertää aika helposti.  Harkitsen tällä hetkellä koko Kiinan sulkemista pois palomuuritasolla, vituttaa sen verran.  Luultavasti tuo kaveri tulee vielä takaisinkin...  Pitäkää silmät auki.

-- [Janne Jalkanen], 6.10.2004

Näköjään tyyppi kävi taas. Jos se haluaa näkyvyyttä hakukoneissa, nythän se saa sen poistoista huolimatta sivuhistorian ja RecentChangesin kautta. Pitäisikö vanhoja versioita sisältäville sivuille lisätä robots noindex? En tiedä ajatteleeko tyyppi asiaa niin pitkälle, että jättäisi sivut rauhaan jos muutoksista ei jää mitään jälkeä minnekään, mutta ainakin olisi mukavampaa olla antamatta sille sitä mitä se haluaa.

-- [Juha Koivisto], 7.10.2004

Tuli tässä mieleen yksi mahdollinen tapa rajoittaa tällaista toimintaa:

Voisiko Wiki sisältää kieltolistan ulkoisista linkeistä?

Jos tallennuksessa tällainen linkki löytyy, niin tallennusta ei lainkaan tehdä.
Esimerkiksi linkit kokonaan numeroista tehdyihin domain nimiin voitaisiin kieltää.

Tällöin jäljelle jäävä ongelma:
Kuka ylläpitää kiellettyjen site:jen listaa?

-- [Lauri Paatero], 7.10.2004

Spämmiä... Ilmeisesti samat jotka jo aamulla oli kerran poistettu.

-- Johanna Tuominen 7.10.2004

Laurin ehdotus on esitetty myös Jannen antaman linki takana ja Juhan jollakin WikiSpam-sivulla. 

Pohdiskelin, että mikähän olisi legitiimin peruskäyttäjän maksimi datan syottönopeus. Kannattaisiko blokata yritys tehdä liikaa muutoksia nopeasti? Kaikki tällaiset viritykset tietysti dokumentoidaan vain suomeksi.

-- [Matti] Siivola 7.10.2004

Ehkä kiellettyjen listaa voisi ylläpitää automaattisesti luomalla kaikista wikin sisältämistä ulkoisista linkeistä tietokannan, joka sisältää tiedon siitä milloin linkki on lisätty ja milloin poistettu. Linkit, jotka toistuvasti poistetaan pian niiden luomisen jälkeen, ovat todennäköisesti jotain ei-haluttua, kun taas linkit, jotka ovat saaneet olla sivuilla kauan, ovat todennäköisesti ok.

-- [Juha Koivisto] 7.10.2004

Etsin itse asiassa ei-kielispesifistä ratkaisua, koska haluan sen mukaan koko JSPWikin distribuutioon, en ainoastaan tänne.

Tällä hetkellä mietin juuri "kiellettyjen sanojen" listaa, jota luonnollisesti ylläpidettäisiin yhdellä Wikisivulla (tietokantahan tämäkin on...).  Uudessa JSPWikissä kun on olemassa jo mahdollisuus lukita sivuja vain tiettyjen ihmisten muokattavaksi.  Tällöin wikiin syntyisi administraattoreiden kasti, joilla on enemmän oikeuksia kuin muilla.

Maksimisyöttönopeus ei toimi, koska jotkut kirjoittavat tekstinsä erillisessä editorissa ja sitten cut-n-pasteavat sen.

Automaattinen linkkien tunnistus voisi ehkä toimia, mutta kaikenlainen automatiikka saa olla aika hyvin testattua tai se tappaa käytettävyyden.

-- [Janne Jalkanen] 7.10.2004

Minulle juolahti mieleen yksinkertainen ajatus siitä, että muokattavalle sivulle ei voisi lisätä kuin 5...10 (ulkoista) linkkiä kerrallaan tai muokkausta ei hyväksytä. Tuo ainakin ainakin vaikeuttaisi häiriköintiä vähän ja harvemmalla lienee tarvetta saada kauheaa kasaa linkkejä yhdelle sivulle mikäli ihan laillista tekee. Tietty jos mahdollisimman yleistä ratkaisua etsitään niin tuo on jonkin verran rajoittava eikä se ratkaise ongelmaa jos botti ampuu sälää useille sivuille.

-- [Mikael Runonen|Falla] 7.10.2004

Valitettavasti tuo ei toimi esimerkiksi silloin jos kopioidaan sivun sisältö paikasta toiseen (kuten esimerkiksi tapahtui silloin kun otin tämän keskustelun omalle sivulleen).  Puhumattakaan siitä, että sen toteuttaminen on epätriviaalia.

Sitäpaitsi esim. jspwiki.orgissa on sivuja, joilla on täysin legitiimisti linkkejä ulkoisiin resursseihin.  Niiden erottaminen spämmistä alkaa vaatia korkeampia algoritmeja.

-- [Janne Jalkanen] 7.10.2004

Erillisellä sivulla ylläpidetty kieltolista olisi sinänsä yksinkertainen ratkaisu ja ehkä aivan riittävä (olettaen, että sitä pystyy muokkaamaan vain autentikoitu admin-käyttäjä). Toisaalta se tarkoittaa, että siivoamisen päävastuu ja työmäärä keskittyisi rajatulle admin-joukolle, ja jos heitä ei satu olemaan paikalla, käynnissä olevaa spämmäystä ei voisi kovin tehokkaasti pysäyttää.

Kun asiaa mietin, alan kyllä olla aika mieltynyt ajatukseen, että linkkien luokittelussa voisi jotenkin hyödyntää wikin historiaa. Sitä kun on vaikea kenenkään manipuloida, koska sellainen vaatii sekä aikaa että yhteisön hyväksyntää.

Jos siis hiukan jatkan ajatuksen kehittelyä, jossain wiki-moottorin uumenissa voisi olla luettelo kaikista wikissä koskaan olleista ulkoisista linkeistä (jokaisesta erikseen, vaikka ne osoittaisivat samaan paikkaan), sekä kunkin elinaika. Tästä luettelosta laskettaisiin jollain sopivalla metriikalla todennäköisyys sille, että linkin kohde on hyväksyttävä. Metriikka voisi olla jopa niinkin yksinkertainen kuin elinajan maksimi, mutta siinä kannattaisi ehkä jotenkin huomioida myös lisäysten ja poistojen lukumäärä.

Periaatteessa systeemiä voisi tietysti hienosäätää muillakin esitetyillä tavoilla, kuten analysoimalla linkin sisältöä tai sijaintia jotenkin, mutta kaikki sellainen olisi luultavasti turhaa ja ylimääräistä. Spämmeri nimittäin huolehtisi tarvittavasta säädöstä ja painotuksesta itse puolestamme: Viidestäkymmenestä mainoslinkistä, jotka kaikki poistetaan melkein saman tien, tulee vain niin valtava kontrasti hyväksyttyyn linkkiin, joka on ollut paikallaan edes päivän (saati viikon, kuukauden tai vuoden), että hyvinkin yksinkertainen ja konservatiivinen algoritmi selviäisi luokittelusta helposti.

Systeemiä olisi lähes mahdotonta huijata tai väärinkäyttää, sillä ainoa tapa saada mainoslinkkejä menemään läpi suodatuksesta olisi se, että kukaan ei viitsi (tai huomaa) siivota niitä - ja toisaalta häirikön olisi myös hyvin vaikea saada oikeita linkkejä kieltolistalle sen jälkeen, kun ne ovat olleet olemassa jo pitempään. Ja kaikki toimisi kollektiivisella moderoinnilla, automaattisesti ilman kenenkään nimetyn ylläpitäjän vaikutusta.

Niitä tilanteita varten, joissa luokituksessa kaikesta huolimatta tulee huteja, voisi sallituista ja kielletyistä linkeistä generoida wikisivun, jossa ylläpitäjä voisi säätää hyväksymisrajaa tai manuaalisesti sallia tai kieltää yksittäisiä linkkejä. Luulen että näitä säätöjä tarvitsisi tehdä hyvin harvoin.

-- [Juha Koivisto] 7.10.2004

Jatkona vielä, että edellinen ei tietenkään vielä poista tarvetta siivota kutakin mainoslinkkiä vähintään kerran, mutta tämä noin pohdiskeluna tähän käsillä olleeseen tilanteeseen (jossa sama kaveri käy lisäämässä mainoksensa monta kertaa) ja vaivattomampana vaihtoehtona käsin kootulle kieltolistalle. Tietenkin algoritmiin voisi myös lisätä heuristiikkaa, jolla yritetään siivota roskat pois jo ensimmäisellä kerralla, mutta sitä on jo astetta vaikeampi tehdä luotettavasti.

-- [Juha Koivisto] 7.10.2004

Juhalla on hyviä ajatuksia.

Itselleni tuli mieleen seuraava idea. Spämmeri haluaa sivulleen näkyvyyttä hakukoneiden kautta. Laitetaan aluksi kaikkin historiasivuihin hakuroboteille kielto. Laitetaan myös muutettuihin sovuihin kielto. Kun sivun muuttamisesta on kulunut tarpeeksi aikaa, esim 8 tuntia, automaatti käy ottamassa kiellon pois. Näin käyttäjät saavat muutaman tunnin aikaa siivota spämmisivut pois ennen kuin ehtivät arkistoitua.  Ainoastaan, jos sivuun ei määräajassa kosketa, se pääsee arkistoitumaan. Määräaika voi olla kiinteä, tai siitten vaihdella vuorokaudenajam mukaa, niin että yöllä tulleet roskat ehtii siivota aamulla. Lisäksi voisi administraattoreilla olla oikeus muuttaa sivun statusta.

-- [Matti] Siivola 7.10.2004

Jees, näyttää toimivan ihan hyvin tuo spammisuodatus, jonka Janne lisäsi. Spämmerit tietysti keksivät uusia osoitteita, mutta kai domainin rekisteröinti Kiinassakin jotain maksaa, joten eiköhän ne joskus lopeta. Ongelmia voi tietysti tulla dyndns-tyyppisistä redirect-palveluista, joita olisi ikävä kieltää maailmanlaajuisesti, kun niiden takana voi olla jotain hyödyllistäkin. Joka tapauksessa regexpit ovat tässä aivan ehdoton plussa.

Silti on hiukan turhauttavaa cut-and-pasteta poistettuja linkkejä kieltosivulle. Systeemiä voisi kehittää niin, että palautettaessa sivua alle N hetken (esim. 1 vrk) ikäisen version tilalle wiki kysyisi esim: "Sivun palautus poistaa seuraavat ulkoiset linkit. Haluatko lisätä ne kieltolistalle?" Alla voisi olla kyseiset linkit listattuna ja jokaisen vieressä vaikka checkbox, josta voi poistaa rastin, jos joukossa sattui olemaan hyödyllisiä linkkejä. Ja alla napit "kyllä"/"ei". Häiriköinnin ja kämmien välttämiseksi kysymystä ei tarvitsisi esittää, jos korvattava sivu on ollut olemassa yli määräajan. Myöskään jo kiellettyjä linkkejä ei tarvitsisi listata, niin niitä ei joutuisi käsittelemään enempää kuin kerran, jos poistetaan samaa spämmiä monelta sivulta.

Tämän lisäksi kieltosivua voisi tietysti edelleen editoida myös käsin ja lisätä sinne esim. regexpejä. (Pitäisi ehkä harkita myös sitä, että automaattilisäys generoisi domain-nimistä suoraan regexpit, jotka matchaavat com/net/cn/(jne.)-päätteisiin.)

--[Juha Koivisto] 11.10.2004

Katsoin äsken statistikkaa ja virheviesti oli jo katsottu 87 kertaa. Näyttääpä purevan.

-- [Matti] Siivola 12.10.2004

Mjoo, mutta siellä on kaikki ne, jotka ovat käyneet katsomassa ko. sivua - mukaanlukien kaikki ne RecentChanges -addiktit, jotka haluavat lukea ihan kaiken :).  Pikaisesti logifileistä greppaamalla näyttää siltä, että sinne on viime yönä jäänyt yksi spämmeri jumiin.  Pitänee vielä sulkea tuo kieltosivu niin, ettei sitä voi muokata kuin käyttäjätunnuksen asettaneet.

-- [JanneJalkanen], 12.10.2004