Prva delavnica za učitelje: Gručenje

Na svetu je precej držav: Slovenija, Avstrija, Irska, Grčija, Nova Zelandija, Kamerun in še slabih dvesto drugih. Nekatere so si kar podobne, na primer Slovenija in Avstrija. No, vsaj v primerjavi s tem, kako malo sta si podobna Irska in Kamerun.

Kaj mislimo s podobni? Kakor kdaj. Lahko bi rekli, da so si podobne države, v katerih so popularni isti športi. Ali pa iste (brez)alkoholne pijače. Države, v katerih živijo iste živalske vrste. Za potrebe prve delavnice za učitelje pa smo države primerjali glede na bolj običajne podatke: vzeli smo sociodemografske podatke, ki jih svetovna banka zbira za potrebe izračuna indeksa človeškega razvoja. V njih je za vsako državo zabeleženo, koliko let se njeni prebivalci v poprečju šolajo, kakšna je njihova brezposelnost in koliko zaslužijo, koliko je upokojencev in koliko zdravnikov, koliko žensk je v parlamentu in koliko let v poprečju živijo (ženske, moški in oboji skupaj).

Ko imaš tako imenitne podatke, si ne moreš kaj, da jih ne bi začel vrteti v programu, kot je Orange. Na prvi delavnici smo izračunali podobnosti med državami (s tem se pravzaprav nismo veliko ukvarjali, o različnih načinih računanja podobnosti smo se bolj razpisali v dodatnem gradivu), potem pa smo se poučili o postopku hierarhičnega gručenja.

Gručenje (clustering) je skupno ime za različne metode, ki znajo podatke (ljudi, besed, države, živali … karkoli) iz neke zbirke združiti v smiselne skupine. Hierarhično gručenje (hierarchical clustering) se dela loti tako, da združuje posamične primere v vedno večje skupine in tako ustvari celo hierarhijo skupin.

In rezultat? Kaj so odkrili udeleženci delavnice? Komu je najbolj podobna Slovenija? In komu, kot smo se spraševali v podnaslovu, Kuba?

Nikar no tako neučakano. Najprej delotok, ki smo ga sestavili: podatke smo naložili, izračunali razdalje, zgručili podatke in jih postavili na zemljevid.

Delotok gručenja

Države se nekako najbolj naravno delijo v tri skupine. V eni so evropske države s severno Ameriko in Avstralijo ter še parimi. V drugi so južna Amerika, sever Afrike in večina Azije. V tretji je večina Afrike in ostanek Azije vključno z - ji gre res tako slabo? - Indijo. (V mladih letih avtorja tega besedila se je temu reklo nerazviti, razviti in v razvoju; današnja politična korektnost se ob takem poimenovanju malo skremži.)

Delitev držav v tri skupine glede na sociodemografske značilnosti

Slovenija se nahaja v prvi skupini. Ker se gremo hierarhično gručenje, pa lahko vidimo tudi, kako se ta skupina deli naprej.

Delitev bolj razvitih držav v podskupine

Razvitejša skupina se deli v dve podskupini, ki bi jih politično in geografsko nekorektno poimenovali zahodne in vzhodne države. Članstvo je večinoma po pričakovanjih, zanimivo pa je najti mediteranske države: Portugalsko, Španijo, Italijo in Grčijo. Znašli so se v isti gruči, kar je, po svoje, kar presenetljivo, če pomislimo, da v podatkih ni ničesar o geografiji, temveč samo gospodarstvo, šolstvo, zdravstvo in podobno. Da gručenje ne ve ničesar o geografiji pa pove država, ki se jim je pridružila: Kuba! To je presenetilo marsikoga, ne pa tudi tistih, ki o Kubi vedo kaj več: izvzemši dvomljivo stanje kubanske demokracije, gre za državo, v kateri - kadar ni ravno preveč soparno - ni tako slabo živeti, vsaj kar se tiče kriterijev, ki jih opisujejo ti podatki (šolstvo, zdravstvo, dolžina življenja).

Pa Slovenija, pa Slovenija? Zanimivo: po teh podatkih je najbolj podobna Irski, obe skupaj pa se pridružita, ha, višegrajski skupini. Kam se razmestijo druge države, si lahko ogledate na sliki. Še boljše pa bo, če poskusite sami.

Kaj smo se torej naučili na delavnici? Večina udeležencev se je prvič srečala s podatkovno analitiko in programom Orange. Upamo, da so videli, da ne eno ne drugo ni bavbav. Spoznali so preprost algoritem gručenja. Obenem pa so morda pridobili kakšno zanimivo novo spoznanje o svetu, v katerem živimo.