Hierarhično gručenje

Podatke je pogosto smiselno opazovati tako, da jih združujemo v skupine, na primer, skupine podobnih držav, slik ali ljudi. V več učnih urah uporabljamo hierarhično gručenje. Če ga želimo razložiti, lahko izvedemo tu opisano kinestetično aktivnost.

Priprava “podatkov”

Na tla učilnice ali primerno velikega prostora (potrebovali bomo približno 3x3 metre) s pleskarskim lepilnim trakom narišemo osi razsevnega diagrama. Če lepilnega traka nimamo, bomo pač nekoliko več mahali po zraku.

V razsevni diagram bomo razpostavljali učence glede na njihovo znanje matematike in spretnost v nogometu. Lahko jim dajemo naključna imena, razporejamo pa jih tako, da dobimo nekako tri skupine in kakšnega osamelca. (Naj bo zabavno: kakega tipičnega nogometaša razglasimo za matematika ali obratno. Seveda pa popazimo, da koga ne prizadanemo.)

V gornjem primeru imamo odlični nogometašici Emo in Hano, pri čemer Ema ni posebej dobra v matematiki, pa tudi Hana ni veliko boljša. Fanči, recimo, blesti v obojem. Ivan pa je izrazit matematik, ki ima za nogomet dve levi nogi.

Učence vprašamo tole: če bi morali razdeliti učence v skupine glede na njihove nogometne in matematične spretnosti, koliko skupin imamo? Tule, najbrž, tri: nogometaši, matematiki in tisti, ki so oboje. Poleg tega pa imamo Helgo, ki ji ne gre nič od tega.

Kako pa bi skupine določili z računalnikom?

Postopek gručenja

V začetku rečemo, da je vsak učenec skupina zase.

V prvem koraku bomo dali skupaj učenca, ki sta si najbolj podobna. Z metrom pomerimo razdalje (vsaj med takšnimi, ki so si malo bližji, na primer med Gorazdom in Cilko, Gorazdom in Ivanom ter Hano in Benjaminom). Najbližja sta si Hana in Benjamin, torej bosta v isti skupini. Da bi si to zapomnili, da Hana roko na Benjaminovo ramo.

V naslednjem koraku spet poiščemo najbližji par. Pomerimo in ugotovimo, da sta to najbrž Gorazd in Cilka. Gorazd da roko na Cilkino ramo.

Naslednji najbližji par sta Gorazd in Ivan. Torej bo dal Gorazd roko na Ivanovo ramo (ali obratno). S tem so v tej skupini že trije učenci.

To nadaljujemo. Včasih združujemo posameznike, včasih dodajamo posameznike k skupinam, proti koncu združujemo cele skupine. Pri tem se lahko malo zaplete z rokami; lahko se zgodi, da ima prav tisti, ki bi moral povezati skupini, že zasedeni obe roki. V tem primeru se je potrebno malo reorganizirati; namesto da bi imel Gorazd roko na Ivanovi rami, jo bo imel Ivan na Gorazdovi, pa ima Gorazd eno več. Zmanjkati pa rok ne more.

Tako nadaljujemo, dokler gre - bodisi do konca, bodisi dotlej, ko postanejo roke prekratke. Za razlago algoritma je primerno oboje. Če gremo do konca, pojasnimo, da smo dobili hierarhijo skupin. Če končamo malo prej, pa povemo, da se združevanje neha, ko postanejo skupine prevelike.

Kako to naredi računalnik?

Enako, le nekaterih detajlov ne moremo kar tako pomesti pod preprogo.

Za merjenje razdalj tule uporabljamo kar “zračno razdaljo”. V praksi obstajajo različne definicije razdalj, poleg tega pa moramo paziti tudi na normiranje. Če bi imeli podatki različne merske lestvice (telesna višina v metrih je med 1 in 2, teža v kilogramih pa med 30 in 100), jih je potrebno ustrezno pomnožiti, da bodo med seboj primerljivi. Prav tako moramo primerno obravnavati kategorične spremenljivke, na primer barvo oči.

Drugi detajl je razdalja med skupinami. Kako daleč sta si dve skupini? Toliko, kot sta oddaljena njena najbližja člana ali njena najbolj oddaljena člana? Ali pa računamo poprečno razdaljo? V angleščini temu rečemo linkage function. V tej demonstraciji merimo najbližjo razdaljo v praksi pa se najbolj obnese neko bolj zapletena definicija, ki je nekoliko - a ne povsem - podobna poprečni razdalji.

Ta demonstracija bo tipično del obdelave nekih konkretnih podatkov in se bo nadaljevala tako, da bomo postopek pokazali v gradniku Hierarchical Clustering.

  • Predmet:
  • Starost:
  • UI tema:
  • Priprava na uro
    • pleskarski lepilni trak za označevanje osi grafa na tla
    • meter