Gruče v razredu

Podatke je pogosto smiselno opazovati tako, da jih združujemo v skupine, na primer, skupine podobnih držav, slik ali ljudi. Popularni algoritem hierarhičnega gručenja tule razložimo s kinestetično aktivnostjo. Da bi “nekam vodila”, jo je smiselno nadaljevati s katero od aktivnosti, v katerih gručimo resnične podatke.

Priprava “podatkov”

  1. Na tla učilnice ali primerno velikega prostora (potrebovali bomo približno 3x3 metre) s pleskarskim lepilnim trakom narišemo osi razsevnega diagrama. Če lepilnega traka nimamo, bomo pač nekoliko več mahali po zraku.

  2. V razsevni diagram bomo razpostavljali učence glede na njihovo znanje matematike in spretnost v nogometu. Lahko jim dajemo naključna imena, razporejamo pa jih tako, da dobimo nekako tri skupine in kakšnega osamelca. (Naj bo zabavno: kakega tipičnega nogometaša razglasimo za matematika ali obratno. Seveda pa popazimo, da koga ne prizadanemo.)

    Tule imamo odlični nogometašici Emo in Hano, pri čemer Ema ni posebej dobra v matematiki, pa tudi Hana ni veliko boljša. Fanči, recimo, blesti v obojem. Ivan pa je izrazit matematik, ki ima za nogomet dve levi nogi.

  3. Učence vprašamo: če bi morali razdeliti učence v skupine glede na njihove nogometne in matematične spretnosti, koliko skupin imamo? Tule, najbrž, tri: nogometaši, matematiki in tisti, ki so oboje. Poleg tega pa imamo Helgo, ki ji ne gre nič od tega.

  4. Kako pa bi skupine določili z računalnikom? Računalnik ne more kar “videti skupin”, temveč potrebuje postopek. Odvisno od starosti in računalniškega znanja učencev, si morda lahko zamislijo kak algoritem - morda pa tudi ne. :)

Postopek gručenja

Postopek je tu opisan za konkretni razpored z gornje slike. V razredu bodo imena druga, postopek enak.

  1. V začetku rečemo, da je vsak učenec skupina zase.

  2. V prvem koraku bomo dali skupaj učenca, ki sta si najbolj podobna. Z metrom pomerimo razdalje (vsaj med takšnimi, ki so si malo bližji, na primer med Gorazdom in Cilko, Gorazdom in Ivanom ter Hano in Benjaminom). Najbližja sta si Hana in Benjamin, torej bosta v isti skupini. Da bi si to zapomnili, da Hana roko na Benjaminovo ramo.

  3. V naslednjem koraku spet poiščemo najbližji par. Pomerimo in ugotovimo, da sta to najbrž Gorazd in Cilka. Gorazd da roko na Cilkino ramo.

  4. Naslednji najbližji par sta Gorazd in Ivan. Torej bo dal Gorazd roko na Ivanovo ramo (ali obratno). S tem so v tej skupini že trije učenci.

  5. To nadaljujemo. Včasih združujemo posameznike, včasih dodajamo posameznike k skupinam, proti koncu združujemo cele skupine. Pri tem se lahko malo zaplete z rokami; lahko se zgodi, da ima prav tisti, ki bi moral povezati skupini, že zasedeni obe roki. V tem primeru se je potrebno malo reorganizirati; namesto da bi imel Gorazd roko na Ivanovi rami, jo bo imel Ivan na Gorazdovi, pa ima Gorazd eno več. Zmanjkati pa rok ne more.

  6. Končamo, ko imamo le še eno skupino ali ko postanejo roke prekratke. Za razlago algoritma je primerno oboje. Če gremo do konca, pojasnimo, da smo dobili hierarhijo skupin. Če končamo malo prej, pa povemo, da se združevanje neha, ko postanejo skupine prevelike.

Kako to naredi računalnik?

Če želimo, lahko pokažemo še, kako to izvede računalnik.

  1. Odpremo že pripravljeni delotok za program Orange.

  2. Odpremo Hierarhično gručenje in Razsevni diagram. Okni postavimo tako, da sta vidni obe.

  3. Hierarhično gručenje že kaže dendrogram, ki prikazuje, kako se skupine združujejo. Skupaj ga preberemo, od desne proti levi: najbližja sta si Hana in Benjamin, naslednji par bo Cilka in Gorazd, potem Daniel in Fanči, pa Andrej in Ema. Nato se bo Gorazdu in Cilki pridružil Ivan in tako naprej, dokler ne ostane ena sama skupina.

  4. Združevanje lahko pokažemo tudi po korakih. V Hierarhičnem gručenju nastavimo “Prvih N” (nahaja se v spodnjem delu leve strani) na 11, kolikor je učencev. V razsevnem diagramu vidimo, da je vsak učenec skupina zase.

  5. Pogledamo, kdo si je najbol jpodoben - pravzaprav že vemo, Hana in Benjamin. Zmanjšamo število skupin na 10 in vidimo, da ju gručenje res združi v eno skupino.

  6. Spet pogledamo, kdo si je najbolj podoben… in tako naprej.

Zamolčani detajli

Pri izvedbi v živo smo pometli nekaj detajlov pod preprogo, pa tudi pri demonstraciji z računalnikom smo jih zamolčali.

Za merjenje razdalj tule uporabljamo kar “zračno razdaljo”. V praksi obstajajo različne definicije razdalj, poleg tega pa moramo paziti tudi na normiranje. Če bi imeli podatki različne merske lestvice (telesna višina v metrih je med 1 in 2, teža v kilogramih pa med 30 in 100), jih je potrebno ustrezno pomnožiti, da bodo med seboj primerljivi. Prav tako moramo primerno obravnavati kategorične spremenljivke, ko bi bila, na primer, barva oči.

Drugi detajl je razdalja med skupinami. Kako daleč sta si dve skupini? Toliko, kot sta oddaljena njena najbližja člana ali njena najbolj oddaljena člana? Ali pa računamo poprečno razdaljo? V angleščini temu rečemo linkage function. V tej demonstraciji merimo najbližjo razdaljo. V praksi pa se najbolj obnese neka bolj zapletena definicija, ki je nekoliko - a ne povsem - podobna povprečni razdalji.

  • Predmet: matematika
  • Trajanje: 15-25 minut
  • Starost: poljubna
  • UI tema: gručenje
  • Materiali za izvedbo
  • Priprava na uro
    • pleskarski lepilni trak za označevanje osi grafa na tla
    • meter
    • če želimo pokazati postopek tudi z računalnikom, potrebujemo računalnik z nameščenim programom Orange
  • Dodatna razlaga