Podobnost narečnih skupin

Kratek povzetek

Z vidika slovenščine: razumevanje podobnosti slovenskih narečij in fonetičnega zapisa

Z vidika umetne inteligence: dijaki spoznajo, kako delati z zbirkami besedil. Spoznajo, da je besedilo potrebno razdeliti na enote (glasove) ter nato glasove v besedilu prešteti. Nato spoznajo, kako urediti dokumente po podobnosti (glede na fonetično izgovorjavo). Naučijo se raziskati odkrite skupine in jih osmisliti.

Predvideni potrebni gradniki Orangea: Corpus, Preprocess Text, Bag of Words, Distances, Hierarchical Clustering, Geo Map, Box Plot

Dijaki znajo:

  • poznajo osnove fonetičnega zapisa,
  • poznajo narečne skupine in podskupine,
  • poznajo osnovne parametre delitev na narečne skupine (vsebnost ali odsotnost zvokov, diftongi),
  • risati, brati in razložiti grafični prikaz (npr. škatlo z brki).

Uvod

Naložimo korpus slovenskih narečij, v katerem različni govorci opisujejo stare hiše v svojem okolju. Dijake vprašamo, kako določimo narečne skupine, po čem so si podobne oz. različne. Kako bi pripravili značilke, da bi na njihovi podlagi čim bolj uspešno primerjali narečja?

Opazovanje podatkov

Podatke naložimo v Corpus in ga povežemo v Corpus Viewer. Tam opazujemo razliko med fonetičnim zapisom in poknjiženim zapisom. Poskušamo ugotoviti, katere značilke so pomembne za razlikovanje.

Priprava podatkov za računalnik

Razložimo, da računalnik potrebuje številski opis dokumentov, da jim bo zmogel primerjati po podobnosti. Kaj bi bila osnovna enota narečij, da bi jih lahko uspešno primerjali? (Odgovor: zvok/črka)

Najprej moramo besedilo razdeliti na osnovne enote, torej črke. Pogledamo oblak besed (ki je grd :( ) in ugotovimo, kateri so najpogostejši zvoki v slovenščini. Očitno a in e, nato s. (Vprašamo jih, če igrajo Wordle ali Besedle. Kako bi jim to znanje pomagalo pri igri?)

Kot smo omenili, računalnik dela s številkami. Besedila smo razbili na posamezne zvoke, nismo pa besedil še številsko opisali. Kako to najlažje storimo? (odgovor: tako, da preštejemo zvoke/črke)

Vzeli bomo naših 26 črk in prešteli, kolikokrat se pojavijo v posameznem besedilu. Temu rečemo vreča besed.

Vendar pa golo štetje ni dovolj. Poglejmo si zapisa iz Šentruperta (kratek) in Vrhovega (dolg). Kaj je narobe s tem, da zgolj štejemo pojavitve? (odgovor: pristranost na daljša besedila)

Da zaobidemo problem visokih frekvenc črk, ki so splošno pogoste v besedilu, lahko uporabimo transformacijo, ki frekvence uteži glede na to, kako pogosta je črka v besedilu. Če se črka pojavi v vseh besedilih, naj ima nižjo pomembnost (težo), kot črka, ki se velikokrat pojavi v malo besedilih. (predstavimo koncept TF-IDF)

Hierarhično razvrščanje

Primerjajmo besedila med sabo. Vzeli bomo preštete črke iz vreče besed in besedila primerjali med sabo. Podobnost bomo izračunali s kosinusno razdaljo, ki ustvari matriko podobnosti oz. razdalj. (pokažemo Distance Matrix in razložimo, da je to tako, kot razdalje med kraji)

Nato dodamo Hierarchical Clustering, ki elemente združuje po podobnosti. Najprej se bosta združila elementa, ki sta si najbolj podobna. Nato naslednja dva najbolj podobna elementa, nato naslednja in tako naprej. Lahko združujemo tudi skupine. Če je element najbližje skupini, se ji bo priključil.

Postopek se imenuje hierarhično razvrščanje v skupine in je prikazan v vizualizaciji dendrogram. Dendrogram beremo od desne proti levi, pri čemer pričnemo z besedili v svojih vejah, nato pa jih združujemo po podobnosti. Daljša kot je črta med elementoma, manjša je njuna podobnost.

Dendrogram lahko odrežemo pri poljubni višini tako, da dobimo želeno število skupin. Na primer pet skupin.

Narečne karte

Izbrane skupine lahko pogledamo na zemljevidu, saj vemo, iz katerega kraja prihaja govorec. V podatkih se celo nahajata informaciji o zemljepisni širini in dolžini.

Rezultate gručenja dodamo v Geo Map, kjer točke barvamo po gručah. Vprašamo dijake, ali se jim gručenje zdi smiselno. Zakaj ja/ne?

Kaj bi lahko sklepali na podlagi zemljevida?

Raziščimo, zakaj se je računalnik tako odločil. Izbrane skupine bomo raziskali v gradniku Box Plot. Podatke bomo razdelili po skupinah, kar pomeni, da v razdelku Subgroups izberemo spremenljivko Cluster.

Nato uporabimo statistiko, da nam pomaga odkriti tiste spremenljivke, ki najbolje ločujejo skupine. Tej statistiki se reče ANOVA in pomeni oceno razlike med skupinami. V grafičnem prikazu to pomeni, da iščemo take spremenljivke, kjer so skupine čim bolj ločene (imajo čim bolj različne porazdelitve).

To stori možnost “Order by relevance to subgroups”. Ko jo izberemo, se spremenljivke razvrstijo tako, da bo na vrhu seznama tista spremenljivka, ki najlepše loči med skupinami. Očitno je to črka w, ki predstavlja glas uə. Ta je zaznamuje skupine dve, torej primorsko narečje.

Ali veste, kako domačini rečejo Ajdovščini?

Zaključek

Dijakom povemo, da računalniki lahko enostavno urejajo velike količine besedil. Lahko jih gručijo (kot smo jih mi), lahko napovedujejo razred (npr. avtorja, pripadnost politični stranki ali sentiment), lahko celo generirajo nova besedila. Gručenje se uporablja zlasti za organizacijo večjih skupin besedil.

Informacije o aktivnosti

  • Predmet: slovenščina
  • Starost: 4. razred
  • UI tema: klasifikacija
  • Razlaga ozadja:
    • klasifikacija pdf
    • predavanje o klasifikaciji mov
  • Potek aktivnosti:
    • ucna ura pdf
    • ucni list pdf
    • narečja s fonetičnim zapisom teb
    • delotok ows