Leposlovje in publicistika

Kratek povzetek

Z vidika slovenščine: utrjevanje razlikovanja med publicističnimi in leposlovnimi besedili

Z vidika umetne inteligence: učenci spoznajo, kako delati z zbirkami velikih besedil. Spoznajo, da je besedilo potrebno razdeliti na besede ter nato besede v besedilu prešteti. Nato spoznajo preprost napovedni model – logistično regresijo in izvedo, kako deluje (poenostavljena razlaga). Izvedo, da odločitve modela lahko raziščemo.

Predvideni potrebni gradniki Orangea: Corpus, Preprocess Text, Bag of Words, Logistic Regression, Nomogram

Učenci znajo:

  • brati daljše sestavke besedil,
  • šteti in seštevati večje vsote,
  • razumejo, kaj določa leposlovna in kaj publicistična besedila,
  • risati, brati in razložiti grafični prikaz (npr. škatlo z brki).

Uvod

Naložimo korpus leposlovnih in publicističnih besedil. Učence vprašamo, kaj določa posamezno skupino besedil. Bo računalnik razpoznal enake razlike, kot so jih predlagali oni?

Opazovanje podatkov

Podatke naložimo v Corpus in ga povežemo v Box Plot. Tam kot spremenljivko izberemo število besed, podatke pa delimo glede na kanal. Tako lahko vidimo, na primer, katera besedila so daljša in katera krajša.

Vprašanje za učence: nekaj leposlovnih besedil je vseeno enako kratkih kot publicistična besedila. Katera leposlovna besedila so to? (pravljica, črtica)

Priprava podatkov za računalnik

Razložimo, da računalnik ne zna početi ničesar z besedili. Zanj je to kup neuporabnih znakov. Kako besedila beremo ljudje? Kaj je osnovna enota besedil? (Odgovor: beseda)

Najprej moramo besedilo razdeliti na osnovne enote, to so besede. Pokažemo primer na tablo. “Očeta sem prosila za knjigo.” → očeta, sem, prosila, za, knjigo, .

Super, besede lahko štejemo. Poglejmo najpogostejše besede v podatkih. (Word Cloud) Opa, kaj je narobe z oblakom besed? (Tukaj učence poskusimo pripeljati do tega, da jim oblak besed ni všeč, saj vsebuje ločila (če ne poznajo besede, jim jo predstavimo) in odvečne besede.)

Ali bomo piko upoštevali? Kaj pa druga ločila? Kaj storimo z besedami, kot so “je”, “da”, “in”, “se”, “na” (ali že poznajo členke, veznike, predloge)? Nam kaj povedo o vsebini besedil? Zakaj (ne)?

Oblak besed lahko “popravimo”. Računalniku povemo, katerih delov besedila naj ne upošteva. Na primer, lahko odstranimo vsa ločila in nepolnopomenske besede (tem rečemo preprosteje odvečne besede).

Na enak način pripravimo naš testni stavek. očeta, prosila, knjigo

Ali se je ohranil pomen stavka? Zakaj ja/ne? Kako bi lahko še enostavneje napisali zgornji stavek? (cilj je, da razmislijo o sklonih in glagolskih časih) oče, prositi, knjiga

Katere informacije smo v tem postopku izgubili?

Od besedil k številkam

Računalniki so odlični v računanju (kot pove že njihovo ime!), v branju besedil pa niso nič kaj dobri. Zato moramo zanje pripraviti besedila v obliki, ki jo računalnik razume. Na primer v obliki številk.

Kako lahko opišemo besedila s številkami? Primer smo videli pred kratkim v vreči besed. (odgovor: tako, da preštejemo besede)

Vzeli bomo 1000 najpogostejših besed in prešteli, kolikokrat se pojavijo v posameznem besedilu. Temu rečemo vreča besed.

Napovedni model in razlaga

Zgradimo napovedni model, ki bo razlikoval med eno in drugo vrsto besedil. Za to bomo uporabili logistično regresijo. Razložimo, da nekatere modele lahko razložimo oz. lahko vidimo, katere spremenljivke so pomembne za njihovo odločanje (tu jih spomnimo na odločitveno drevo, če so to že obravnavali na prejšnji delavnici).

Naš model lahko pogledamo v gradniku, ki se imenuje Nomogram. Ta nam pokaže, katere besede so značilne za leposlovna besedila in katere za publicistična.

Se učenci strinjajo z rezultati? Zakaj je/ne? Je model dovolj dober, da bi namesto nas pisal test?

Zaključek

Učencem povemo, da računalniki lahko hitro in enostavno pregledamo velike količine besedil. Spomnimo jih na vsiljeno pošto. Njih verjetno ne zanimajo sporočila, ki jih vabijo k nakupu zobne proteze, zato je priročno, če lahko taka neželena sporočila kar avtomatsko odstranimo. Današnji odjemalci elektronske pošte počno prav to - za odstranjevanje neželene pošte uporabljajo modele, ki na podlagi porazdelitve besed znajo razlikovati med željeno in neželjeno pošto.

Informacije o aktivnosti

  • Predmet: slovenščina
  • Starost: 4. razred
  • UI tema: klasifikacija
  • Razlaga ozadja:
    • klasifikacija pdf
    • predavanje o klasifikaciji mov
  • Potek aktivnosti:
    • ucna ura pdf
    • ucni list pdf
    • podatki 1 csv
    • podatki 2 csv
    • video ucne ure mov
    • delotok ows