Monet proti Manetu

Kratek povzetek

Z vidika umetnostne zgodovine: razlikovanje med stiloma dveh umetnikov iste generacije

Z vidika umetne inteligence: dijaki spoznajo, kako analizirati slikovno gradivo. Spoznajo, da je slike potrebno pretvoriti v številke in kakšno vlogo imajo pri tem globoke nevronske mreže. Nato zgradijo preprost napovedni model in spoznajo matriko zmot, ki jo nato tudi raziščejo.

Predvideni potrebni gradniki Orangea: Import Images, Image Embedding, Image Viewer, Logistic Regression, Test and Score, Confusion Matrix

Dijaki znajo:

  • uvrstiti stil slike v določeno umetnostno smer,
  • določiti motive slik in identificirati umetniške prvine,
  • vedo, kateri avtorji uporabljajo kateri stil,
  • razumejo, da kompleksni algoritmi pomagajo pri upravljanju podatkov (npr. avtonomna vozila).

Uvod

Naložimo 107 slik Edouarda Maneta (1832) in Claude Moneta (1840). Dijake vprašamo, ali poznajo katerega od avtorjev in po čem (katera dela, kakšen stil). Poskusimo jih uvrstiti v umetniško smer (Manet: realizem, impresionizem; Monet: impresionizem). Nam računalnik lahko pomaga odkriti ključne razlike med avtorjema?

Opazovanje podatkov

Podatke naložimo v Import Images in ga povežemo v Image Viewer. V njem pogledamo, katere slike smo naložili. Izpostavimo nekaj bolj znanih (Manet: Luncheon on the grass; Monet: Water lilies)

Pokažemo sliki The Grand Canal in Venice. Ali znajo povedati, katera izmed slik je Monetova in katera Manetova? Namignemo, da je to že del ocenjevanja algoritma, ki se imenuje AUC in predstavlja točno to - če imamo dve sliki, od katerih je ena Monetova in druga Manetova, s kolikšno verjetnostjo bomo pravilno določili avtorja.

Globoke nevronske mreže in vložitve

Računalnik je odličen matematik, ni pa ravno uspešen umetnostni zgodovinar. Zgolj na podlagi slike ne bo uspel ugotoviti ničesar pametnega. Zato moramo slike opisati s številkami.

Kako bi slike opisali dijaki? Kaj bi bile značilke (predstavim koncept značilk)? (najverjetneje bodo predlagali štetje ali opisovanje z barvami)

Kaj ne bi bilo bolje, če bi sliko opisali na podlagi njenega motiva? Na primer, da bi portreti imeli drugačne številke kot krajine? Da bi recimo šteli pojavitve oči, nosov, ust, trave, dreves, in gora? Ter bi na podlagi tega primerjali slike?

Nekaj podobnega počnejo globoke nevronske mreže. Pri tem gre za kompleksne algoritme, ki simulirajo človeško percepcijo. Lahko si predstavljamo, da globoki model na sliki prepozna kvadrate, diagonalne črte, vodoravne črte, trikotnike, ovale in tako naprej ter na podlagi tega sestavi številski opis.

Primer takega model je Inception v3, ki ga je naučil Google na 14 milijonih slik. Model uspešno ločuje med motivi slik, npr. prepozna, ali je na sliki raca ali avto. V našem primeru bo določil, kateri motiv se pojavi na sliki.

Problem je, da teh modelov ne moremo razložiti. Značilke, ki jih vrnejo, so povsem nerazumljive ljudem. (pogledamo v Data Table, kaj se zgodi s podatki)

Gradnja napovednega modela

Ko slike opišemo s številkami, lahko zgradimo napovedni model. Najprej potrebujemo postopek ocenjevanja. Tega določimo v gradniku Test and Score. Uporabili bomo prečno preverjanje, ki podatke razdeli na enakomerne skupine in v vsakem koraku uporabi drug del podatkov za učenje in en za testiranje modela. Kakovost modela ocenimo z mero AUC, ki se je spomnimo od prej. Na nek način nam ta mera pove, kako dobro, izmed dveh slik, znamo določiti avtorja.

Nato potrebujemo še postopek za učenje. Izbrali smo logistično regresijo, ki jo pripeljemo v postopek za ocenjevanje (Test and Score). Točnost modela je dokaj visoka, 0.932. Logistična regresija tako dokaj uspešno loči med slikarjema.

Še vedno pa ni nezmotljiva. Poglejmo si, kje se je model zmotil. To storimo v matriki zmot (Confusion Matrix). V diagonalnih, modrih poljih so pravilno napovedani primeri. V rdečih poljih pa so nepravilno napovedani. Za 5 primerov model misli, da jih je naslikal Monet, čeprav je njihov avtor v resnici Manet.

Poglejmo si, katere slike so to. Izberimo polje v matriki zmot in si poglejmo slike v gradniku Image Viewer. Napačno klasificirane Manetove slike vsebujejo zelenje, vodo in mehke poteze. To si tipične lastnosti Monetovega sloga.

Kaj pa obratno? Napačno uvrščene Monetove slike vsebujejo motive ljudi in izrazite linije in kontraste. Vse, kar je značilno za Manetov stil.

Zaključek

Napovedni modeli ter globoke nevronske mreže, ki vpenjajo slike v številski prostor, se dandanes uporabljajo vsepovsod. Tak primer je Google Search, kjer lahko uporabnik išče z ukazom “pomaranča” in bo algoritem v ozadju uspel najti slike pomaranč, četudi te niso označene z izrazom “pomaranča”. Globoke nevronske mreže se uporabljajo tudi pri računalniškem vidu, na primer pri samovozečih avtomobilih za zaznavanje tipov objektov na cesti.

Informacije o aktivnosti

  • Predmet: umetnostna zgodovina
  • Starost: 4. razred
  • UI tema: klasifikacija
  • Razlaga ozadja:
    • klasifikacija pdf
    • predavanje o klasifikaciji mov
  • Potek aktivnosti:
    • ucna ura pdf
    • ucni list pdf
    • slike Moneta in Maneta zip
    • delotok ows