Informatie vervat in een ongestructureerd bestandsformaat zoals een tekstdocument bruikbaar maken in het strikt gestructureerde GIS-datamodel, vraagt de extractie van enkel die gegevens die relevant voor het beantwoorden van je ruimtelijke onderzoeksvraag.
De statistische samenvatting van een tekstcorpus heet "distant reading". GIS is een innovatieve verrijking van deze methode: de identificatie van de belangrijkste sleutelwoorden bij de toponiemen, brengt ook de ruimtelijke patronen in de tekst aan het licht. De extractie van de sleutelwoorden in hun tekstuele context, bieden de mogelijkheid om de patronen verder te bestuderen d.m.v. "close reading".
Het Nieuws- en Advertentieblad met Voyant
Voyant
is een open source tool voor “distant reading” en basistekstanalyse. Het is
tekstanalyse zonder programmeren in R of Python. Dat betekent (relatief) gebruiksgemak,
maar ook beperkingen.
Woordfrequenties visualiseren
Functie: "cirrus"
Meest voorkomende woorden in het hele corpus (die geen stopwoorden zijn).
Veranderingen in de verkochte houtsoorten?
Meest voorkomende woorden in de eerste editie van 1876.
Meest voorkomende woorden in de eerste editie van 1926.
Sleutelwoorden in context
Functie: "contexts"
Schaarhout: eiken en elzen
Dunsel: dennen en masten
Evoluties doorheen de tijd
Functie: "trends"
Typen bomen doorheen het corpus (= de tijd). Dennen*
i.p.v. den* werd gebruikt, door andere betekenissen („den 1e Januari“). De
steekproef is beperkt, maar we zien het aantal verkopen van bomen aangekondigd
in het blad dalen tijdens WO 1. Het aantal verkochte eiken en masten (+
dunneling/schaarhout ervan) volgt eenzelfde trend. De uitschieter van eiken in
1926 zou bevestigd moeten worden a.d.h.v. een groter corpus.
Samenhang visualiseren
Functie: "collocates graph"
Welke woorden komen frequent samen voor? Context window = 15 tokens (aan weerszijden)
In beemden was vooral schaarhout te koop