Omgaan met data
Waarom zou je dit leren?
We leven in een tijd van informatie-overvloed en gebrek aan tijd. Dit heeft een serieuze impact op disciplines in de Letteren, of het nu om talen, geschiedenis of area studies gaat. Daar waar de meeste gebruikte methoden vroeger, en dan bedoelen we voor de internet periode, uitgingen van schaarste aan informatie en voldoende tijd voor grondige analyse, is het nu zo dat het overaanbod van informatie ons dwingt keuzes te maken. Informatie zoeken is dan ook vooral selectief zijn, keuzes maken.
Dat betekent dat je ook in staat moet zijn grote gehelen aan informatie te verwerken, en analyses te maken op datagehelen waar niet dadelijk zelf een overzicht over kan hebben. Men noemt zoiets "big data analysis", in de Letteren vertaalt zich dat naar wat we "distant reading" zouden noemen.
Big data analyse vertrekt vaak vanuit minimaal gestructureerde data. Dat hoeven geen tabellen te zijn, - het kan ook om gestructureerde tekst gaan - maar dat is wel vaak zo. Een van de eenvoudigste formaten om dergelijke data tussen toepassingen uit te wisselen is het CSV formaat.
Wij zullen aandacht besteden aan twee applicaties die, hoewel erg verschillend van aard, jullie kunnen helpen om te leren met grotere gegevensreeksen om te gaan. Dat is enerzijds Excel en anderszijds Zotero.
Voor dit eerste deel van het vak zijn er dus twee oefeningen in zelfstudie: leren werken met Zotero, en leren werken met Excel. Op de cursustekst zelf wordt in de lessen niet ingegaan, dat is zelfstudie.
Leermateriaal
Dit is de meest uitgebreide module van de hele cursus. Er zijn vier units: zotero, excel, databanken en metadata.
Zotero
Wat is Zotero?

Zotero helpt je om referenties naar allerlei soorten informatiebronnen in een juist formaat te zetten, om een verzameling van die referenties te organizeren en te annoteren in een databank en die te delen met andere zotero-gebruikers.
Los van bronnenbeheer:
- is het een instrument dat je kan helpen om goeie gewoontes aan te kweken op vlak van persoonlijk informatiebeheer
- gaan we de databank van zotero ook gebruiken in een oefening op databanken
- is het ook een schrijfhulp voor papers en andere schrijfopdrachten omdat je er efficiënt bronnenmateriaal mee kan organiseren via trefwoorden, leesfiches en relaties tussen de fiches
Download en installatie

Basisfuncties
Bekijk onze tutorial, die is vrij volledig en helpt je direct aan de slag te gaan.
Aanleggen persoonlijke bibliografische database
-
Zoeken op thema's en trefwoorden
-
Citation Style, referentiesysteem kiezen (belangrijk voor sharing) voorstel: Chicago Manual of Style 16th edition (author-date)
Preferences --> Export --> Bibliographical styles
-
Tagging (eveneens belangrijk voor delen)
Delen persoonlijke bibliografische database
- sync je gegevens op je harde schijf met zotero.org
- maak een zotero account aan
- voeg die account informatie toe aan je zotero preferenties
- sync. Let wel: synchroniseert enkel bibliografische gegevens, geen bestanden (zoals pdf's)
- sync je gegevens op zotero.org met de zoterogroep Informatiekunde


Nog hulp nodig?
Twee iets oudere instructiefilmpjes; interface licht gewijzigd sindsdien maar functies nog steeds gelijk:
-
Download en installatie gelukt?
-
Preferences
- General - alles onder misc & groups aanvinken
- sync
- info zotero-account invoeren
- sync automatically
- search - build index
- hulpprogramma's pdf-indexering installeren
- export - default output format kiezen
- cite - teksverwerker plugins nodig?
- advanced - kies een custom data directory location
-
Import via connectoren
- Kan je een individueel artikel importeren?
- aandacht voor de info, notes, tags en related velden
- Kan je importeren via Limo?
- Kan je een individueel artikel importeren?
-
Manueel toevoegen
- groene plus knop
- save to zotero (webpage)
- toverstaf
- pdf
- drag & drop
- import file
- rechtsklikken - retrieve metadata
- create parent
-
Organiseren
- tag (overzicht onderaan links)
- subfolders
- rechtsklikken en aanmaken
- drag & drop item naar subfolder (betekent niet dat je die verwijdert)
-
Aanmaken en exporteren referenties
- rechtsklikken, create bibliography -- copy to clipboard -- plakken in bestand
- rechtsklikken op collectie, create bibliography -- copy to clipboard -- plakken in bestand
-
synchroniseer met groep of omgekeerd
-
When you have selected an item in the middle column, you can highlight all collections that contain this item by holding down the “Option” key on Mac OS X (=alt), the “Control” key on Windows, or the “Alt” key on Linux.
-
Press ”+” (plus) on the keyboard within the collections list or items list to expand all nodes and ”-” (minus) to collapse them.
-
To see the number of items in the selected library or collection, click an item in the middle column and use the Select All shortcut (Command-A on Mac OS X or Control-A on Windows and Linux). A count will appear in the right column (attachments are included in the count when visible, i.e. when the parent item is expanded).
-
When using Quick Copy (= drag & drop), holding the “Shift” key while dragging and dropping items into a text document will insert citations instead of full references.
-
You can click the DOI and URL field labels to open the field link. To prevent the link to load in the active tab, you can use the standard Firefox shortcut keys for tab/window opening: Ctrl/Cmd-click for a new background tab, Ctrl/Cmd-Shift-click for a new foreground tab, and Shift-click for a new window.
-
Manually adding authors to a Zotero item? You can use Shift+Enter after typing each name as a faster alternative to clicking the ”+” button.
-
Enter a series of items by duplicating a template. Adding a series of related references to your library? Start with one item for which you fill in the fields that are the same for all items (e.g. editors, book title, year, publisher, place) and duplicate it (Right-click > Duplicate item). Then fill in the particularities.
-
Quick Copy a citation using Ctrl+Alt+C or drag and drop. Sending a PDF to a colleague, or mentioning a reference somewhere? Quickly copy the citation by selecting the reference and pressing Ctrl+Alt+C (Command+Alt+C on the Mac), or simply drag it from Zotero onto any edit window (for example a new email). The default output style can be specified under Preferences > Export; the shortcut key can be customized under Shortcut keys.
-
Have Zotero index your PDFs. Zotero can index your PDF attachments and make them fully searchable, turning your library from a mere linked catalogue into a Google Books of sorts. The option is turned off by default because it relies on an external open source program (pdf2txt) which is not distributed with Zotero. However, Zotero can automatically install it and enable fulltext indexing: simply go to Preferences > Search and click on the ‘Check for installer’ button. For more info see pdf fulltext indexing in the Zotero documentation.
-
Start quicksearch with ” to trigger advanced search. By default, Zotero starts searching when you put the first few characters in the Search box. In a large library with fulltext indexing enabled, this can be tiresome (you wanted to look for “statistical methods”, but Zotero locks down searching for “st”). To avoid this, simply start your search with ” (double quote) to have Zotero wait until you finish typing and hit enter.
-
Put your Zotero folder in a sensible place. Go to Preferences > Advanced to customize the storage location. You can place it in a folder that is included in your regular backup schedule or put it on a portable drive so that your library always travels with you.
-
Keep track of recent additions using a saved search. Often you add new items without worrying about tagging or putting them in collections. Click Advanced search, select “Dated Added” > “is in the last” > X “days/months” and fill in the desired period; then save the search. This gives you a dynamically updated overview of your latest additions, so that you can go back to them and do the categorization and tagging work when it suits you.
-
Tag multiple items at once. Want to tag multiple items at once? Select them, make sure the tag selector is visible in the left pane, and drag them onto the tag you want to use. The tag will be applied to all items.
-
Tag incomplete items to find them back and fix them later. Sometimes you know an item has incomplete metadata (e.g. missing page numbers or publisher), but you don’t have the time to fix it right away. Make it a habit to tag such items (“needs metadata”) when you see them. Now you can find them and fix them whenever you have some time to kill.
-
Use a separate folder for files to be ingested. Someone gives you a bunch of PDFs to read; or you download a paper somewhere without having the metadata handy. Make it a habit to save such files in a subfolder /new/ in your Zotero folder. Then once in a while go through that folder. Do a quick search for the title on your favourite repository, grab the metadata, and then drag the PDF from your filemanager onto the reference in Zotero. Much better than having those loose PDFs scattered all over your hard drive (or in your mailbox!) — and it helps you keep track of your reading history too.
-
Display a timeline to visualize your bibliography. Not a feature you’ll use everyday, but a neat one nonetheless: Zotero can display your library, or portions of it, on a timeline. Select a group of references, a tag, or a collection and click ‘Create timeline’ (in the Gear menu). This gives you an overview of the items in time.
-
Flickr-foto’s opslaan in functie van een presentatie bijvoorbeeld.
-
Zotfile: a Zotero plugin to manage your attachments: automatically rename, move, and attach PDFs (or other files) to Zotero items, sync PDFs from your Zotero library to your (mobile) PDF reader (e.g. an iPad, Android tablet, etc.) and extract annotations from PDF files.
-
Zoeken via ISBN: gebruik de 'toverstaf' om de metadata van een bron op te zoeken aan de hand van het ISBN-nummer
-
Metadata PDF toevoegen: wanneer je een pdf vanaf je harde schijf toevoegt aan je zotero bibliotheek komen de metadata niet automatisch mee. Je kan zotero laten proberen die metadata op het net te vinden: rechtsklik op de pdf, 'Retrieve metadata'
Bronnen: Zotero documentation, ideophone.org
2017/10/09: onderstaande workflow is enkel bedoeld ter informatie/demonstratie. Het is geen leerstof of opdracht.
Wat kan je doen met zotero als database?
1. exporteren naar csv, importeren in excel, importeren in drupal
- als dataset gebruiken we de zotero database van de mangabibliotheek japanologie (3045 items)

- exporteer naar csv-formaat

- importeer het csv-bestand in excel of openoffice (is er een verschil tussen beide?)

all data is dirty, but you can do something about it
(zie 3. opkuisen met openrefine) waarom zijn deze data 'dirty': oorspronkelijk aangemaakt in een andere applicatie (biblio module van drupal), zijn daaruit geïmporteerd; over de jaren heen zijn gegevens door verschillende personen toegevoegd, met elk hun eigen workflow en opvattingen; door tijdsgebrek zijn niet altijd alle velden ingevuld
-
drupal import
-
voorbeeldwebsite in drupal 7

-
formulier voor mangavolume

- matchen velden met csv-importer

- importeren csv-bestand

-
voorbeeld volume

-
hoe zou je dit verder kunnen uitwerken:
- covers toevoegen: manueel, amazon ...
- uitleengegevens
- mailtje laten versturen bij aflopen uitleentermijn - naar admin én gebruiker
- link naar besprekingen; embed besprekingen
- disqus webservice
- ...
-
= van 'dode' data op je harde schijf naar een levende applicatie
2. visualiseren in Gephi
Waarom is visualiseren belangrijk? Een andere kijk op data - structuren zien; informatie gebald, compact weergeven - de aandacht winnen.
- installeer Gephi Let wel: Gephi werkt alleen met Java 7, niet met Java 8. Java 7 is niet meer publiek downloadbaar. De Java 7 versies voor Mac en Windows kan je op Toledo vinden (onder cursusdocumenten in gezipte vorm). Verwijder Java 8 en installeer deze versie van Java 7 op je PC/Mac (eerst zip file uitpakken). Dan zou Gephi moeten werken. Voor Windows-gebruikers is er ook deze howto.
- importeer csv-bestand

- export
- naar pdf, png, svg out-of-the-box
- je bent weinig zonder plugins: http://spaghetti-os.blogspot.be/2015/02/sigmajr-export-plugin-for-gephi.html
- check de Gephi plugin marketplace voor plugins die export naar een website toelaten
- voorbeelden
De twee laatste voorbeelden halen de data bij de DBpedia Knowledge Base. De moeite om te bekijken.
3. data opkuisen met OpenRefine
OpenRefine is niet enkel een tool om data op te kuisen maar ook om data te scrapen ("webscraping"). Op dat laatste gaan we hier niet in, de instructiefilmpjes op de voorpagina geven een goed idee van wat bedoeld wordt met data cleaning. Principes en praktijk van data cleaning, geïllustreerd met oefeningen, worden nog duidelijker via deze les van de Programming Historian.
4. analyseren met NVivo
NVivo is vorige week uitvoerig gedemonstreerd. Het excel bestand uit par. 1 inladen en twee eenvoudige queries laten uitvoeren is hier voldoende.


5. queries uitvoeren in sqlbrowser
- localiseer je zotero database en maak een kopie
- installeer sqlitebrowser of de firefox sqllite add-on
- open (de kopie van) je zotero database en probeer de queries in deze presentatie uit te voeren
Leer jezelf werken met zotero, documenteer dat en deel je bronnenverzameling met de zotero-groep infomatiekunde.
- Installeer Zotero: http://www.zotero.org
- Je kan ook de Word-plugin installeren (de 5.* standalone versie doet dat automatisch)
- Verzamel informatie (bronnen)
- japanologen: opdracht politiek van Japan
- arabistiek: verzamel en organiseer een collectie bronnen over een actueel politiek onderwerp in het Midden-Oosten
- musicologen: wat is "muzikale geletterdheid"?
- kunstwetenschappen: analoog vs. digitaal, kijkervaring, intellectuele rechten
- archeologie: digitale oplossing voor bescherming van erfgoed, 3D
- Hoe zoeken?
- Bestudeer Hfdst. 2 in cursus
- Online kranten, nieuws, ...
- Google Scholar: http://scholar.google.com
- Digitale Bibliotheek: http://bib.kuleuven.be/artes/digitale-bibliotheek
- Zie daar ook CMMC database
- LIMO: http://bib.kuleuven.be/
- Sla deze informatie op in zotero,
- zorg voor een gestructureerde collectiestructuur,
- goeie keywords (tags)
- annotaties
- Installeer en configureer de Zotfile extensie,
- importeer daarmee pdf's,
- importeer ook de inhoudsopgave
- en eventuele annotaties
- Synchroniseer met je online zotero account én met de groep informatiekunde
Excel
Korte voorbereidende les over de dataset die we gaan gebruiken in de lessen over draaitabellen en grafieken.
Download het gebruikte bestand:
We maken een draaitabel op basis van Batavia.xslx met per bevolkingsgroep het gemiddelde van mannen, vrouwen en kinderen.
We bekijken de verhouding tussen Europeanen, Chinezen, Slaven en de inheemse bevolking in de binnenstad Batavia.
Voor Mac:
We maken een draaitabel om inzicht te krijgen in de evolutie van de verhouding aantal Europese mannen vs vrouwen eerste helft 18de eeuw.
Voor Mac:
We maken een nieuwe kolom op basis van Quarter en definiëren stadszones.
Twee zaken: groeperen van een numerieke variabele in klassen; afbeelden van reeks op tweede as. We beelden per periode van 10 jaar, voor 1750 tot en met 1799, het gemiddelde van quantity voor units Number (1) en Tun (41) af.
Download het gebruikte bestand en het bijhorend codeboek:
We maken een boxplot met Excel. Hiervoor heb je het bestand boxplot.xlsx nodig:
Boxplot en Histogram in Excel 2016 (Office 365)
We bespreken de Vlookup functie, in het Nederlands VERT.ZOEKEN
Het benodigde bestand:
Je moet basishandelingen in Excel kunnen uitvoeren. Zorg dat je dit zo snel mogelijk opfrist. Je kan op de site van Microsoft korte trainingen doorlopen, indien nodig, zie http://office.microsoft.com/training/.
Je kan de basishandelingen doorlopen via het uitgewerkt voorbeeld in onderstaande presentatie. Hiervoor heb je als startbestand "basisvaardigheden.xlsx" nodig.
Opgelet, er zijn wel verschillen tussen de functienamen in de Nederlandstalige en Engelstalige versie van Excel. Zie een overzicht op deze pagina, of hier voor een meer volledige lijst. Kijk ook de instellingen van je Windows na. Bij een Belgisch-Nederlands ingestelde PC, is de komma (,) het decimaalteken, en wordt dan puntkomma (;) het scheidingsteken (list separator). Bij een US of UK English ingestelde PC, zoals in de PC-Klassen Dekenstraat, is het punt (.) het decimaalteken, en is komma (,) het scheidingsteken.
De Key commands zijn ook anders op Mac dan op PC. Zie hier voor een lijst met key commands.
- Bestudeer Hfdst. 5 in cursus
- Bekijk filmpjes en probeer hands-on
- Maak de voorbeeldoefeningen
Hierbij nog wat extra oefeningen voor Excel.
Bestand:
ufo_sightings.xlsx
Vragen:
oefeningen_excel.pdf
Oplossingen
Databanken
Introductie slides:
Draaiboek
Bijhorend bestand (eerst unzippen naar disk, bevat een .accdb Access database)
Access toegang via VDI voor Mac gebruikers: https://bib.kuleuven.be/english/agora/IT/VDI
Opdrachtblad:
voorbeeldvragen_access.pdf
Bijhorende Access-bestanden (vooraf uitpakken)
Systematisch overlopen verschillende queries
Voorbeelden van Queries:
Een aantal extra oefeningen om Queries in Access en SQL onder de knie te krijgen.
Software:
- Access
- Installeren op PC: https://admin.kuleuven.be/icts/office365
-
Access toegang via VDI voor Mac gebruikers: https://bib.kuleuven.be/english/agora/IT/VDI
-
DB Browser for SQLite: http://sqlitebrowser.org/
Benodigde bestanden:
(PS in immigranten.zip is een Excel file toegevoegd en de nodige velden zijn naar numerisch omgezet).
oefeningen_access-sql_oplossingen.zip
Veel success!
Queries maken in SQLite 1
Queries maken in SQLite 2
Download het onderstaande zip-bestand en pak dit uit op je Mac of PC. Installeer Firefox en de SQLite Manager Add-on.
Opgelet: Firefox 57.0 en hoger ondersteunt de SQLite manager add-on niet meer. Installeer de standalone DB Browser voor SQLite: http://sqlitebrowser.org/
Een database exporteren en importeren via een SQL instructiebestand
Excel tabellen importeren in SQLite via CSV-bestanden
Het benodigde Excel-bestand