Nieuws |
Half juni heeft NWO bekend gemaakt dat de subsidie voor Nederlab is toegekend, zie:
Er zijn zeven notities binnengekomen: Hans van Halteren over Adelheid; Josée Heemskerk over MORPA; Tom Kenter over INL Morphological Analyser; Gertjan Postma over INPOLDER; Arjen Versloot over de Taaldatabank Fries; Oele Koornwinder over de Grote Van Dale morfemenbank en de MAND; Antal van den Bosch, Mike Kestemont en Walter Daelemans over MBMA. Tijdens de workshop worden er zes presentaties gegeven waarin de notities worden toegelicht, waarbij zowel het Nederlands als het Fries aan de orde komen. Geert Booij inventariseert de problemen die een parser van historische teksten moet oplossen die uit de verschillende notities en presentaties blijken: 1. tokenization; 2. POS-tagging; 3. spelling-/ dialectvariatie; 4. cliticization; 5. morfeemlexicon; 6. desambiguering; 7. rol van frequentie. Het blijkt dat de parsers voor het moderne Nederlands goed presteren; het probleem wordt dus gevormd door het historische materiaal. Daarbij zijn er m.n. twee problemen: het ontbreken van een morfeemlexicon met morfemen die niet meer in het huidige Nederlands voorkomen, en de spellingvariatie van woorden. Sommige parsers, zoals die van Antwerpen/Tilburg, hebben geen morfeemlexicon nodig. De MGBN van Oele Koornwinder bevat de uitgebreidste verzameling morfemen van het hedendaags Nederlands. De MGBN zal voor onderzoekers op de website van het Meertens Instituut beschikbaar gesteld worden; afgesproken wordt dat Oele daarvoor eerst nog een korte handleiding schrijft. De MGBN- inventarisatie zou kunnen worden vergeleken en aangevuld met de inventarisatie van MORPA (17.000 morfemen) en met CELEX. De MBGN bevat geen flexie, maar die gegevens kunnen wel uit het woordenboek geëxpandeerd worden. De aanwezigen zijn het erover eens dat een ideale morfologische parser van het Nederlands zowel flexie als derivatie moet aankunnen. Koornwinder beschikt ook over een lijst van affixen die niet behandeld worden in het Morfologisch Handboek van het Nederlands. Om tot een parser voor historisch materiaal te komen lijkt het het best om geleidelijk terug te werken vanuit de moderne tijd naar een telkens wat oudere periode. Op die manier kan een parser goed getraind worden op basis van een beperkt aantal correct geparseerde woorden. Uit de ervaring en ook uit de presentatie van het INL blijkt een duidelijke cesuur tussen het materiaal van voor en na 1500. Daarom is het te overwegen om tegelijkertijd aan beide kanten te gaan werken: het ontwikkelen van een parser speciaal voor het oude materiaal tot 1500 (als uitbouw van het werk van Hans van Halteren en INPOLDER) en het verder ontwikkelen van een van de bestaande moderne parsers naar een steeds oudere periode. Het uitbouwen van een moderne parser naar historisch materiaal kan op twee manieren gebeuren: ouder materiaal eerst lemmatiseren naar moderne lemma's (waardoor het probleem van spellingvariatie wegvalt; systeem Hans van Halteren) en die vervolgens parsen; of volgens het memory-based systeem van Antwerpen/Tilburg, waarbij de parser zelf de regels ontdekt, aan de hand van trainingsmateriaal. Die laatste methode leidt sneller tot goede resultaten dan bijvoorbeeld het uitbouwen van MORPA of een vergelijkbare parser omdat daarin alles handmatig moet worden beregeld en er een morfeemlexicon nodig is, die voor de oude tijd niet bestaat. Maar een combinatie van de twee methodes is goed denkbaar, waarbij een zekere normalisering van de spelling wordt ingebouwd en het systeem verder memory-based werkt. Voor welke methode er ook wordt gekozen, er is hoe dan ook trainingsmateriaal nodig. Voor het moderne Nederlands is er de MGBN, aangevuld met de resultaten van de andere moderne parsers. Voor de 19e eeuw heeft het INL 20.000 à 25.000 woorden handmatig geparsed binnen het kader van IMPACT; alle onderzoekers kunnen dit opvragen bij het INL. De methode van de morfologische analyse van INL (labels, structerering) is door Geert Booij en Ariane van Santen inhoudelijk bekeken en bleek goed werkbaar; mochten onderzoekers daarover opmerkingen hebben, dan kunnen ze dat doorgeven. Folgert Karsdorp zal het stuk waarin dit is beschreven, aan iedereen rondsturen. Vervolgacties: Iedereen denkt verder na over de verschillende mogelijkheden om het historische materiaal zo efficiënt mogelijk te parsen. Voor materiaal uit de 18e en 19e eeuw is binnen het kader van IMPACT afgesproken dat INL een morfologische parser ontwikkelt. Voor die periode zal INL ook een geanalyseerde dataset ontwikkelen, die aan andere onderzoekers ter beschikking zal worden gesteld. Het is een mogelijkheid om de ontwikkeling of uitbouw van een morfologische parser die de hele historische periode van het Nederlands beslaat, onder te brengen binnen de in te dienen NWO-groot aanvraag voor een virtuele gebruikersomgeving voor diachroon corpusonderzoek. Alle genodigden van de workshop zullen van eventuele ontwikkelingen op de hoogte worden gehouden en er wordt nagedacht over een vervolg van de workshop. Samenvatting huiswerk: - Oele Koornwinder schrijft handleiding bij MBGN die samen met de database op de website van het Meertens instituut wordt geplaatst; - INL stelt trainingsmateriaal ter beschikking voor de 18e/19e eeuw en een het stuk over de gemaakte keuzes voor de morfologische analyse; - Oele Koornwinder stelt lijst van niet in het Morfologisch Handboek behandelde affixen ter beschikking aan het Taalportaal-project (Jenny Audring, Ton van der Wouden). Zoals velen van u inmiddels weten, zal een consortium in de komende ronde van NWO-groot een aanvraag indienen voor een virtuele onderzoeksomgeving voor diachroon corpusonderzoek voor de geesteswetenschappen, met als werktitel: DIACHRON (DIAchroon Corpus for Humanities Research Of the Netherlands). Als voorbereiding is hiervoor op 30 maart een workshop georganiseerd en op 6 april zijn trekkers bij elkaar gekomen. Daarbij is afgesproken dat het Meertens Instituut de penvoerder zal zijn; Sjef Barbiers en Hans Bennis zijn de projectleiders en ik zal een concept voor de aanvraag schrijven, met de medewerking van René van Stipriaan (dbnl) en Margit Rem (RU). Meer informatie (die regelmatig wordt ververst) kunt u vinden op de website http://www.diachronie.nl/, onder de rubriek Nieuws.
Hieronder vindt u eerst de te beantwoorden vragen en dááronder extra informatie over het corpus en over een overkoepelende taalkundige vraag, die ter inspiratie kan dienen. U kunt dit doorsturen naar iedereen die erin geïnteresseerd kan zijn, en u kunt mij ook namen van geïnteresseerden doorgeven. Er zal nog een aparte vragenlijst worden rondgestuurd aan technici, waarin speciaal vragen gesteld zullen worden met betrekking tot beschikbare tools, de te bouwen architectuur etc. Ik ben altijd bereid met iedereen persoonlijk te praten; mocht u een persoonlijk gesprek over de NWO-groot aanvraag op prijs stellen, laat mij dat dan even weten. Hartelijk dank voor uw tijd en medewerking, en met vriendelijke groeten, Nicoline van der Sijs ---------
Zou u de volgende vragen willen beantwoorden?
1. Onderzoeksvragen - Heeft u een voorstel voor een overkoepelende onderzoeksvraag op uw vakgebied die alleen beantwoord kan worden op basis van een betrouwbaar diachroon corpus? (zie als voorbeeld de taalkundige vraag hieronder) - Welke deelvragen zou u beantwoord willen zien op basis van een diachroon corpus? - Mogen wij uw naam (met een onderzoeksvraag) toevoegen aan de lijst van ondersteunende onderzoekers?
2. Het corpus Welke tekstsoorten zijn voor uw type onderzoek belangrijk (maximaal drie aankruisen): -literaire teksten -populaire literatuur -kinderboeken -secundaire literatuur -kranten en (populaire) tijdschriften -handschriftelijke bronnen -egodocumenten -oorkonden -een verantwoorde mix van alle genoemde bronnen
Welke inhoudelijke eisen stelt u aan de teksten in een corpus? a. Ik maak alleen gebruik van diplomatische transcripties. b. Ik maak alleen gebruik van kritische transcripties. c. Zowel diplomatische als kritische transcripties zijn bruikbaar voor mijn onderzoek. d. Ik gebruik alleen gecorrigeerde ocr, omdat voor mijn type onderzoek statistische gegevens heel belangrijk zijn. e. Voor mijn type onderzoek is ongecorrigeerde ocr voldoende.
3. Autobiografische vragen Mijn onderzoek behoort tot het terrein van -de taalkunde -de taalbeheersing -oudere letterkunde (tot 1900) -moderne letterkunde (vanaf 1900) -de Nederlandse/Vlaamse (cultuur)geschiedenis
Het zwaartepunt van mijn onderzoek ligt in: -de Middeleeuwen
-16de
-17de
-18de
-19de
-20e
In hoeverre is uw onderzoek digitaal van aard? a. ik doorzoek en gebruik regelmatig teksten uit diverse databanken op het internet b. ik doe a, maar ik werk daarnaast (al dan niet met enkele collega’s) ook nog met een eigen digitaal tekstenreservoir (graag specificeren) c. ik doe a en b. en beschik ook over analytische tools om het onderzoek te versnellen c.q. te verfijnen d. ik werk nog nauwelijks met digitale verzamelingen omdat het voor mij digitaal interessante materiaal (nog) niet beschikbaar is e. ik werk nog nauwelijks met digitale verzamelingen omdat ik niet beschik over instrumenten om dit te doorzoeken en te analyseren f. ik zie voor mijn type onderzoek geen voordeel in digitaal onderzoek g. anders, nl.:
In hoeverre is uw onderzoek als diachroon te beschouwen: a. nauwelijks b. in hoge mate, binnen een tijdspanne van minder dan een eeuw c. in hoge mate, over een periode van meer dan eeuw d. anders, nl.: -----------
De aanvraag: een corpus Nederlandstalige teksten met toegangen De NWO-aanvraag betreft het inrichten van een onderzoeksomgeving voor diachroon corpusonderzoek. In deze onderzoeksomgeving wordt een betrouwbaar, omvangrijk en representatief corpus van Nederlandstalige teksten uit alle tijdsperioden (van de zesde eeuw tot heden) aangeboden, samen met onderzoekshulpmiddelen. Het doel is om het mogelijk te maken systematisch inzicht te krijgen in de manieren, oorzaken en factoren van de veranderingen die optreden binnen een scala aan taalkundige, letterkundige en historische verschijnselen. Het aangeboden corpus kan door iedere onderzoeker naar eigen inzicht worden uitgebreid of verrijkt.
Voor de NWO-aanvraag is het belangrijk dat er voor iedere discipline (taalkunde, geschiedenis, letterkunde) een grote, overkoepelende onderzoeksvraag wordt geformuleerd die relevant is voor de gehele historische periode van het Nederlands. De beantwoording van deze vraag vindt uiteraard plaats door deelvragen nader te onderzoeken.
Een voorbeeld uit de taalkunde
De taalkundige overkoepelende onderzoeksvraag die aan het diachrone corpus gesteld zal worden, luidt: Welk systeem zit er achter de deflexie in het Nederlands? Toelichting: Deflexie is het verschijnsel dat de uitgangen van woorden afslijten, verdwijnen of samenvallen. Als gevolg van deflexie worden de functies van naamvallen en verbogen vormen (dus synthetische constructies) overgenomen door analytische omschrijvingen met lidwoorden, voorzetsels en hulpwerkwoorden. Zo veranderde bijvoorbeeld skonincks boec in het boek van de koning. Deflexie leidt tevens tot allerlei verschuivingen in de morfologie en de woordvolgorde in een zin. Al in de oudste fase van het Nederlands zijn de eerste tekenen van deflexie te vinden en het verschijnsel loopt tot op heden door. Vrijwel alle taalveranderingen die in het Nederlands zijn opgetreden, zijn op enigerlei wijze gerelateerd aan het verschijnsel deflexie. Alleen op basis van een diachroon corpus kan worden vastgesteld hoe de verschillende veranderingen in de taal in de loop van de tijd op elkaar hebben ingegrepen, welke (talige, maatschappelijke, sociale) factoren op het verschijnsel deflexie hebben gewerkt en wat de oorzaken geweest zijn, wat de verschillen en overeenkomsten van deflexie in de verschillende Nederlandse dialecten zijn (geweest), of en wanneer er in de geschiedenis van het Nederlands versnellingen, vertragingen of zelfs omkeringen in het proces zijn opgetreden en wat de oorzaken daarvan zijn. Het verschijnsel deflexie treedt ook op in andere Germaanse talen, in meerdere (Engels) en mindere (Duits) mate, en is een algemene tendens die in veel talen wordt teruggevonden. Kennis van de factoren die in de geschiedenis van de Nederlandse deflexie een rol hebben gespeeld, zal dan ook een bijdrage leveren aan onze inzichten in taalverandering in het algemeen. De overkoepelende taalkundige onderzoeksvraag zal in een groot aantal deelvragen worden opgedeeld. Als voorbeeld van hoe taalveranderingen in het corpus gemeten kunnen worden, kan de verandering van de werkwoordsuitgang van de tweede persoon verleden tijd dienen. Het is bekend dat die tweede persoon in de loop van de tijd onder andere is uitgedrukt door vormen als: du hoordes, ghi hoordet, gij hoorde, jij hoorde, u hoorde. Het is echter niet bekend wanneer de veranderingen in de persoonsvormen precies hebben plaatsgevonden, in welke dialecten de veranderingen zijn begonnen, en of er bij de veranderingen een sociale component een rol speelde (golden bepaalde vormen als beschaafd en andere als onbeschaafd?). Om dit te kunnen onderzoeken, moet het corpus niet alleen zijn gelemmatiseerd, maar ook verrijkt met grammaticale informatie (tijd, persoon, etc.). Door de vier dimensies van het corpus te variëren en te combineren kan men de gegevens op verschillende manieren doormeten: a. Te onderzoeken taalverschijnsel: verleden tijd 2e pers enk.; dimensies plaats en tekstgenre hebben een vaste waarde (bijvoorbeeld ‘Hollands’ en ‘egodocumenten’), dimensie tijd is variabel (van de 10e eeuw tot heden): dit meet de veranderingen in de werkwoordsuitgang in de loop van de eeuwen in het Hollandse dialect; b. Te onderzoeken taalverschijnsel: verleden tijd 2e pers enk.; dimensies tijd en tekstgenre hebben een vaste waarde (bijvoorbeeld ‘15e eeuw’ en ‘egodocumenten’), dimensie plaats is variabel (heel Nederland en Vlaanderen): dit meet de werkwoordsuitgangen in de 15e-eeuwse Nederlandse dialecten - en dat kan bijvoorbeeld worden vergeleken met dezelfde gegevens uit de 14e en de 16e eeuw; c. Te onderzoeken taalverschijnsel: verleden tijd 2e pers enk.; dimensies plaats en tijd hebben een vaste waarde (bijvoorbeeld ‘Groningen’ en ‘18e eeuw’), dimensie tekstgenre is variabel (religieuze teksten/ literaire teksten/ egodocumenten): dit meet de verschillen in werkwoordsuitgangen in religieus, literair en particulier taalgebruik in het 18e-eeuwse Gronings; d. Te onderzoeken taalverschijnsel: verleden tijd 2e pers enk.; dimensies auteur heeft een vaste waarde (bijvoorbeeld ‘Hooft’), dimensie tekstgenre is variabel (ambtelijk/ literair): dit meet of Hooft in ambtelijke en literaire teksten dezelfde of verschillende werkwoordsuitgangen hanteerde (er kan ook nog de variabele dimensie tijd aan worden toegevoegd om te bekijken in hoeverre Hoofts taalgebruik in de loop van de tijd is geëvolueerd). Op dezelfde manier kunnen, door het variëren van de zoekvragen en de dimensies, bijvoorbeeld ook veranderingen in de woordkeuze (stijl en woordkeus) van literaire auteurs gemeten worden, of hoe en hoe vaak er in de loop van de tijd is verwezen naar klassieke auteurs of de bijbel, of juist naar andere autoriteiten. Ook is het mogelijk onderzoek te verrichten naar begrippen en motieven. Naast taal- en letterkundige verschijnselen kunnen ook maatschappelijke of historische veranderingen gemeten worden, zoals de manier waarop in de loop van de tijd naar andere volkeren is gekeken of hoe men aankeek tegen bepaalde begrippen (door bijvoorbeeld te onderzoeken met welke bijvoeglijke naamwoorden deze begrippen worden verbonden).
Zoals de meesten van u inmiddels wel weten, is er een consortium opgericht dat gezamenlijk een NWO-groot aanvraag gaat indienen voor een gebruikersomgeving waarin een diachroon corpus met tools wordt aangeboden (stuur mij even een berichtje als u daarover nog niet had gehoord en meer wilt weten). Het Meertens Instituut wordt de penvoerder van deze aanvraag. Als voorbereiding op de aanvraag zijn alvast enkele corpora in verschillende fasen van bewerking en verrijking geplaatst op de website http://www.diachronie.nl/corpora/. Het doel hiervan is deze corpora alvast ter beschikking te stellen voor wetenschappelijk onderzoek, ook al zijn ze deels nog in bewerking. Opmerkingen of aanmerkingen zijn uiteraard welkom. Iedereen die bezig is met een corpus dat onderdeel zou kunnen worden van het grote diachrone corpus, of tools om dit corpus mee te bewerken, wordt van harte uitgenodigd deze, eventueel tijdelijk, via de website diachronie.nl beschikbaar te stellen. Op deze manier kunnen we alvast een eerste inventarisatie maken van welke corpora beschikbaar zijn, op welke manier ze zijn verrijkt en welke metadata eraan zijn toegevoegd. Voordat de NWO-groot aanvraag kan worden ingediend, zal dit alles namelijk bekend moeten zijn. Het zou daarom welkom zijn als u mij een bericht zou sturen waarin u opsomt over welke gegevens (corpora, tools) u beschikt. Overigens zat ik verschillenden van u hierover persoonlijk nog benaderen. Ik raad u aan zo af en toe de website http://www.diachronie.nl/corpora/ opnieuw te bezoeken, want het aantal corpora en tools zal nog worden uitgebreid; ook zal nog gewerkt worden aan het tab-blad ’Beschrijvingen van corpora‘. Hartelijke groeten, Nicoline van der Sijs ------------ Verslag overleg over een NWO-groot aanvraag voor een diachroon corpus, 6 april 2011
Aanwezig: Hans Bennis (voorzitter), Jan Burgers, Katrien Depuydt, Franciska de Jong, Marc Kemps-Snijders, Joep Leerssen, John Nerbonne, Margit Rem, Nicoline van der Sijs (verslag), Thomas Vaessens. Afwezig met bericht: Karina van Dalen-Oskam, Ben Hermans, James Kennedy, Wijnand Mijnhardt, Gertjan Postma.
1. Er wordt begonnen met een korte voorstellingsronde, waarin iedereen uiteenzet wat zijn of haar belang is bij een NWO-groot aanvraag ten behoeve van een diachroon corpus.
2. Hans Bennis schetst de geschiedenis van het project: de wens om te komen tot een diachroon corpus leeft al een jaar of zeven en er zijn vanuit taalkundig perspectief al enkele subsidie-aanvragen gedaan, die ofwel niet zijn toegekend ofwel in verkleinde en aangepaste vorm uiteindelijk binnen CLARIN zijn uitgevoerd. Er komen momenteel steeds meer corpora en tools beschikbaar, maar de gemiddelde onderzoeker weet de weg erheen niet te vinden en weet niet hoe hij ermee kan werken. Daarom is dit een geschikt moment om een grote aanvraag in te dienen die gedragen wordt door verschillende disciplines en waarin subsidie wordt gevraagd voor het ontwikkelen van een gebruikersomgeving voor onderzoekers waarin corpora en tools worden aangeboden voor het analyseren, doorzoeken en visualiseren van de data. Een dergelijke omgeving maakt het mogelijk om taalkundige, historische, letterkundige onderzoeksvragen te beantwoorden die tot nu toe niet beantwoord konden worden. Ook uit de praatjes en de discussie tijdens de workshop op 30 maart bleek dat er een groot draagvlak is voor een dergelijke aanvraag, die, zo is de algemene gedachte, kan leiden tot synergie tussen de verschillende disciplines.
3. Er volgt een discussie over de inhoud van de aanvraag. De kern is dat er vanuit de geesteswetenschappen een grote onderzoeksbehoefte is aan een instrument dat het mogelijk maakt allerlei onderzoeksvragen te beantwoorden die gekenmerkt worden door het woord ‘verandering’ - verandering in begripsgeschiedenis, taal, motieven, stijl, et cetera. Uitgangspunt voor de aanvraag vormen reeds beschikbare corpora en bestaande technieken, waarop wordt voortgebouwd. De beschikbare corpora zijn slecht bruikbaar voor onderzoek doordat ze van elkaar verschillen in de manier waarop zij technisch zijn samengesteld en in de mate waarop ze zijn voorzien van metadata en taalkundige verrijking. De aanvraag dient ervoor om de bestaande corpora geschikt te maken voor onderzoek. Het onderwerp van de aanvraag zou dan ook niet een nieuwe database moeten zijn maar de samenstelling van een ‘metabase’, via welke alle bestaande databases, die zich op verschillende locaties bevinden, aan elkaar gekoppeld kunnen worden en doorzoekbaar gemaakt: een gedistribueerde en verrijkte database dus. Voor de metadata, techniek en tools wordt voortgebouwd op de gegevens die beschikbaar zijn gekomen of komen binnen CLARIN. De focus van de NWO-aanvraag verschilt echter van die van CLARIN: de NWO-aanvraag beoogt de ontwikkeling van een gebruikersomgeving waarin aan onderzoekers tools worden aangeboden (deels afkomstig uit CLARIN) en uniform opgezette corpora, met uitleg hoe ermee te werken. Binnen NWO-groot kan in principe geen geld aangevraagd worden voor digitaliseren. Voor het opvullen van lacunes in het materiaal moet samenwerking worden gezocht met digitaliseringsinstellingen: partners als dbnl, KB, DANS, universiteitsbibliotheken et cetera. Het belang van deze instellingen is zoveel mogelijk materiaal in digitale vorm voor een algemeen publiek beschikbaar te maken, terwijl de NWO-aanvraag bedoeld is om materiaal voor onderzoek te selecteren en geschikt te maken - wat heel andere en veel striktere eisen aan het materiaal stelt: niet al het materiaal is per definitie voor onderzoek geschikt, en aan het materiaal dat daarvoor wel geschikt is, moeten metadata toegevoegd zijn zodat bij iedere onderzoeksvraag onmiddellijk duidelijk is waarop de gevonden resultaten zijn gebaseerd. De verschillende disciplines stellen andere eisen aan de omvang en aard van het corpus: de historici en letterkundigen willen bij voorkeur een zo groot mogelijke corpus en dat hoeft niet diplomatisch uitgegeven te zijn, terwijl de taalkundigen veelal tevreden zijn met een representatief corpus, maar hogere eisen stellen aan de transcriptie. Noodzakelijk voor alle drie de disciplines is in ieder geval een minimale hoeveelheid gegevens over de hele periode met een dekking over alle genres en tekstsoorten. Wanneer het corpus gelaagd is opgebouwd (met lagen in de transcriptie, in de verrijking etc.) en consistent voorzien is van uniforme metadata, kunnen onderzoekers uit alle disciplines met behulp van de lagen en metadata uit het totale corpus een eigen subcorpus of referentiebestand samenstellen, afhankelijk van hun onderzoeksvraag. Het corpus moet altijd uitbreidbaar zijn en blijven. In de aanvraag moet aandacht besteed worden aan de problematiek van teksten waarop auteursrecht geldt: voor dergelijke gegevens kan worden geregeld dat onderzoekers beperkt toegang tot het materiaal krijgen, maar dergelijke bestanden kunnen en mogen wel meegenomen worden in de analyse en ze kunnen worden voorzien van extra metadata, die wel ter beschikking gesteld mogen worden van onderzoekers. De rol van de techniek binnen de aanvraag is heel belangrijk: er moet overlegd worden met verschillende technische onderzoeksgroepen over de manieren waarop de verschillende formaten en structuren onderling worden uitgewisseld en gedistribueerd. Daarbij zou ook met informatici contact gelegd kunnen worden; als voorbeelden worden CWI en Delft genoemd; al betrokken bij het project zijn Maarten Marx van Informatica van de UvA en Oele Koornwinder van Gridline - beiden hebben een rol bij het samenstellen van de aanvraag aangeboden.
4. Als conclusie wordt unaniem besloten dat het zinnig en belangrijk is de NWO-groot aanvraag te gaan schrijven, en dat alle aanwezigen gezamenlijk daarvoor een consortium vormen. Omdat het voor universitaire instituten lastig is om penvoerder te zijn vanwege de garanties die NWO eist voor het onderhoud op lange termijn, ligt het voor de hand dat een of meer KNAW-instellingen penvoerder worden. Men vindt dat het Meertens Instituut als penvoerder voor de hand ligt. Omdat Hans Bennis al de projectleider van Taalportaal is, zou voor dit project Sjef Barbiers of Marc van Oostendorp gevraagd kunnen worden. Voor het schrijven van de aanvraag wordt naar financiering gezocht – de termijn voor het indienen van een aanvraag binnen NWO is verstreken, maar de Radboud Universiteit (Ans van Kemenade, Nederlands) heeft wellicht een potje; Hans zal met Ans overleggen. Besloten wordt dat Nicoline hoofdschrijver wordt en een of twee mensen zoekt die geschikt zijn om mee te schrijven. Het voorstel voor het schrijversteam wordt in een nog samen te stellen begeleidingsgroep besproken. De schrijvers zullen om te beginnen een concept maken voor de opzet, strategische keuzes en overkoepelende onderzoeksvraag of -vragen bij de aanvraag. Dit concept wordt door iedereen meegelezen en becommentarieerd. Als men het over de uitgangspunten eens is, gaat het schrijversteam in nauw overleg met de projectleider stukken schrijven. Degenen die tot nu toe bezig zijn geweest met het voorbereiden van de aanvraag, zullen op verzoek stukken schrijven over specialistische onderwerpen. De begeleidingsgroep leest vervolgens alle teksten mee. Annemarie Bos van NWO-Geesteswetenschappen vindt de opzet interessant, met name vanwege het feit dat er drie disciplines bij zijn betrokken, en heeft aangeboden dat iemand van Geesteswetenschappen het concept gaat meelezen. Samenwerking met Vlaanderen is bij een NWO-aanvraag niet mogelijk, maar in het corpus zal uiteraard Vlaams materiaal worden opgenomen en het lijkt een goed idee om met de Taalunie te overleggen of zij de aanvraag wil ondersteunen. ----------- Belangrijkste conclusies van de discussie o.l.v. Hans Bennis op de workshop op 30 maart 2011 over een NWO-groot aanvraag ten behoeve van een diachroon corpus
Uit de praatjes en de discussie achteraf komt zonneklaar naar voren dat onderzoekers van de verschillende disciplines - letterkunde, taalkunde, geschiedenis - een groot aantal onderzoeksvragen hebben die alleen beantwoord kunnen worden als zij de beschikking hebben over een betrouwbaar diachroon corpus dat met tools geanalyseerd en doorzocht kan worden. Er is onder de aanwezigen dan ook veel draagvlak voor het indienen van een NWO-groot aanvraag. Over de concrete invulling van het diachrone corpus bestaan verschillende ideeën: sommigen pleiten voor een zo groot mogelijk corpus, anderen voor representativiteit, waarbij alle genres en tekstsoorten een minimumvertegenwoordiging moeten hebben. Daarbij kan wellicht beter gesproken worden over een geannoteerd corpus dan over een representatief corpus - want representatief ten opzichte van wat? In ieder geval is men het erover eens dat het uitgangspunt moet zijn een betrouwbaar kerncorpus en corpora van verschillende lagen, en dat de mogelijkheid moet worden geboden het corpus geleidelijk uit te breiden en te verbeteren (zowel door betere ocr als door het toevoegen van meer metadata en het uitgebreider taalkundig verrijken). Essentieel voor het analyseren en doorzoeken van het corpus is het toevoegen van gestandaardiseerde metadata die voor alle disciplines toepasbaar zijn. Dat is wat er schort aan bestaande corpora. Er wordt geconstateerd dat de gemiddelde wetenschappelijke onderzoeker nog steeds niet goed op de hoogte is van de technische mogelijkheden die al beschikbaar zijn, of moeite heeft daarmee te werken. Daarom is het belangrijk dat er tools ter beschikking gesteld worden voor het analyseren, doorzoeken en visualiseren van de data die door onderzoekers met weinig technische kennis gebruikt kunnen worden. Daarvoor is een virtuele gebruikersomgeving noodzakelijk die gemakkelijk door de onderzoekers aangepast kan worden aan de eigen onderzoeksvragen. Een NWO-groot aanvraag moet concurreren met aanvragen van bèta's en gamma's. Essentieel van de aanvraag is dat er een nieuw ‘apparaat’ - in ons geval een gebruikersomgeving met diachrone testcorpora en tools - wordt ontwikkeld dat het mogelijk maakt onderzoeksvragen te beantwoorden die nog niet beantwoord konden worden zonder het nieuwe ‘apparaat’. Daarvoor zouden de verschillende vakgebieden gemeenschappelijk één of meerdere coherente algemene onderzoeksvragen moeten formuleren, niet een lange lijst deelvragen. Iedereen denkt daarover verder na [NB. Suggesties per e-mail zijn welkom]. Belangrijk voor de aanvraag is verder om aan te sluiten bij kleinere en grotere digitaliseringsprojecten en samen te werken met andere instellingen die bezig zijn met digitaliseren. Er moet zoveel mogelijk bestaand digitaal materiaal verbeterd worden en geschikt gemaakt voor onderzoek, door toevoeging van metadata en verrijking - dat moet deels manueel gebeuren. Daarnaast kunnen lacunes in de digitale materiaalverzameling worden opgevuld. Losse opmerkingen t.b.v. het schrijven van de aanvraag: - Kijk of er een relatie met de 6 focuspunten van NWO gelegd kan worden. - Kijk of de Belgen bij de aanvraag betrokken kunnen worden, bijvoorbeeld door verrijking van het corpus met Vlaams materiaal. - Voeg als bijlage een lijst toe van onderzoekers die bij voorbaat al de intentie uitspreken gebruik te gaan maken van het ‘apparaat’. Als vervolg op de workshop zal op korte termijn een bijeenkomst plaatsvinden van potentiële hoofdaanvragers (Hans Bennis, Franciska de Jong, James Kennedy, Joep Leerssen, Wijnand Mijnhardt, John Nerbonne en Thomas Vaessens). Er zal een schrijfgroepje worden geformeerd en een begeleidingsgroep (waarvoor namens KB Paul Doorenbosch zich aanmeldt). Er zal bekeken worden of het mogelijk is binnen NWO geesteswetenschappen subsidie voor het schrijven te vinden. De genodigden voor de workshop zullen op de hoogte worden gehouden van de ontwikkelingen. En alle suggesties zijn welkom. --------------------
Samenvatting van de praatjes gehouden op de workshop op 30 maart 2011 over een NWO-groot aanvraag ten behoeve van een diachroon corpus
Het begrip ‘huisvrouw’ - Els Kloek, Huygens ING
Bij het schrijven van mijn boek Vrouw des huizes viel mij op hoe kort en ongeïnspireerd de makers van het WNT het lemma ‘huisvrouw’ hadden beschreven. Het had hun kennelijk niet erg veel kopzorgen gekost. En eigenlijk geldt dat voor de meeste woordenboekenschrijvers. Zelf begon ik juist steeds meer geïntrigeerd te raken in de taalkundige geschiedenis van dit woord. Wanneer wordt voor het eerst de vrouw aan haar huis gekoppeld door het begrippenpaar ‘huis-vrouw’? Met andere woorden: waarom verandert een ‘wijf’ in een ‘huiswijf’? En wáár gebeurt dat? En waarom is in het Nederlands de gewoonte ontstaan om de echtgenote van iemand aan te duiden als ‘de huisvrouw van’? Is het Nederlands daarin uniek of zijn er ook andere talen die getrouwde vrouwen op zo’n manier aanduiden? Omdat het fenomeen van de huisvrouw als triviaal geldt, is er over dit soort kwesties niet of nauwelijks gepubliceerd. Een corpus van historische teksten, zowel archivalisch als literair, zou mij wellicht geholpen hebben bij het in kaart brengen van de oorsprong en geschiedenis van het begrip. --- Literaire namen - Karina van Dalen-Oskam, Huygens ING
Eigennamen zijn belangrijke stilistische elementen in literaire (en andere) teksten. Door bepaalde wijzen van gebruik van namen worden de lezers heel efficient gemanipuleerd: wat een hoofdpersonage leest (auteurs, boektitels, kranten), beluistert (componisten, popgroepen), bezoekt (toneel, concert, museum), karakteriseert die persoon zonder dat er details hoeven te worden gegeven. Namen bevatten dus impliciete informatie, die bovendien voor elke lezer weer anders kan zijn. Mijn onderzoeksvraag is hoe de inzet van namen in literatuur verschilt per tekst, auteur, genre, tijdperiode en zelf per taalgebied. Daarvoor ontwikkel ik een methode die gebaseerd is op het inventariseren van wat er 'gewoon' is, om dan te kijken of en hoe individuele teksten, auteurs, genres, etc. daarvan afwijken. Het spreekt vanzelf dat ik daarvoor graag als basis een zo groot mogelijk corpus van digitale literaire teksten zou willen hebben met daarin coderingen voor namen al aangebracht, of de mogelijkheid om die zelf toe te voegen. In mijn verhaal zal ik een voorbeeld geven hoe dat corpusgebruik eruit zou kunnen zien en wat ermee te winnen is voor concrete onderzoeksvragen. ---- De meerwaarde van een corpus: een demonstratie - Katrien Depuydt, INL [samenvatting niet ontvangen] ---- Veranderend Taalgebruik in de Kamer - Maarten Marx, UvA
Je hoort allerlei hypotheses over het taalgebruik in ons parlement. Het zou ruwer zijn geworden. Er wordt meer op de man gespeeld. Populisme neemt toe. Dit zijn veelal impressionistische schetsen omdat geen mens de enorme brei van woorden uit het parlement in zijn geheel kan overzien. Om een indruk te geven: vanaf 1917 gaat het om meer dan een half miljoen paginas, meer dan een half miljard woorden, en 200.000 unieke woorden. En dit zijn dan alleen de notulen van de vergaderingen in de plenaire zaal. De UvA en de KB hebben dit corpus verbonden met de biografische database van parlement.com. Hierdoor weten we nu van elk woord wie het wanneer gezegd heeft, van welke partij de spreker toen lid was, en ik welke hoedanigheid het is uitgesproken. Dit geeft fantastische mogelijkheden tot vergelijkend onderzoek, zowel diachronisch als over personen en partijen. We laten die mogelijkheden zien met een speelgoed-voorbeeld. We gebruiken de Flesch–Kincaid leesbaarheidstest om de mate van moeilijkheid van het taalgebruik in het parlement te meten. We zetten de leesbaarheid af tegen de tijd en tegen de spelers (de partijen en politici), en tonen de ontwikkelingen door middel van aansprekende visualisaties. --- Geleerdenbrievencorpus en analysetools – Guido Gerritsen, Huygens ING
Het project Geleerdenbrieven is erop gericht IT-middelen te vinden, te ontwikkelen en in te zetten om brieven van 17e-eeuwse geleerden te kunnen analyseren en de resultaten daarvan te visualiseren. Daarvoor maken we gebruik van een digitaal corpus van (uiteindelijk) 20.000 brieven. Het samenstellen van dit corpus is geen sine cure, onder andere omdat de brieven die digitaal beschikbaar zijn vaak niet zijn gestructureerd op een manier die nodig is voor analyse, en omdat de metadata vaak ontbreekt, of onvolledig en deels onjuist is. Een hoogwaardig corpus is een absolute voorwaarde voor het ontwikkelen van de analyse- en visualisatietools en daarom moeten we veel tijd en energie steken in het op orde brengen van het basismateriaal, vaak ten koste van onderzoeks- en ontwikkeltijd. In mijn praatje zal ik ingaan op de problemen die we tegen komen en hoe we die oplossen, en ik zal kort aanstippen hoe we delen van een diachroon corpus zouden kunnen inzetten voor contextualisatie (bijvoorbeeld met named entities) en als referentiemateriaal (bijvoorbeeld bij het vinden van contemporaine kernwoorden die voorkomen in de woordenwolk rond een concept). ---- Diachroon onderzoek naar discourse-fenomenen - Jacqueline Evers-Vermeul, UU
Veel taalkundig diachroon onderzoek richt zich op lexicale of grammaticale elementen die noodzakelijk zijn om een grammaticale zin te vormen, zoals werkwoordsvervoegingen, naamvallen of woordvolgordeverschijnselen. Het is echter ook interessant om vanuit een taalbeheersingsperspectief naar diachrone ontwikkelingen te kijken en daarbij de blik te verruimen van talige kenmerken binnen de zin naar fenomenen op discourse-niveau. Dit gebeurt bijvoorbeeld regelmatig door taalkundigen die geïnteresseerd zijn in ‘subjectificatie’, een proces waarbij talige elementen gaandeweg steeds meer gebruikt worden als voertuig voor het uitdrukken van meningen of gevoelens van de spreker (zie Traugott 2010 voor een overzichtsartikel). In deze presentatie illustreer ik welk type bevindingen diachroon onderzoek naar discourse-fenomenen oplevert, waarbij ik me speciaal richt op de diachrone ontwikkeling van connectieven zoals want, omdat, dus en daarom, die als het cement van teksten kunnen worden beschouwd. Daarnaast kaart ik aan welke eisen taalbeheersingsonderzoek stelt aan de samenstelling van corpora en het ontwikkelen van tools. ---- Taalkundige onderzoeksmogelijkheden binnen een Fries diachroon corpus - Arjen Versloot, Fryske Akademy
De Fryske Akademy bouwt aan een integraal diachroon corpus van het Fries: van runetekst tot moderne literaire roman. Steekwoorden zijn:
- lemmatisering en pos-tagging - gestandaardiseerde lemmalijsten en ‘superlemma’s’ - digitale facsimilees - diplomatische en kritische edities - organisatie metadata: teksten en bronnen - geografische component: dialectologie - aanvullende verrijking: woordenboeken, taalkundige literatuur
Wij hebben voor een aantal lastige problemen een oplossing gevonden waarvan wij denken dat ‘ie voor onze geintegreerde databank in ieder geval goed werkt. Ik zal de belangrijkste problemen aanstippen en kort schetsen wat onze oplossing daarvoor is en waarom wij denken dat het goed is om daar in ieder geval over na te denken.
Het corpus wordt gevormd door teksten waarbinnen veranderingen kunnen worden opgespoord en gemeten met behulp van zoekoperaties en tools. Het corpus bevat vier dimensies (die door middel van metadata aan elke afzonderlijke tekst zijn toegevoegd): 1. tijd, 2. plaats, 3. auteursgegevens en 4. tekstgenre. Door deze vier dimensies op verschillende manieren met elkaar te combineren, kan men veranderingen in de tekst/de taal/het taalgebruik meten. Dit meten van veranderingen gebeurt door het kwantificeren van de gegevens. Om het doorzoeken van het corpus efficiënt te laten plaatsvinden, wordt de tekst (semi-)automatisch verrijkt met extra gegevens (‘lemmatiseren’): bij iedere vorm in het corpus wordt toegevoegd bij welke onverbogen woordenboekingang het behoort, zodat alle spelvarianten of verbogen vormen zijn geïdentificeerd. Zo kan met één zoekopdracht het gebruik van een bepaald begrip (spreuk, encyclopedie, …) door het hele corpus gedurende alle eeuwen worden opgezocht, ongeacht de spelling (sproock, spreucke, tsproexken). |