Corpus (taalkunde)

Een corpus (meervoud corpora) is in de taalkunde om het even welke verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de taalverwerving spreekt men ook van de (totale) taalproductie van een kind.

[bewerk] Frequentie als maatstaf

Corpora worden gebruikt om synchrone of diachrone studies omtrent een veelvoud aan fenomenen te analyseren; veelal hanteert men de frequentie als maatstaf. Men kan bijvoorbeeld het aantal malen dat een bepaald woord voorkomt vergelijken tussen verschillende corpora, teneinde vervolgens conclusies met betrekking tot bepaalde tendensen in de taal te trekken. De frequentie van een lexeem kan met behulp van een speciaal programma worden opgezocht, dat de collocaties registreert.

Men maakt een onderscheid tussen de type frequency en de token frequency. De token frequency is het zuiver statistische aantal malen dat een bepaalde vorm voorkomt: men kan in een Nederlandstalig corpus bijvoorbeeld zoeken hoe dikwijls het bijwoord 'middelerwijl' voorkomt. De type frequency staat daarentegen voor de frequentie van een bepaalde constructie: men kan in datzelfde corpus ook nagaan hoeveel maal 'middelerwijl' of 'middelertijd' voorkomt, door te zoeken naar alle samenstellingen met 'middeler-'. Dit geeft dan een idee over de courantheid of schaarste van dergelijke woorden.

De context waarin een token voorkomt, is eveneens relevant; de 'aanpalende' woorden worden de collocaten genoemd. Een reeks opgezochte tokens met bijhorende collocaten noemt men een concordantie.

[bewerk] Soorten corpora

Er bestaan, naar gelang van de functie, verschillende soorten corpora:

[bewerk] Diachrone corpora

Diachrone corpora zijn tekstbestanden uit verschillende periodes: zo is een verzameling die bijvoorbeeld teksten uit de twaalfde, dertiende, veertiende, vijftiende, zestiende en zeventiende eeuw bevat, een diachroon corpus, omdat men aan de hand van deze teksten kan vergelijken hoe sommige woorden of patronen in onbruik raken, geïntroduceerd worden of anderszins evolueren. De teksten hoeven in principe niet aan hetzelfde genre te beantwoorden, alhoewel dit uiteraard mooi meegenomen is.

[bewerk] Synchrone corpora

Synchrone corpora zijn verzamelingen van teksten uit ongeveer dezelfde periode, bijvoorbeeld alle geschreven in 1986. Bij dit soort corpus worden teksten van verschillende stijlen, genres en niveaus vergeleken, zodat men kan onderzoeken welke patronen en woordkeuzes typerend zijn voor welke doelgroepen.

[bewerk] 'Fonetische' corpora

Naast geschreven corpora bestaan er corpora van transcripties van gesproken taal: in zo'n geval registreert men gesprekken, dialogen, interviews, conferenties enzovoorts, en maakt men gebruik van een speciale notatie om aan te duiden waar de sprekers van volume veranderden, hun intonatie wijzigden en elkaar onderbraken. Deze corpora zijn doorgaans zo accuraat mogelijke weergaves van de spreeksituatie: ook achtergrondgeluiden, versprekingen, aarzelingen en andere niet-verbale geluiden worden opgenomen. Gesproken corpora worden veelal in de discoursanalyse gebruikt; doordat opnametechnieken nog niet bijzonder lang bestaan, bestaat van dit soort corpus vanzelfsprekend geen historische variant.

[bewerk] Het Internet als corpus

In wezen is uiteindelijk elke verzameling teksten een corpus: men kan reeds een (oppervlakkig) taalkundig onderzoek uitvoeren met behulp van een zoekmachine, vermits het Internet op zich ook een corpus is. Weliswaar biedt het geen garantie dat de teksten representatief zijn, en daarenboven zal onvermijdelijk een aantal niet door moedertaalsprekers geschreven zijn. Een bijzonder laag aantal 'Google-hits' kan echter een krachtige en bruikbare indicatie voor de frequentie van een patroon of lexeem vormen.

[bewerk] Gemengde corpora

Gemengde corpora zijn corpora die verschillende talen contrasteren: men kan werken met teksten die georiënteerd zijn naar het genre, bijvoorbeeld krantenartikelen met betrekking tot streeknieuws in het Fins en Portugees, of men kan met teksten werken die onderling vertalingen van elkaar zijn, bijvoorbeeld farmaceutische bijsluiters. Dit soort corpus vertelt vaak veel over hoe bepaalde constructies zich, qua frequentie, ten opzichte van elkaar verhouden in verschillende talen.

[bewerk] Specialistische corpora

Verschillende universiteiten hebben in de loop der jaren corpora aangelegd met het oog op bepaalde onderzoeken. Zo bestaan er corpora die uitsluitend teksten van mensen bevatten die de desbetreffende taal nog aan het leren zijn en dus nog fouten maken; dit verschaft waardevolle inzichten over welk soort fouten vaak voorkomt bij het verwerven van een bepaalde taal. Andere corpora bestaan uitsluitend uit telefoongesprekken. Specialistische corpora ontspruiten vaak aan universiteitsvakgroepen en zijn niet vrij toegankelijk: er bestaat echter een klein aantal corpora die vrij consulteerbaar zijn op het Internet, zoals bijvoorbeeld de LOB- en Brown-corpora, die beide formele teksten uit 1961 bevatten, de eerste Brits, de tweede Amerikaans. Grote corpora, met een breed gamma aan genres en periodes, bevatten vaak miljoenen woorden: een van de gezaghebbendste is de British National Corpus.