Privacy Policy Cookie Policy Terms and Conditions Σώμα κειμένων - Βικιπαίδεια

Σώμα κειμένων

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια

Ως σώμα κειμένων (corpus, πληθ. corpora) ορίζεται ένα αντιπροσωπευτικό σύνολο κειμένων, το οποίο χρησιμοποιείται ως δείγμα με αντικείμενο τη γλωσσολογική ανάλυση.

Τα σώματα κειμένων παρέχουν στους γλωσσολόγους τη δυνατότητα για επιστημονικές παρατηρήσεις σχετικά με τη συχνότητα χρήσεως ενός τύπου, το συμφραστικό περιβάλλον του, καθώς και ―στη διαχρονική γλωσσολογική ανάλυση― σχετικά με την πρώτη εμφάνιση ή σημασία ενός τύπου και τις μετέπειτα αλλαγές του. Η έκταση ενός σώματος ποικίλλει ανάλογα με τις πηγές και τον σκοπό για τον οποίο έχει παραχθεί: υπάρχουν σώματα κειμένων που καλύπτουν ολόκληρες γραμματειακές περιόδους (όπως την Αρχαία Ελληνική και Λατινική γραμματεία) και άλλα, πιο περιορισμένα, που επιχειρούν να αποδώσουν στοιχεία τού προφορικού λόγου ή κοινωνιολέκτους. Ειδικά σώματα κειμένων αντλούν επιλεκτικά στοιχεία από έντυπο ή προφορικό λόγο, με σκοπό τη μελέτη ορισμένης γλωσσικής λειτουργίας.

Στη σύγχρονη εποχή τα σώματα κειμένων αποτελούν αντικείμενο της Υπολογιστικής Γλωσσολογίας. Με την ανάπτυξη ειδικού προηγμένου λογισμικού η καταχώριση ενός κειμένου στο σώμα συνοδεύεται από κατάλληλη σήμανση (tagging), η οποία παρέχει τη δυνατότητα αναλύσεως της δομής τής γλώσσας και βοηθεί στην άντληση φωνολογικών, γραμματικών και συντακτικών πληροφοριών από το κείμενο. Ουσιαστικά, λόγω της έκτασης των πληροφοριών και της ταχείας πρόσβασης σε αυτές, δεν είναι πλέον δυνατόν να εκπονηθεί αξιόπιστη γλωσσολογική μελέτη ούτε να συνταχθεί ποιοτικό λεξικογραφικό έργο, αν δεν έχουν ληφθεί υπ’ όψιν τα δεδομένα που παρέχουν τα corpora.

Όπως και κάθε άλλη επιστημονική μέθοδος, τα σώματα κειμένων έχουν περιορισμούς. Όσο εκτενής και αν είναι η κάλυψή τους, χρειάζονται διαρκώς διόρθωση, ανανέωση και συμπλήρωση. Επιπλέον, τα στοιχεία τους, όταν πρόκειται για σύγχρονες, ζωντανές γλώσσες, χρειάζονται διασταύρωση και επιβεβαίωση από υλικό που προέρχεται από ιθαγενείς ομιλητές τής γλώσσας.

[Επεξεργασία] Βιβλιογραφία

  • Ajmer K. & Altenberg B. 1991: English linguistic corpus (London)
  • Butler C.S. (ed.) 1992: Computers and written texts (Oxford)
  • McTear M. 1987: The articulate computer (Oxford)
  • Scholfield P. 1995: Quantifying language (Clevedon)

[Επεξεργασία] Εξωτερικοί σύνδεσμοι

Static Wikipedia (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2006 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia February 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu