コーパス
出典: フリー百科事典『ウィキペディア(Wikipedia)』
コーパス(corpus; 「身体」を意味するラテン語に由来、複数形はcorpora(こーぽら)だが通常使われない)とは、電子化された自然言語の文章から成る巨大なテキストデータである。 言語学や自然言語処理などの研究に使うため、言語的な情報(品詞、統語構造など)が付与されていることが多い。
元となる文章を集めるにあたり著作権などの法的問題が発生する他、電子化の手間などが発生するため、大規模なコーパスの作成には相当の費用と時間がかかる。 現在日本では国立国語研究所が一億語の収録を目指すKOTONOHA計画をすすめている。