WordNet
出典: フリー百科事典『ウィキペディア(Wikipedia)』
WordNet(わーどねっと)は英語の概念辞書(意味辞書)である。WordNetでは英単語がsynsetと呼ばれる同義語のグループに分類され、簡単な定義や、他の同義語のグループとの関係が記述されている。 WordNetの目的は直感的に使うことのできる辞書とシソーラスが組み合わされた成果物を作ること、および自動的文書解析や人工知能のアプリケーションの実現を支援することにある。WordNetのデータベースやソフトウェアはBSDライセンスによって公開され、自由にダウンロードして用いることができる。データベースはオンラインで参照することもできる。
WordNetはプリンストン大学の認知科学研究所によって心理学者である同大学教授のジョージ・ミラー(George A. Miller)の主導のもとで運営されている。開発は1985年に始められ、この間、主に機械翻訳に取り組む米国の政府機関から3百万ドルの支援を受けた。
目次 |
[編集] データベースの内容
2005年現在、WordNetのデータベースは約11万5000のsynsetに分類された約15万語を収録し、全体で20万3000の単語と意味の組み合わせがある。データベースは圧縮された状態で約12メガバイトのサイズがある。
WordNetでは名詞、動詞、形容詞、副詞を文法上の扱いが異なることから、区別して収蔵している。synsetは同義の単語あるいはコロケーション(熟語、連語; コロケーションとは"car pool"のように単語が連なって一つの意味をなしている句)をグループにまとめている。
意味の異なる語句は別のsynsetに分類される。synsetの持つ意味は注釈として以下のような形式で記載されている。(訳注:synsetに属する単語がgood, right, ripeであり、注釈は括弧の中に記載されている。)
- good, right, ripe -- (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")
ほとんどのsynsetは他のsynsetとの意味的な関係が番号によって示されている。この関係の種類は品詞によって異なっており、以下に示す通りになっている。
- 名詞
- 動詞
- 上位語(hypernym): Xという行動がYの種類の一であるなら動詞Yは動詞Xの上位語である。 (「移動(movement)」は「旅行(travel)」の上位語)
- troponym: もしYという行動がXを行う際の様態であるなら動詞Yは動詞Xのtroponymである。(「片言で話す(lisp)」は「話す(talk)」のtroponym)
- entailment: Xしている場合必然的にYしているなら動詞Yは動詞Xにentail(ひきおこすこと)されている。 (X:「いびきをかく(snoring)」はY:眠る(sleeping)」ことによって引きおこされる。)
- 同族語(coordinate terms): XとYがの上位語が同じなら、YはXの同族語である。
- 形容詞
- 関係のある名詞
- 動詞の分詞
- 副詞
- 原形の形容詞
synsetに含まれる語句は同じ意味を持った同義語であるため意味的な関係はsynset内全体に適用されるが、 単独の語句が他の語句と反意語や派生語などの関係を結ぶこともある。
WordNetには語句の多義性の度合い(polysemy count; 語句が属するsynsetの数)の情報も含まれている。ある単語がいくつかのsynsetに属している(いくつかの意味を持っている)場合、ある意味は他の意味よりも一般的に用いられているという関係を持っていることが多い。WordNetではこのような関係を頻度点(frequency score)と呼ぶ数値で表している。サンプルの文書の中には全ての単語にsynset等の意味を表すタグを付与しているものがあり、単語が特定の意味で出現している頻度によって頻度点が計算されている。
単語から語幹(英:root form)や原型(英:lemma)を推定するための形態素解析ツールはデータベースと一緒に配布されている。屈折形を含む語の場合をのぞいて語幹のみがデータベースに格納されている。
[編集] 知識構造
名詞と動詞は上位・下位の関係(IS Aの関係)によって定義される階層構造にまとめられている。たとえばdogの第一義は以下のような上位語階層を持っている。 同じ階層にある単語はそれぞれ同義語の関係にある。dogの示すある意味の同義語にはdomestic dogやCanis familiarisがある。 同義語のグループ(synset)は一意の索引によってポイントされ、同じ属性や注釈を持っている。
dog, domestic dog, Canis familiaris => canine, canid => carnivore => placental, placental mammal, eutherian, eutherian mammal => mammal => vertebrate, craniate => chordate => animal, animate being, beast, brute, creature, fauna => ...
階層の頂点ではこの階層構造は25の名詞の基礎グループと15の動詞の基礎グループにまとめられている。このグループが編集用のファイル一つにそれぞれ対応している。この基礎グループは、WordNetを利用するアプリケーションが抽象的なルートノードとして用いるノードに対応している。
形容詞の場合、二つの反対する主要な意味が極となって、その他の同義語が形容詞の場合における同義性の関係によって極を取り囲む形をとっている。したがって階層構造や編集用のファイルは名詞や動詞の場合と異なった構造をとっている。
名詞のネットワーク構造は他の品詞と比べてはるかに深い構造を持っており、動詞は他の品詞よりもはるかに入り組んだ構造をしている。 形容詞ははっきり区別された別々の固まりに組織されており、副詞はそれぞれの語が由来する形容詞に従って定義されており、形容詞と似た構造をとっている。
[編集] 心理学的な正当性
WordNetの目的は年月をかけて獲得した、人間が言語を処理する方法に関する知識によって一貫性のあるシステムを開発することだった。
例えば失語症は患者が物の名前を思い出すのを選択的に(該当する物とそうでない物が入り交じって)妨げる状況を作り出すということが分かっている。 そのため、品詞をはっきりした階層構造へ分類する、より理にかなった分類方法が採られた。
下位語の場合、 人間が名詞の属性を見つけることのできる早さは、その特徴を定義している階層を見つける早さに依存していることが心理学実験で明らかになっている。 したがってカナリアは鳴き鳥の一種である(直下の下位語となっている)ため、人は「カナリアは歌う」かどうかをすぐに判断することができるが、 「カナリアは飛ぶ」かどうかを判断するにはもう少し時間がかかり(二層の隔たりがある)、「カナリアは皮膚を持っている」かどうかを判断するにはより多くの時間を要する(複数の階層の隔たりがある)。これは、人間はある概念と他の似た概念を区別するのに必要なもっとも明確な情報のみを保持していることから、 人間がWordNetに似た方法で意味の情報を記憶しているということを示唆している。
[編集] 制限事項
他の辞書とは異なり、語源に関する情報はWordNetに含まれていない。発音や不規則動詞についての説明はごく簡単なものにとどまっている。
辞書編集上の意味の情報は編集用のファイルにおいて管理されており、grind と呼ばれるツールによって配布用のデータベースを生成する処理が行われている。 grind と編集用のファイルも自由に利用することができるが、それでもデータベースの変更を行うことは難しい。
WordNetでは似た意味の単語を単一の一般的な定義によるsynsetにまとめているため、個々の単語の定義は必ずしも正確ではない。
[編集] 関連するプロジェクト
EuroWordNetプロジェクトはそれぞれ相互にリンクされたヨーロッパの言語のWordNetを開発しているが、フリーのライセンスで利用することはできない。Global Wordnetプロジェクトは 全ての言語WordNetを接続し、統合を行おうとしているプロジェクトである。オックスフォード英語辞典(Oxford English Dictionary)の出版社のオックスフォード大学出版は独自のWordNetをオンライン上で構築することを発表している。
eXtended WordNetはテキサス大学ダラス校のプロジェクトである。WordNetの注釈を意味的に解析し、定義に含まれる情報を知識処理システムで利用可能とすることでWordNetを改良することをねらっている 。eXtended WordNetはWordNetと似たライセンスで自由に利用することができる。
GCIDEプロジェクトはパブリックドメインの1913年版のウェブスター辞典をWordNetの単語の定義およびボランティアによって提供された情報と組み合わせた辞書を作成している。これはコピーレフトライセンスのGPLで公開されている。
名詞のsynset間の上位語・下位語の関係は概念のカテゴリ同士の特化した関係として理解することができる。 言い換えれば、WordNetは情報科学における意味での、語彙のオントロジーとして用いることができる。 しかし、こうしたオントロジーは非常に多くの意味的な不整合、たとえば、(1)排他的なカテゴリ付けを行うために多数の語句をまとめて限定的な意味を付与していることや(2)意味付けの階層構造に冗長性があるため、通常、使用される前に修正が行われる。
さらに、WordNetを知識表現に利用可能なオントロジーに変換するには、通常 (1) WordNet上で行われている意味付けをsubtypeOfとinstanceOfの関係に区別して記述することと、 (2) 一意の識別子をそれぞれのカテゴリに関連づけることを必要とする。 このような修正と変換はintegration of WordNet 1.7 into the cooperatively updatable knowledge base of WebKB-2に記されている例があるが、ほとんどのプロジェクトはWordNetを知識処理アプリケーション(知識情報処理による情報検索等)に再利用する場合には単純にWordNetそのものを利用する方法を採っている。
WordNetはWordNetのカテゴリと他のオントロジーに由来するカテゴリとの写像にも広く利用されている。 たいていの場合、WordNetの最上位レベルのカテゴリのみが写像に用いられるが、オントロジーSUMOの作者は WordNetのsynset(名詞、動詞、形容詞、副詞)とSUMO classとの写像を作成した。 2006年現在の写像はSUMOを拡張したMId-Level Ontology (MILO)の特定の用語へのより多くのリンクを提供している。 OpenCycの上層のオントロジーにはWordNetのノードにリンクが設定されている。
WordNetをオントロジーに組み込もうとしている多くのプロジェクトでは、WordNetの内容は意味的な不整合の問題が起きた場合に単純に訂正されるのではなく、 WordNetを発想の種として使ってきたが、必要があるときには大規模に書き換えて用いている。 たとえば、OntoCleanを基盤にしたアプローチによってWordNetの最上位のオントロジーが再構築された例やSENSUSオントロジーの下位の分類を構築するのにWordNetを出発点のソースとして用いた例などがある。
FrameNetはWordNetに近いプロジェクトである。10万以上の文に加えられた意味的な属性の注釈をもとにした語彙集であり、ねらいとなっている単位は、語彙フレーム(lexical frame)である。語彙フレームとは語句に関連づけられた属性に加えて、状態あるいは事象の種類(訳注:フレームについては[1]などが参考になる。)を表したものである。
[編集] 参考文献
- ``Five Papers on WordNet by Miller, George A., Christiane Fellbaum, Katherine J. Miller. August, 1993, retrieved May 4, 2005
[編集] 関連項目
- Semantic Web
- 分類学
- Synonym Ring
[編集] 外部リンク
- The WordNet Home Page
- WordNet 2.0 - Dictionary & Thesaurus - ベクター社によってホストされているWordNetのデータベース
- Wordnet Related Projects - WordNetにアクセスするためのインターフェースおよび拡張機能の一覧
- Global Wordnet
- The SENSUS ontology