検索エンジン
出典: フリー百科事典『ウィキペディア(Wikipedia)』
検索エンジン(けんさく-、Searching Engine)とは、狭義にはインターネットに存在する情報(ウェブページ、ウェブサイト、画像ファイル、ネットニュースなど)を検索する機能を提供するサーバーやシステムの総称である。インターネットの普及初期には、検索エンジンとしての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々なサービスが加わったポータルサイト化が進んだため、検索エンジンをサービスの一つとして提供するウェブサイトを単に検索エンジンと呼ぶことはなくなっている。広義には、インターネットに限定せず情報を検索するシステム全般を含む。
狭義の検索エンジンは、ロボット型検索エンジン、ディレクトリ型検索エンジン、メタ検索エンジンなどに分類される。 広義の検索エンジンとしては、テキスト情報の全文検索機能を備えたソフトウェア(全文検索システム)等がある。 また、検索エンジンは、全文検索が可能なものと不可能なものがある。
目次 |
[編集] 検索エンジン(狭義)
[編集] ロボット型検索エンジン
与えられた検索式に従って、ウェブページ等を検索するサーバー、システムのこと。検索式は、最も単純な場合はキーワードとなる文字列のみであるが、複数のキーワードにANDやOR等の論理条件を組み合わせて指定することができるものが多い。
ロボット型検索エンジンの大きな特徴の一つとして、クローラ(スパイダー)を用いることが挙げられる。このことにより、WWW上にある多数の情報を効率よく収集(日本の著作権法では複製)することができる。大規模な検索エンジンでは、30億ページ以上のページから検索が可能になっている。
収集したページの情報は、前もって解析し、索引情報(インデックス)を作成する(日本の著作権法では編集)。日本語などの言語では、自然言語処理機能が生成される索引の質に影響する。このため、多言語対応した検索エンジンの方が精度の高い検索が可能となる。
検索結果の表示順は、検索エンジンの質が最も問われる部分である。ユーザーが期待したページを検索結果の上位に表示することができなければ、ユーザーが離れてしまうからである。そのため、多くの検索エンジンが、表示順を決定するアルゴリズムを非公開にし、その性能を競っている。また、検索エンジン最適化業者の存在も、アルゴリズムを公開しない要因になっている。Googleは、そのアルゴリズムの一部であるPageRankを公開しているが、やはり、多くの部分が非公開になっている。なお、Googleの場合、創設初期におけるアルゴリズムについては、創設者自身がウェブ上で公表している論文でその一端を知ることができる。 参照 英語原文[1]日本語の解説[2]
ウェブページの更新時刻の情報を用いて、新しい情報に限定して検索できるものや、検索結果をカテゴリ化して表示するものなど、特長のある機能を搭載しているものもある。また、検索結果と同じ題名の書籍がある場合、オンライン書店へのリンクを表示するなど、商業的な機能もある。
Google, Yahoo!, infoseek, Technorati,MARSFLAG, Altavista, AlltheWeb, Teoma, WiseNut, Inktomiなど。
[編集] ディレクトリ型検索エンジン
人手で構築したウェブディレクトリ内を検索するサーバー、システムのこと。
人手で構築しているため、質の高いウェブサイトを検索可能。また、サイトの概要を人手で記入しているため、検索結果の一覧から目的のサイトを探しやすいという特長がある。
しかし、検索対象となるサイトは人手で入力するため、検索対象となるサイト数が多くないという欠点がある。
WWWの爆発的な拡大によって、あらゆるウェブサイトを即時にディレクトリに反映させることが事実上不可能になり、現在では主流ではなくなっている。 このため、ディレクトリ型検索エンジンでは、検索にヒットするサイトが無かった場合、ロボット型検索エンジンを用いて結果を表示するような、併用型のものが多い。
Yahoo!, Lycos, Open Directory Project, LookSmartなど。
[編集] 検索エンジン(広義)
[編集] 全文検索システム
与えられた文書群から、検索式(キーワードなど)による全文検索機能を提供するソフトウェア、システムの総称で、ウェブサーバに組み込んで利用されることが多い。スタンドアローン環境で用いられる個人用途のものもあり、そういったものは特に「デスクトップ検索」と呼ばれている。
Namazu(日本語全文検索システム)やOracle Secure Enterprise Searchなど。
[編集] 歴史
[編集] 黎明期
日本のインターネット普及初期から存在した検索エンジンには以下のようなものがある。黎明期には、豊橋技術科学大学の学生が作成したYahhoや、東京大学の学生が作成したODiN、早稲田大学の学生が作成した千里眼など、個人の学生が作成したものが商用に対して先行していた(いずれも1995年に作成)。これらは、単に実験用に公開されていただけでなく、多くの人に用いられていたものであって、黎明期のユーザにとっては、知名度、実用度ともに高いものであった。またMondouなどのように研究室(京都大学)で作成したものもあった。
[編集] ロボット型
- ODiN (サービス終了)
- 千里眼 (サービス終了)
- OCN Navi (TITAN) (サービス終了)
- Mondou(サービス終了)
[編集] ディレクトリ型
- Yahoo!
- NTT DIRECTORY (サービス終了)
[編集] Yahoo!の独走
日本では1996年にサービスを始めたYahoo!は簡素な画面構成と質の高いディレクトリで人気を集め、検索サイト首位の座を固め、検索サイトの集客力を武器にニュース、オークションなどのサービスでポータルサイトとしての独走を始めた。
[編集] 群雄割拠
1997年頃から、WWWの爆発的な拡大に伴って、ディレクトリ型のみであったYahoo!のウェブディレクトリの陳腐化が急速に進んだ。この頃、infoseekやgooに代表されるロボット型検索エンジンが人気を集め始め、Yahoo! JAPANはロボット型検索エンジンにgooを採用するなど、群雄割拠の時代になった。
[編集] Googleの台頭
1998年に登場したGoogleは、従来の検索エンジンがポータルサイト化へ進む流れに逆行し、独創的な検索技術に特化しバナー広告等を排除した簡素な画面と2000年にYahoo!のロボット型検索エンジンに採用されたことにより、急速に人気を集めた。2004年現在では、ウェブページ検索の世界シェアのトップに躍り出たと見られている。英語圏ではあるフレーズ(たとえば「ウィキペディア」)をGoogleで検索することを`google Wikipedia.'のように表現する(日本語においては「ウィキペディアをググる、ウィキペディアでググる」)ほどになった。この状況に危機感を募らせたYahoo!は、2004年にロボット型検索エンジンを独自技術Yahoo!Search Technology(YST)(Yahoo!が買収したInktomiとAltaVista、Overture等の技術を統合した)に切り替えた。同年、GoogleやYahoo!のエンジンに匹敵すると言われるTeomaを利用した検索エンジン、Ask Jeeves(現・Ask.com)が「Ask.jp」として、2005年、オーストラリアで誕生したMooterが日本に進出し、検索サービスを開始した。
[編集] 検索エンジンの多様化
検索という行為が一般化するにつれて、各種目的別に多様化した検索エンジンが現れるようになった。品詞をクラスターさせて検索するMooter、ブログの情報に特化した検索TechnoratiやblogWatcher、商品情報の検索に特化した商品検索サイト、サイトの見た目で検索するMARSFLAGほか、次々と新しい検索エンジンが生まれている。 また、検索エンジンでは判断できない抽象的な条件などでの検索を人手に求めた、OKWaveや人力検索はてななどの「人力検索」と呼ばれるサービスも登場した。
[編集] 対応端末のの多様化
ソフトバンク・Yahoo! JAPANがボーダフォンを買収し、KDDIがGoogleと提携するなど、携帯電話の分野で検索エンジンの戦いが激化してきている。モバイル検索の分野は長らく公式サイトと呼ばれる世界がユーザーの囲い込みを行っていたため脚光をあびることが少なかった。また近年携帯型ゲームにインターネット接続機能が搭載されるようになりつつあり、こういった世界でも検索エンジンの戦いがまもなく起こるのではないかとの見方もある。
[編集] 課題
いわゆる「使用言語からみたインターネット人口の割合」はInternet Archiveを用いてEuro MarketingとGlobal Reachから過去の月次資料を整理すると以下のような推移を辿っている。
1998年 | 1999年 | 2000年 | 2001年 | 2002年 | 2003年 | 2004年 | |||||
12月 | 1月 | 4 - 7月 | 12月 | 2月 | 4 - 6月 | 7月 | 1月 | 6 - 10月 | 2 - 4月 | 7月 | |
英語 | 58% | 55% | 51.3% | 49.6% | 47.6% | 47.5% | 45.0% | 43.0% | 40.2% | 36.5% | 35.8% |
非英語 | 42% | 45% | 48.7% | 50.4% | 52.4% | 52.5% | 55% | 57.0% | 59.8% | 63.5% | 64.2% |
1995年以前のInternet Societyによればインターネットで用いられている言語のうち英語が占める割合は85%とされていたが、その後のITの進歩や各国のインターネットの普及により多言語化が進み、上表に見られるように2000年の年末には英語と非英語の言語人口が逆転し、その傾向は継続している。
2005年2月2日現在、WWW検索エンジンの代表格であるGoogleでは80億を越す8,058,044,651ウェブページが登録されている。検索エンジンの利用者はそれら40億を越すウェブページから求める情報を容易に引き出せると思い込みがちであるが、例えば日本語入力のできないコンピュータなどの端末を用いて日本語サイトを検索することは容易ではない。同様に非英語圏の言語間の検索は中間に翻訳エンジンを介さないと検索作業は難しい。
インターネットの多言語化が今後も増加すると仮定した場合、言語間の壁をどのように乗り越えるかは今後の検索エンジンが抱える課題の一つとして挙げることができる。
[編集] 深層ウェブ
また、Googleなどのウェブ検索エンジンでは、データベースの検索結果など多くの動的ページが検索対象になっていない。このような動的ページは「深層ウェブ」「見えないウェブ」「隠されたウェブ」などと呼ばれている。静的ページの500倍の量が存在し、多くは無料だといわれる。深層ウェブは、一般の検索エンジンなどからデータベースなどを見つけ出すか、直接アクセスした上で、それぞれの検索機能から再度検索しなければならない。
[編集] 社会的な問題
膨大なインターネット上の情報を網羅的に調査するには大手の検索エンジンを利用するほか方法が無い。このためURLがあまり知られていない無名なウェブサイトやドキュメントなどに関しては検索エンジンに検索結果として表示されなければ、その情報にたどりつく可能性が著しく少なくなってしまう。表示されなくなる基準は露骨な検索エンジン最適化テクニックを使用しているサイトや各国の法律等に反しているサイトなどと考えられているが、その明確な基準は各社共に不明瞭であり、検索結果から削除される際の該当ウェブサイトへの警告は基本的にない。日本でも実際に上場企業のウェブサイトが検索結果に掲載されなくなるということが起きた。しかしながら日本に参入している大手の検索エンジンは4社あるので、利用者側の対策としては複数の検索エンジンを使い分けて検索結果の多様性を確保するという方法が考えられる。
検索エンジンを利用したストーカー行為の事例も発生するようになってきた。個人の氏名で検索すると非常に詳細な個人情報が取得できるケースもあるが、個人情報の削除要請に対し検索エンジン各社は、元のページの作成者に一切の責任があるとして、応じない方針を取っている。
また中国の検索エンジンでは反政府的な内容や政府が弾圧しているといわれる宗教団体に関する情報は検索結果に表示されなくなっている。Googleなどは検索結果の中に「表示されている内容は一部法律に基づいて省略されている」という記述があるが、結果的に中国政府の言論弾圧に手を貸しているという批判がある。