Wikipedia:データベースダウンロード
出典: フリー百科事典『ウィキペディア(Wikipedia)』
ウィキペディアのコンテンツは、全てGNU Free Documentation Licenseの下にライセンスされており(Wikipedia:著作権を参照)、再配布や再利用のためにデータベース・データの提供が行われています。データの生成は不定期に行われています。より詳しい解説はmeta:Data dumps(英語)を参照してください。
- ウィキメディア財団による全プロジェクトのデータベース・ダンプ
- http://download.wikimedia.org/ (ptmpa)
- http://download-yaseo.wikimedia.org/ (yaseo)
- ウィキペディア日本語版: http://download-yaseo.wikimedia.org/jawiki/
- MediaWikiソフトウェア: http://www.mediawiki.org/
- データベースソフトウェア: MySQL
目次 |
[編集] 通常のページ
ウィキページのデータはSQLのテーブルではなく、XMLで提供されます。XMLファイルの文字エンコーディングはUTF-8です。
- pages-articles.xml.bz2 - ノートページ、利用者ページを除く最新版のダンプ
- pages-meta-current.xml.bz2 - 全ページの最新版のダンプ
- pages-meta-history.xml.7z - 全ページの全ての版のダンプ
- all-titles-in-ns0.gz - 全項目のページ名一覧 (標準名前空間)
これらのXMLファイルをMySQLデータベースにインポートするには、MediaWiki配布物に含まれるimportDump.phpスクリプトを使用します。
例:
$ bunzip2 -c pages-articles.xml.bz2 | php maintenance/importDump.php
[編集] 要約
ページの最初の段落とリンクのみを抽出したXMLデータが提供されます。
- abstract.xml.gz
[編集] 画像
画像等のメディア・ファイルは単一のtarアーカイブ(無圧縮)で提供されます。
- upload.tar - 全メディア・ファイル
現在、メディア・ファイルの提供は中止されています。
[編集] その他のテーブル
その他の補助テーブルは、MySQLダンプで提供されます。
- page.sql.gz
- user_groups.sql.gz
- logging.sql.gz
- interwiki.sql.gz
- langlinks.sql.gz
- externallinks.sql.gz
- templatelinks.sql.gz
- imagelinks.sql.gz
- categorylinks.sql.gz
- pagelinks.sql.gz
- oldimage.sql.gz
- image.sql.gz
- site_stats.sql.gz
データベース・スキーマについてはMediaWiki配布物に含まれるtables.sqlを参照してください。
[編集] コンテンツの二次利用に関して
ウィキペディア日本語版のテキストを再利用する際は、GFDL1.2またはそれ以上のバージョンの下で配布してください(詳しくはWikipedia:著作権を参照)。GFDLを完全に履行できない場合は、データがウィキペディアに由来することを明記し、ウィキペディアの個々のページにリンクバックすることで、GFDLの要求する著者と履歴の提示にかえることができます。ウィキペディア日本語版以外のプロジェクトでは、採用しているライセンスが異なる場合がありますので、各プロジェクトの解説を参照してください。
画像のダンプにはGFDLで利用可能でないものが含まれています。それぞれの画像に関して、テキストのダンプに含まれている、画像の説明ページでライセンス等の著作権情報を確認してください(詳しくはWikipedia:メディアファイルのライセンスを参照)。
テキスト・画像ともに、おそらく他者の著作権を侵害しているものが含まれていますが、誰も気づいていないため除去されていません。このことを理解したうえで、すべて自己責任で利用してください。また、あなたがこのような著作権侵害に気づいた場合は、私たちに知らせてください。
その他の諸注意に関して、Wikipedia:免責事項#ウィキペディア内コンテンツの2次利用についてやCopyright and license (英語)も参照してください。
[編集] クローラを使わない
記事を大量にダウンロードするためにクローラを使わないで下さい。強引なクローリングは、ウィキペディアが劇的に遅くなる原因となります。
ウィキペディアのデータベースから動的にデータの収集がなされた場合、開発者によってあなたのサイトからウィキペディアへのアクセスを禁止する措置が取られることもあります。またウィキメディア財団が法的措置を検討することもあります。
[編集] 参考リンク
- meta:Data dumps
- xml2sql - XMLファイルをデータベースに直接インポートできる形式へ変換するユーティリティプログラム
- 統合アーカイバプロジェクト
- bzip2 and libbzip2 - win32バイナリ等