Privacy Policy Cookie Policy Terms and Conditions Wikipedia‐ノート:索引 - Wikipedia

Wikipedia‐ノート:索引

出典: フリー百科事典『ウィキペディア(Wikipedia)』


目次

[編集] 索引の必要性

Wikipedia:井戸端#索引の必要性でも問題提起していますが、こちらで議論するのが望ましいと考え、新たにセクションを設けました。

索引が作られた際の議論を把握できていないのですが、索引の必要性について考慮はなされたのでしょうか。

私が思うに、索引は、Wikipedia:ウィキペディアは何でないかの「紙製の事典ではない」「内部リンク集ではない」に矛盾するものになっており、これだけ取り上げても必要のないものだということができます。さらに、現在も手動で作成されているため全項目を網羅できていないことや、今後も増え続ける項目に対してメンテナンスすることが現実的に可能かどうか考えると、索引の存在意義に疑問を感じざるを得ません。

2003年の12月に索引を立ち上げた方やメンテナンスを続けている方には申し訳ないのですが、索引ページをWikipediaから削除することを検討したいと思います。--Tamago915 2005年5月16日 (月) 09:09 (UTC)

削除するかしないか以前に、削除する事を検討する事に疑問を感じる。--航平 2005年5月17日 (火) 08:07 (UTC)
お返事ありがとうございます(誰も反応してくれないかと思った……)。疑問ということですが、どのような疑問を感じているのか、回答願えますでしょうか。Wikipediaに索引が必要ということであればその主張も聞きたいと思います。
私は、Wikipediaに索引があるメリットよりも、索引をメンテナンスし続けるコストのほうが大きいと感じますし、管理できなくなるのであれば削除するという選択肢も十分に考えられるのではないかと思うわけです。--Tamago915 2005年5月17日 (火) 09:13 (UTC)

まず必要性という点で言うと、一覧性の一言です。具体的には、「亜鉛」について調べたい時に、「亜鉛なんとか化合物」とか「亜鉛なんとか症候群」とか「亜鉛なんとか反応」とか「亜鉛で始まる単語」が並べられていたら便利でしょう。全記事を一覧するために特別:Allpagesという機能があるわけですが、日本語に関して言うと、ひらがなとカタカナと漢字が別に並べられていますから非常に使いづらいものになっています。

(「特別:Allpages」を今見てみたら、「イ」くらいまでしか見えませんね。それでは余計に使えません)

ただし、メンテナンスに関して言うと、現在追い付いていない・メンテナンスし続けるコストが大きいというのはご指摘の通りだと思います。当初から、いずれ何らかの自動化(マクロとかボットとか)ができればと思っていました。全てのページの書き出しが「記事名(よみ)は~」と定型化されていれば、自動化に役立つと今でも思っています。そのような前向きな検討はできないものでしょうか。Yas 2005年5月17日 (火) 10:39 (UTC)

(亜鉛で始まる単語は「亜鉛」しかないようですが、それはさておき)Wikipediaで「亜鉛」について調べたければ、検索機能を使うのではないでしょうか。現在はサーバ負荷の問題などで実現していませんが、検索機能が強化されて、「亜鉛」と入力すればタイトルに亜鉛を含む記事(硫酸亜鉛などのように、途中に含むものも含めて)が検索できるようになればよいのではないでしょうか。
索引というのは、紙の事典では検索ができないため、次善の策として取っている手段だと認識しています。検索機能があるWikipediaで、わざわざ使いづらい索引機能を実装して、膨大なリソース(サーバ、人的とも)を消費することもないのではないかと考えています。--Tamago915 2005年5月17日 (火) 11:05 (UTC)
こんにちは。ひとつの考え方として理解できます。私は検索機能と一覧機能は別だと考えていますが。Yas 2005年5月17日 (火) 22:22 (UTC)

しばらく前から使えるようになったカテゴリ(この名前が誤解の元だと思うのですが)は、この解決のために作られたと私は考えています。つまり、「亜鉛」に[[Category:あえ|ん]]を、「亜鉛化合物に[[Category:あえ|んかこうふつ]]を貼り付ければ、「Category:あえ」の「ん」の所に並んでくれます。その上位カテゴリを「Category:索引」にすれば、「Category:あえ」「Category:索引」の「あ」の4番目に並びます。ちょうど今の索引と同じ形になります。-- [Café] [Album] 2005年5月17日 (火) 11:45 (UTC)

ちょっと過激な意見かもしれませんが、すべての項目に索引作成専用のカテゴリを貼ると、自動的にWikipedia全体の索引が生成されるということなのでしょうか。Hareno 2005年5月17日 (火) 15:30 (UTC)
今までそういう使われ方は(カテゴリの使用が積極的だと言われる)英語版でもしていないようですが、そういう使い方も可能でしょう。-- [Café] [Album] 2005年5月17日 (火) 16:42 (UTC)
こんにちは。カテゴリの利用というアイディアは感心しました。しかしカテゴリが「この解決のために作られた」は言いすぎかつ誤りだと思います。今から11万件を変更というのが現実的かどうかが一番の問題でしょうか。その他、今思いつくデメリットとして「リダイレクトを登録することができない」「頭2文字から3文字に変更する必要が出た場合に作業量が膨大」を挙げておきます。Yas 2005年5月17日 (火) 22:22 (UTC)
私は、索引については必要不可欠な物と思います。検索するにせよ一致した語句が記事中に無い場合はヒットしませんが、曖昧的な記憶に基づき検索する場合、この検索機能はあまり役には立ちません。例えば一つの漢字を間違えただけでも対象から外れます。また地方によって呼び方の違うものを記事内に網羅し切れていないのも現状ではないかと思います。検索機能もリアルタイムに新しいデータを更新しているわけでもなく、時々、古い版をヒットすることがあります。これらか検索があるので索引は必要ないとは到底言いきれない物と思います。
カテゴリ化のアイデアは面白いと思います。読替がある場合も流用できそうです。redirectは単なる読替ですから本記事の方にカテゴリを貼れば解決出来ます。私の場合は、カテゴリの記述を最初から3文字にしてはと思います。あくまでもアイデアの一つですが、現行の記事(1文字または2文字)を10~20件程度を目処にサブページ化し、それぞれのサブページに該当する検索カテゴリをはり、件数の少ないものは元ページに直接検索カテゴリを貼る。記事が増えればサブページ化という具合です。今と殆ど見た目は変わらないと思いますが、節目毎にサブページ化することにより1度の修正で改版されるバイト数がかなり減る物と思います。一覧が長くなったサブページは記事名を変えて、リンクすることにより今まで通りの検索が出来ると思います。後は、サブページを検索カテゴリの一つに加え、カテゴリ内に記事が増えればサブページの本記事に追加と言う具合にすればどうかと思います。最初から検索される側に貼られるカテゴリは3文字なのでさほど仕事量が増えるわけでもありません。このアイデアは実例作らないと説明は難しいかなぁ・・Miketsukunibito 2005年5月18日 (水) 00:24 (UTC)

[編集] メンテナンスの自動化

索引の必要性を感じている人は多いようですね。Wikipediaにおいて、検索を使わずに索引を使う状況というのが私には想定できないのですが、索引を使って何かを調べた経験があれば、それを教えていただければと思います。また、現状索引は未完成の状態にありますが、かけるコストを小さくしながら索引に掲載されていない項目をなくしていく、うまい方法はあるでしょうか。--Tamago915 2005年5月18日 (水) 10:07 (UTC)

何らかの方法で自動化しつつメンテナンスしていかないと、索引への掲載が新規記事の作成に追いつかない事態が生じると思います。とりあえず、
  • 現時点で「すべての記事」から「索引ページからリンクされているページ」を除いたリスト(索引に掲載されていないページのリスト)を作成する
  • 各ページの先頭部分から見出しの読みがなを洗い出す
という作業は自動化できると思うのですが、索引に掲載されていないページはどの程度あるでしょうか。
もし索引に掲載されていないページが膨大(5万ページ以上ある)だったり、5月中に作業が開始されない場合は、メンテナンス不能と見なして削除依頼を提案させていただきます。--Tamago915 2005年5月23日 (月) 04:28 (UTC)

途中まで項目数を洗い出してみました。「あ」~「は」まで(中途半端ですが)、リダイレクトを含んだ項目数(「*」で始まる行の数の合計)が約46000、リダイレクトを除いた項目数(先のものから「⇒」を含む行を除いたもの)が約40000でした。「あ」~「は」までで全体の半分を洗い出したと仮定して、索引に掲載されている項目数が約80000、掲載されていない項目が約30000あるという計算になります(実際は半分以上洗い出せていると思われるので、未掲載の項目は3万では済まないはず)。メンテナンスするにしても、残件が多くて対応が難しいかな、という感じがします。--Tamago915 2005年5月24日 (火) 10:18 (UTC)

en:Wikipedia:Quick indexのようなページでいいのではないでしょうか。「」とすると「あ」から始まる一覧が表示されます。手作業による五十音順索引は中止、もしくは廃止でいいと思います。手作業でやるのでしたら「~一覧」という名称になっている分野別の索引のほうが良いでしょう。--Ligar 2005年5月26日 (木) 02:27 (UTC)

日本語だと現実的ではないと思います。
  1. Unicodeの漢字の並び順は読みと連動しておらず、先頭の文字を探すだけでも一苦労
  2. Special:Allpages は非常に負荷の高いページで、高負荷の時間帯ではしばしば処理がキャンセルされる
現在5/16のダンプをローカルに投入中なので、週末にでも索引掲載率を一寸出してみようと思います。Tietew 2005年5月26日 (木) 02:44 (UTC)

ありがとうございます。TietewさんかSuisuiさんに依頼しようかと思っていたところでした。ところで、今後の流れですが、

  1. 5月16日時点の索引未掲載リストを作成する
  2. 索引未掲載のデータが手動で追加できる分量かどうかを判断する
    • 追加できそうなら、リストを公開していただき、人海戦術で索引を完成させる
    • 追加できそうにないなら、索引の運用を中止するかどうか検討する
  3. 索引の運用を続けるなら、5月17日以降の新規記事リストを索引項目のフォーマットでどこかのページに公開する
  4. 新規記事リストをフォーマットしたページから、定期的に索引に新規記事を反映させる

という感じになると思いますが、いかがでしょうか。--Tamago915 2005年5月26日 (木) 03:37 (UTC)

数えてみました。5/16現在:
  • 記事数(記事名前空間にあるページで、リダイレクトでないもの): 117,931
  • 索引掲載数(Wikipedia:索引 から始まるページからリンクがあるもの): 56,697
  • 掲載率: 48.1% - 索引未掲載記事: 61,234
Tietew 2005年5月28日 (土) 08:44 (UTC)
未掲載の記事が6万記事を超えていますか……。思っていたより多いですね。
  1. 全体の半分以下の記事しか掲載されていないが、現状のまま索引として使い続ける
  2. 未掲載の記事を掲載するプロジェクトを立ち上げ、索引を完成させる方向で進める
  3. 索引の運用を取りやめ、削除依頼を出す
このいずれかの選択肢があると思います。私は3で。--Tamago915 2005年5月28日 (土) 09:22 (UTC)

1ですね。Special:Allpagesが日本語では扱いにくいのなら、解決策は現状維持かと。なにかもっとよい案があればいいんですが…。--Ligar 2005年6月2日 (木) 01:08 (UTC)

一から作り直すことは可能でしょうか。Tietewさんが取り出してくださった117931件についてスクリプトで読みがなを付けて、読みがなの先頭2文字で「ああ」「あい」……「わを」「わん」とページを作って分類し(単純計算で2500ページあるのか)、分類したそれぞれのページでソートする、という処理ならかなりの部分が自動化できると思うのですが、やっぱりコストがかかりすぎですかね……。--Tamago915 2005年6月2日 (木) 09:45 (UTC)

[編集] 削除依頼について

削除依頼を提出しました(Wikipedia:削除依頼/索引)。まだ時期尚早だったかもしれませんが、ノートでの議論が止まってしまったように感じましたので、提出に踏み切りました。

削除依頼の議論の中でも、索引の運用をどうするかは議論の余地があると指摘されていますので、継続して議論をお願いします。--Tamago915 2005年6月1日 (水) 09:47 (UTC)

[編集] プロジェクトを作りました

Wikipedia:ウィキプロジェクト 索引を作りました。索引自動化の検討です。よろしく。Tietew 2005年9月23日 (金) 20:35 (UTC)

[編集] 全自動索引

このページを見て全自動で索引が作れないかと思い、テストとして利用者:TETRA/索引テスト/アイア-アイソを作ってみました。索引ということで例えば"愛国"の欄には「〜主義」「クルド〜同盟」「阮〜」を並べるなど、索引っぽくしたつもりです。

この索引はページ名のタイトルだけを元に ''''''(よみがな) 形式のメタデータを参照せずに作成(タイトルを形態素解析して読みがな振る)したのですが、なかなかよい感じです。ページソースからメタデータを吸って補完するようにすれば更に精度をあげられるかもしれません。よかったらここかノートでご意見を聞かせてください。以上の署名の無いコメントは、TETRA会話履歴)氏が[2006-09-03T20:02:41]に投稿したものです。

TETRAさん、こんにちは。とてもよいと思います。読み仮名の修正方法、タイトルの途中の単語もピックアップした点がよいかどうかなど、議論すべき点もあるとは思いますが、ご提示のものでも自動的に作成できるなら十分であるように思いました。
一番気になることとして、この作成作業はどの程度自動化されているのでしょうか。言い換えると、これを作るのにどのくらいの時間がかかりましたか。さらにわかるのなら、これをあ~んまで全て作るにはどのくらいの時間がかかるでしょうか。それにより、これを本格稼動させるかどうかの判断が変わってくると思います。--Yas 2006年9月10日 (日) 15:57 (UTC)

なかなか実用的なサンプルに見えますね。素晴らしいと思います。ただ、現在の索引には【TV番組】などのタグ(?)が付されていますが、これを所属カテゴリから採ることにするのは不可能でしょうか。//技術的には可能だろうけども実用性があるか

例えば、マイケル・アイアンサイドだったら【カナダの俳優】を。スタブカテゴリ等を排除すれば、それなりに何とかなりそうですが如何でしょう。そもそも【~】はいらないという意見もありそう--Kkkdc/2006年9月12日 (火) 16:51 (UTC)

カテゴリ(ともしかしたらあいまいさ回避の()内)を後ろにカテゴリとしてつけるのは見やすそうなのでやってみます。ただプログラムを書き直していたら収集がつかなくなって更新はしばらく先になるかもしれません。
Yasさんへ > 以前書いたプログラムではデータベースダンプのダウンロードと最後のアップロードを手動で行って、それ以外の生成プロセス、「データベースダンプからタイトル一覧抽出⇒形態素解析⇒『ア->愛国->愛国学園』といった索引ツリーを作成⇒MediaWiki記法へ」といったことをプログラムでやらせました。データベースのダウンロードが終わったら後の処理は1時間かからないと思います。ただ現状だと Wikipedia へのアップロードが手間になりそうなので bot を書く必要もありそうです。
記号の扱いとかを改善したプログラムを書こうかと思ってますので少々お待ちを。--TETRA 2006年9月14日 (木) 09:17 (UTC)
こんにちは。そこまで全自動であれば、(カテゴリは後にしてでも)すぐにでも実運用に入りたい気持ちです。Wikipedia‐ノート:ウィキプロジェクト 索引で提案して、検討していただこうと思います。--Yas 2006年9月14日 (木) 19:45 (UTC)
誘導ありがとうございます。今後はそちらに移らせていただきます。 ― TETRA 2006年9月20日 (水) 13:00 (UTC)
THIS WEB:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2008 (no images)

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - bcl - be - be_x_old - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - co - cr - crh - cs - csb - cu - cv - cy - da - de - diq - dsb - dv - dz - ee - el - eml - en - eo - es - et - eu - ext - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gan - gd - gl - glk - gn - got - gu - gv - ha - hak - haw - he - hi - hif - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kaa - kab - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mdf - mg - mh - mi - mk - ml - mn - mo - mr - mt - mus - my - myv - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - quality - rm - rmy - rn - ro - roa_rup - roa_tara - ru - rw - sa - sah - sc - scn - sco - sd - se - sg - sh - si - simple - sk - sl - sm - sn - so - sr - srn - ss - st - stq - su - sv - sw - szl - ta - te - tet - tg - th - ti - tk - tl - tlh - tn - to - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu -

Static Wikipedia 2007:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu

Static Wikipedia 2006:

aa - ab - af - ak - als - am - an - ang - ar - arc - as - ast - av - ay - az - ba - bar - bat_smg - be - bg - bh - bi - bm - bn - bo - bpy - br - bs - bug - bxr - ca - cbk_zam - cdo - ce - ceb - ch - cho - chr - chy - closed_zh_tw - co - cr - cs - csb - cu - cv - cy - da - de - diq - dv - dz - ee - el - eml - en - eo - es - et - eu - fa - ff - fi - fiu_vro - fj - fo - fr - frp - fur - fy - ga - gd - gl - glk - gn - got - gu - gv - ha - haw - he - hi - ho - hr - hsb - ht - hu - hy - hz - ia - id - ie - ig - ii - ik - ilo - io - is - it - iu - ja - jbo - jv - ka - kg - ki - kj - kk - kl - km - kn - ko - kr - ks - ksh - ku - kv - kw - ky - la - lad - lb - lbe - lg - li - lij - lmo - ln - lo - lt - lv - map_bms - mg - mh - mi - mk - ml - mn - mo - mr - ms - mt - mus - my - mzn - na - nah - nap - nds - nds_nl - ne - new - ng - nl - nn - no - nov - nrm - nv - ny - oc - om - or - os - pa - pag - pam - pap - pdc - pi - pih - pl - pms - ps - pt - qu - rm - rmy - rn - ro - roa_rup - roa_tara - ru - ru_sib - rw - sa - sc - scn - sco - sd - se - searchcom - sg - sh - si - simple - sk - sl - sm - sn - so - sq - sr - ss - st - su - sv - sw - ta - te - test - tet - tg - th - ti - tk - tl - tlh - tn - to - tokipona - tpi - tr - ts - tt - tum - tw - ty - udm - ug - uk - ur - uz - ve - vec - vi - vls - vo - wa - war - wo - wuu - xal - xh - yi - yo - za - zea - zh - zh_classical - zh_min_nan - zh_yue - zu