日本語 / English
Kikori: 関係データベースを用いたXML情報検索システム
Google等のWEBサーチエンジンでは一般に検索結果は文書であり,検索結果として得られた文書の中から問合せに関連する部分を探す作業は利用者がやらなければなりません.短い文書に対してはそれでもよいかもしれませんが,論文などの比較的長い文書の場合は,検索結果として得られた文書から問合せに関連する部分を探し出すことが困難であることも多いと思われます.論文などの文書では章や節といった具合に文書内に構造が存在することが一般的であり,その構造を利用して,章,節,段落といった,より細かな粒度の検索結果を提供することが考えられます.
近年,文書の構造化形式としてXMLを用いることが一般的であるため,検索対象をXML文書とし,このような部分文書検索(XML情報検索)に関する研究が活発に行われています [1].適切な検索結果粒度の決定や入れ子の扱い方などが主な研究の焦点となります.
我々はXML情報検索システムの開発を行っており,関係データベースを用いて実装しています.現在は主に単純なキーワード集合による問合せを扱っており,Kikori-KS (Keyword Set)を開発しました.Kikoriでは利用者インタフェースに関しても考察を行っています.

図1. Kikori-KS システム概要.
検索対象となるXML文書は関係データベースに格納されます.基本的にXRel [2]を基にしたスキーマを利用してXML文書の格納を行っていますが,ランキングに必要な索引語の重み情報やインタフェース構築に必要な情報も算出し格納しています.図2のXML木を格納した例を図3に示しています. 利用者によって入力されたキーワードはSQLに整形されて処理されます.

図2. 木構造で表したXML文書の例.
Document
docID file
0 doc1.xml

Element
docID elemID pathID st ed label
0 0 0 1 236 database
0 1 1 10 44 XML Index
0 2 2 45 68 XML Index
: : : : : :

Outline
docID elemID pathID st ed label
0 4 4 75 143 Introduction
0 7 4 144 219 XML Labeling
Path
pathID pathexp
0 #/article
1 #/article#/transaction
2 #/article#/title
: :

Term
term docID elemID tfipf
database 0 0 0.3
database 0 1 0.1
: : : :
xml 0 0 0.3
xml 0 2 0.4
: : : :
図3. 関係データベースへの格納例.

このスキーマを基に,結合操作(Join)をあらかじめ行っておくことで高速に問合せを処理することも考えています.
Kikoriでは,XML情報検索用の使いやすい利用者インタフェースの開発にも注力しています.検索結果の基となる部分文書(要素)を文書単位でまとめ,節や小節といった節目となる要素を同時に表示することで検索結果の把握を助けます.また,スコアが高い要素ほど大きい文字で表示することで直観的に問合せに対して関連度の高い部分を把握できます.読みたい部分文書を選ぶと,該当部分が表示されます.

図4. FetchHighlight インタフェース.

図5. 部分文書の閲覧.

さらに,直観的な検索結果閲覧を可能にするため,論文や本などの表示レイアウトが固定されているものに対しては,そのレイアウトを利用して検索結果を提示することを考えています.検索結果要素をページレイアウト上に重畳して表現しています.


図6. ページレイアウトを利用した検索結果の提示.
  • 清水 敏之, 寺田 憲正, 吉川 正俊, ``関係データベースを用いたXML情報検索システムの開発,'' 情報処理学会論文誌:データベース, Vol. 48, No. SIG11, pp. 224-234, 2007年6月.
  • Toshiyuki Shimizu and Masatoshi Yoshikawa, ``XML Information Retrieval Considering Physical Page Layout of Logical Elements,'' 10th International Workshop on the Web and Databases (WebDB 2007), Beijing, China, June 15, 2007. (demo) [paper]
  • Toshiyuki Shimizu, Norimasa Terada, and Masatoshi Yoshikawa, ``Kikori-KS: An Effective and Efficient Keyword Search System for Digital Libraries in XML,'' 9th International Conference on Asian Digital Libraries (ICADL 2006), Lecture Notes in Computer Science (LNCS), Springer-Verlag, Vol. 4312, pp. 390-399, Kyoto, Japan, November 27-30, 2006. (46/170 = 27%) [paper] [slides]
  • Kei Fujimoto, Toshiyuki Shimizu, Norimasa Terada, Kenji Hatano, Yu Suzuki, Toshiyuki Amagasa, Hiroko Kinutani, and Masatoshi Yoshikawa, ``Implementation of a High-Speed and High-Precision XML Information Retrieval System on Relational Databases,'' 4th International Workshop of the Initiative for the Evaluation of XML Retrieval (INEX 2005), Lecture Notes in Computer Science (LNCS), Springer-Verlag, Vol. 3977, pp. 254-267, Dagstuhl Castle, Germany, November 28-30, 2005.
  • 藤本 圭, 清水 敏之, 波多野 賢治, 鈴木 優, 天笠 俊之, 絹谷 弘子,吉川 正俊, ``XML情報検索システムとその高速化に関する研究,'' 電子情報通信学会第17回データ工学ワークショップ 第4回日本データベース学会年次大会 (DEWS2006). [paper]
  • 藤本 圭, 杉木 健二, 清水 敏之, 松原 茂樹, 天笠 俊之, 波多野 賢治, 吉川 正俊, ``XMLを用いた論文検索システム,'' 第28回電子図書館ワークショップ (DLW28).
[1] INEX. "INitiative for the Evaluation of XML Retrieval," http://inex.is.informatik.uniduisburg.de/.
[2] M. Yoshikawa, T. Amagasa, T. Shimura, and S. Uemura, "XRel: A path-based approach to storage and retrieval of XML documents using relational database," ACM Trans. on Internet Technology, vol.1, no.1, pp.110-141, Aug. 2001.