第20回SWO研究会

第20回セマンティックウェブとオントロジー研究会 Wikipediaワークショップ

日時:2009年1月22日(木)9:15-18:10

会場:東京大学本郷キャンパス工学部2号館231号講義室(アクセス) 

参加費:無料(事前申込も不要です。直接会場へお越しください。)

発表資料一括ダウンロード

  (ZIP 7.7MB, updated 2009.01.22 09:30)

9:15-9:20 開会のあいさつ

9:20-9:50 チュートリアル

Wikipediaマイニングチュートリアル~Wikipediaマイニングの勘どころ~ 

中山浩太郎 (東京大学)

Wikipediaのコーパスとしての有用性は,ここ数年でNLP,AI,Semantic Web,IRなど各種の研究分野で広く認識されるに至りました.しかし,Wikipediaを解析するためには,大規模データの取り扱い方法や,データベースの有効な利用方法,ノイズデータの除去など,いくつかのポイントがあり,これらのポイントをクリアしなければ,解析が困難である上に精度低下の要因にもなります.そこで,本チュートリアルでは,これからWikipediaマイニングを始めようという方,はじめたばかりの方たちの間で情報を共有することを目的とし,ケーススタディとして,講演者の経験からいくつかポイントと思うポイントを提示します.最後にディスカッションの時間を設けて,より良い方法論を模索したいと思います.

9:50-10:30 招待講演

Wikipediaからの多様な辞書の構築

鳥澤健太郎 (NICT)

NICT、MASTARプロジェクト言語基盤グループでは、概念辞書という総称のもと、多様な辞書をWikipedia、Web文書から作成している。この辞書はWikipediaのいわゆる多言語版間のリンクに依存しない対訳辞書や180万語をカバーする上位下位関係を含む。これにより、例えば、ネット検索において意外でありながら有用な情報を発見するシステムを構築している。辞書の構築にあたっては、種々の自然言語処理技術、機械学習手法を利用した自動構築手法を適用している他、自動構築の結果の一部を人手で検証している。本発表では、これらの自動構築手法と人手による効率の良い検証手法について概観したい。 

プレゼンテーション資料:   (8.1MB, updated 2009.01.27 13:30)

セッションI 「Wikipediaを用いた知識資源開発」

10:30-10:55 SIG-SWO-A803-01

Wikipediaを用いた用語説明のモデル化と事典的検索への応用 

藤井敦, 三條場旭彦 (筑波大学) 

用語説明のモデル化において,用語の種類によって説明の観点が異なる点に着目した.動物の観点は「生態」や「形態」,病名の観点は「診断」や「検査」といった見出し語の種類と観点の対応を抽出するためにWikipediaを利用する.さらに,構築した用語説明のモデルを事典的な調べ物を行う検索に応用する.すなわち,Wikipediaを自然言語処理と情報検索に応用した研究である. 

発表資料:   (920KB, updated 2009.01.20 02:30)

10:55-11:10 SIG-SWO-A803-02

Wikipediaエントリ構造抽出ツール: Wik-IE 

森竜也, 増田英孝 (東京電機大学), 清田陽司, 中川裕志 (東京大学) 

Wikipediaで公開されているデータファイルからエントリ構造のデータを簡単に抽出するツールを作成した。出力されるデータは記事とカテゴリ関係、リダイレクト関係、言語間リンクなどのWikipedia内のエントリ構造を表現する。このファイルは単純なテキスト形式で利用が容易である。また処理に使うクラスファイルを独自に定義して機能を追加することもできる。 

発表資料:   (100KB, updated 2009.01.19 12:30)

11:10-11:35 SIG-SWO-A803-03

WikipediaとFolksonomyタグに基づくドメインオントロジー構築支援環境の実現と評価 

手島拓也, 桜井慎弥, 森田武史, 和泉憲明, 山口高平 (慶應義塾大学) 

本稿は,WikipediaとFolksonomyタグに基づくドメインオントロジー構築支援環境の設計および実装とその評価について述べる.ドメインオントロジー構築に有効である概念間の関係を抽出するために,文字列処理およびInfoboxテンプレートとのマッチング処理をWikipediaカテゴリツリーに対して行う.また,構築の対象とするドメインに必要な入力概念を獲得するために,ドキュメントに付与されているFolksonomyタグの情報を利用する. 

発表資料:   (1MB, updated 2009.01.19 12:30)

11:35-12:00 SIG-SWO-A803-04

Wikipediaを用いた異分野知識ベース群の連携 

中西崇文, 是津耕司, 木俵豊 (情報通信研究機構), 清木康 (情報通信研究機構, 慶應義塾大学) 

現在,我々は世界中の知識ベースの相互利用のためのインフラストラクチャとしてナレッジグリッドを構築している.これらの異分野の知識ベース群を対象として,Wikipediaの情報を用いた知識ベース群連携と異分野にまたがる関連した事象の発見について述べる. 

発表資料:   (580KB, updated 2009.01.21 15:00)

12:00-13:00 休憩

セッションII 「Wikipedia空間の分析とモデル化」

13:00-13:25 SIG-SWO-A803-05

Wikipediaからの連想シソーラス構築プロジェクト 

伊藤雅弘, 中山浩太郎, 原隆浩, 西尾章治郎 (大阪大学) 

Wikipediaが持つ膨大な内部リンクを解析することによって網羅性の高い連想シソーラスが構築可能である.筆者らは,これまで連想シソーラスを構築するための,Wikipediaをコーパスとした概念の関連度計算手法として,pfibfとリンク共起性解析を提案してきた.本発表では,筆者らの進めるWikipediaから大規模で高精度な連想シソーラスを構築するためのプロジェクトのこれまでの成果と今後の展望を紹介する. 

発表資料:   (484KB, updated 2009.01.20 02:30)

13:25-13:50 SIG-SWO-A803-06

ウィキペディアの成長における秩序と多様性 

山崎由佳, 伊藤貴一, 井庭崇, 熊坂賢次 (慶應義塾大学) 

ウィキペディアの履歴データを用いて、成長を、秩序と多様性という観点から捉える。分析では、ジップの法則のように語彙の出現確率に法則性があるか、そしてそれはカテゴリ別にはどのような多様性があるのかを明らかにする。 

発表資料:   (1.1MB, updated 2009.01.19 12:30)

13:50-14:15 SIG-SWO-A803-07

マスコラボレーションにおけるコンテンツ形成プロセスの分析

伊藤諭志, 伊藤貴一, 熊坂賢次, 井庭崇 (慶應義塾大学) 

ウィキペディアを事例として、マスコラボレーションにおけるコンテンツ形成プロセスを分析する。特に、「秀逸な記事」における編集プロセスの可視化およびその類型化を行った。 

発表資料:   (816KB, updated 2009.01.19 12:30)

14:15-14:40 SIG-SWO-A803-08

意外性のある知識発見のためのWikipediaカテゴリ間の関係分析 

野田陽平, 清田陽司, 中川裕志 (東京大学大学院) 

Wikipediaの記事は、カテゴリシステムによってさまざまな観点からの分類がなされている。この特徴をうまく用いると、個別の記事からだけでは得られない意外な知識の発見につなげることができる。例えば、「麻生太郎」は「日本の内閣総理大臣」というカテゴリに属しているが、一方で「オリンピック射撃競技日本代表選手」というカテゴリにも属している。本研究では、このような意外な知識をWikipediaから大量に発掘することを目的に、Wikipediaカテゴリネットワークに関する統計処理を行い、その結果を分析した。 

発表資料:   (208KB, updated 2009.01.19 12:30)

14:40-15:05 SIG-SWO-A803-09

Wikipediaの編集履歴を用いた記事の信頼性導出 

鈴木優, 金本径卓, 川越恭二 (立命館大学) 

Wikipediaの編集履歴を利用することによって,記事の信頼性を算出するための手法を提案する.評価実験によって,高い精度で信頼性の高い情報を抽出することができた. 

発表資料:   (888KB, updated 2009.01.19 12:30)

15:05-15:20 休憩

セッションIII 「Wikipediaデータの活用」

15:20-15:45 SIG-SWO-A803-10

An Information Recommendation Model Based on Concept Classes Extracted from Wikipedia Categories (Wikipediaカテゴリより抽出されたコンセプトクラスに基づく情報推薦モデル) 

陳健, シュティフ ロマン, 金群 (早稲田大学大学院) 

In this study, we present an information recommendation model based on a set of concept classes that are extracted from Wikipedia categories and pages. The indices of all the pages are organized so that they represent concepts. Using this information, data representing the users' access behavior are collected and categorized according to the concept classes. The proposed model is then established by analyzing the preprocessed data in terms of short, medium, long periods, and calculating the probabilities corresponding to each concept. 

発表資料:   (184KB, updated 2009.01.19 12:30)

15:45-16:10 SIG-SWO-A803-11

Wikipediaを利用した音声認識用言語モデルの構築および評価 

田中和紀, 管村昇 (工学院大学大学院) 

本研究ではWikipediaをコーパスとして利用し、音声認識用言語モデルを構築した。再配布や再利用が可能なWikipediaを用いる事により、音声認識用言語モデルを一般に公開する事ができる。言語モデル構築にあたって、Wikipediaを加工し、ノイズデータ除去、読み付与処理について述べる。また、構築した言語モデルを使った音声認識の評価について述べる。 

発表資料:   (428KB, updated 2009.01.19 12:30)

16:10-16:35 SIG-SWO-A803-12

Wikipedia概念体系を用いた日本語ブログ空間のトピック分布推定 

川場真理子, 中崎寛之, 宇津呂武仁(筑波大学大学院), 福原知宏(東京大学) 

本研究はWikipediaのエントリをブログサイトと対応付け,Wikipediaカテゴリ空間におけるブログサイトの分布の推定を行うことを目的とする.本稿では,各Wikipediaエントリ・カテゴリについて,詳細な記述をしているブログサイトが存在するかどうかの推定を行った結果について報告する. 

発表資料:   (452KB, updated 2009.01.19 12:30)

16:35-17:00 SIG-SWO-A803-13

Wikipediaからの拡張クエリ生成によるWeb検索とその評価 

堀憲太郎, 大石哲也, 峯恒憲, 長谷川隆三, 藤田博, 越村三幸 (九州大学大学院) 

本稿では,ユーザが入力したクエリから,Wikipediaを用いて拡張クエリを生成するシステムを提案する.この拡張クエリを用いることで,ユーザの検索補助や知識獲得の補助を目的としている.拡張クエリの選出には,関連単語抽出アルゴリズムに加え,Wikipediaページの内部リンクを重視した.実際に作成したシステムを被験者に使用してもらい,アンケートを取る形で評価を行ったところ,本システムが検索補助と知識獲得に対して有効に働いていることが分かった. 

発表資料:   (224KB, updated 2009.01.19 12:30)

17:00-17:25 SIG-SWO-A803-14

多型トピックモデルを用いたWikipedia検索 

江口浩二, 塩崎仁博 (神戸大学大学院) 

Wikipediaを典型とする構造化文書のための,多型トピックモデルに基づく新たな検索手法について報告する. 

発表資料:   (316KB, updated 2009.01.20 02:30)

17:25-17:50 SIG-SWO-A803-15

Wikipediaを用いた多言語情報アクセスに関する研究:言語間リンクの分析 と応用 

新井嘉章 (東京電機大学), 福原知宏 (東京大学), 増田英孝 (東京電機大学), 中川裕志 (東京大学) 

日本語,中国語,英語,韓国語のWikipediaを対象とした言語間リンクの分析を行った.(1)言語別Wikipedia間のリンク状況の分析,(2)言語間リンクに用いられる用語と辞書見出し語との比較を行った.言語間リンクの応用として,現在筆者らが開発している多言語情報アクセス支援システムについて述べる. 

発表資料:   (580KB, updated 2009.01.19 12:30)

17:50-18:10 ラウンドアップ