このドキュメントは
OWL Use Cases: Collection Management
http://lists.w3.org/Archives/Public/www-archive/2002Jan/att-0019/01-part
の和訳です。
この文書には和訳上の誤りがありえます。
内容の保証はいたしかねますので、必ずW3C Webサイトの正式版文書を参照して下さい。
OWLの利用例:コレクション管理
ステータス: 1月14-15日の直接会議のためのドキュメント
バージョン: 2002年1月7日
エディタ
Guus Schreiber, IBROW / University of Amsterdam, schreiber@swi.psy.uva.nlGuus
メンバー
- Stephen Buswell, Stilo Technology, StephenB@stilo.com
- Nicholas Gibbins, University of Southampton, nmg@ecs.soton.ac.uk
- Guus Schreiber, IBROW / University of Amsterdam, schreiber@swi.psy.uva.nl
- Michael K. Smith, Electronic Data System (EDS), michael.smith@eds.com
ドキュメントの目的と概要
このドキュメントは、コレクション管理分野を特徴づけ、“コレクション管理”分野の5つの可能な利用例を記述したものである。
利用例は標準形式で記述されている。
特に重点を置いているのは、OWL(Ontology Web Language)で表現されるであろう知識と情報の具体的な例である。
このドキュメントは2002年1月14-15日のベル研究所(Murray
Hill, NJ)でのW3C Web Ontology Working Group会議に提出されるものである。
読み易さのために、このドキュメントは利用例から生じる要求事項のサマリーから始まる。
OWLへの要求事項のサマリー
番号は以下での利用例を指す。
表現力に関する要求事項
- propety/attribute と relation を伴うクラス階層 (全て)
attribute(datatype valueを指し示す)と一般的な関係との間の明確な区別、
- デフォルト知識 (1, 2, 4)
-
生き物は飛ばない
-
後期ジョージ王朝風の整理だんすは通常マホガニー製である
- 部分-全体関係 (2, 3, 4)
-
翼の桁は翼の一部分である
-
整理だんすは独自のスタイルの脚をもつ
- 制約条件 (2, 3, 4)
-
wing-spar.length < wing.length
-
furniture.style = Late-Georgian <=> furniture.culture =
British AND furniture.date-created 1760-1811
- 利用例4における後の例に対するDAML+OILの解決策についてのコメントにも注意。
- インスタンス仕様 / クラスとしてのインスタンス (1, 3, 5)
-
Mammal は Species のインスタンスであるが、またそれ自身クラスでもある。
-
A380 は Aircraft のインスタンスであるが、またA380のインスタンス集合も表している。
- 参照: Protege-2000 の metclass 概念。注: これは RDF の特徴である。
- 属性値による匿名のインスタンス仕様。
- リレーションタイピングのためのメカニズム (5)
また、RDF feature (propertyのために rdf:type を定義することができる。)
- 抽象的クラス (4)
インスタンスのないクラス:利用例4の color の階層の例を参照。
- 同義語 / 用語 -> コンセプト (1, 5)
用語とそれが表すコンセプトを区別する必要がる。[これはOWLの問題ではないかもしれない。]
他の要求事項
- 由来 (1, 5)
典型的な例: 専門家と非専門家による表記を区別すること、ハイパーリンクによる出典参照。
- バージョン管理 (1)
オントロジーを拡張/変更する能力。
- 質問のサポート (1)
仮想の推論をする能力、例えば「魚としての鯨」。
- 内容の標準化のサポート (1, 3)
一般的なシソーラス(WordNet、TGN)が、ドメイン固有のシソーラス(AAT、ICONCLASS)と同様、しばしば表記を標準化するために使われる。
利用例分野の範囲と定義
この利用例分野は典型的に次の特徴をもつ:
- 共通のテーマ/コンテキスト/焦点を持つ大規模なデータ/テキスト/イメージ/マルチメディア/Webサイトの集合
- アーカイブ/コレクションにおける比較的固定的な項目の集合
- コレクションは非常に大きな集合であり得る、このためスケーラビリティの問題が一般的に影響する。
- コレクション管理は一般的にドメイン依存である、このためドメイン標準に関する(伝統的な)仕事と関連づけられる。
- メタデータに焦点を当てる、このため伝統的なメタデータに関する取り組みと関連する。
コレクション管理は典型的に次のサブタスクをもつ:
- 項目のインデキシング/アノテーション/分類
- コレクションの更新
- コレクションの検索
- しばしばデフォルト推論を含む
他のエリア/問題/タスクへのリンク
バーチャルカタログ
例:
- バーチャル博物館(いくつかのプロジェクト)
- 製品検索/比較サイト(例えば、Lynn Steinの書籍検索、Mike
Deanのホテル)
ここでは、「インターオペラビリティ」の領域と明確な関係がある。
バーチャルカタログは典型的にオントロジーマッピングの能力を必要とする。
また、コレクションについての仮定が少ししか立てられないときに(例えば、その大きさ)、コレクション管理タスクに差をもたらす。
サービスカタログ
これらは多くの利用例で言及されているが、サービスの記述と検索の宣言的な側面において、「Webサービス」とこの領域には明確な関係がある。
プレゼンテーション世代
意味的なアノテーションが付けられたカタログは、Webページのような(コンテキスト依存の)世代表現のための理想的な基盤である。
例:芸術カタログのブラウザのためのWebページのダイナミックコンフィギュレーションによる、関連テキストとイメージの表示。
概念検索
概念検索では、我々は Web
全体を一つのインデックス付けされたカタログだと見なしたい。
これは今のところあまりにも遠い橋であるように思われ、ドメイン依存のカタログを作るという問題が与えられる。
短期的な概念検索のための現実的なシナリオは2段階プロセスである:
- あなたの検索をアーカイブ/カタログを提供しうる領域に限定するメカニズムのようなオープンディレクトリを使う。
- あなたの問合せに対する答えを見つけるために、カタログの意味的なサーチ・エンジンを使う。
内容標準
カタログのドメイン依存性のために、それらの多くは(既存か、あるいは開発中の)ドメイン標準/語彙との明確な関係付けを必要とする。
これらのドメイン標準は手作業によるインデックス付けをサポートするために開発されたものである。
また、WordNetのような、より一般的なリソースも使われている。
利用例1:「Arkive: 絶滅危機生物のカタログ」
貢献者: Jeremy Carrol
コンテキスト
Arkive プロジェクトはそれぞれの絶滅危機生物のレコードから成るマルチメディアデータベースを作っている。
データベースは、それぞれの種のための十分かつ適切な情報によって、完全性を目指す。
データベースは Web
サイトを通じてアクセスされ、学校の生徒から分野の専門家まで、専門的知識のレベルがどのようなユーザをも対象としている。
オントロジー知識のキーとなる機能は:
- それぞれの種のレコードの一貫した組織化を許す
- それぞれの種のレコードが、十分に詳述でき、また、それぞれの重要な行動の例を含むことを保証する手段を提供する
- データベースに対する問合せを助ける
他の機能はオントロジー知識が知識のアノテーションと由来を組織化するのに有効となる。
我々は次のことに注意する:
- およそ2世紀の討論を経た適切な科学であるにもかかわらず、種の十分かつ妥当な記述のために適切なオントロジーに関する普遍的な合意はない。
- 種の数は、世界的に合意されたソリューションが必要であることを示唆する。
英国の関係者は、英国のすべての種とトップNの世界的に絶滅危機にさらされた種のレコードを作成する資金を持っている。
長期的な計画としては、世界中の人々が地元の種の記録を提供するようにすることであろう。
これは基礎となるオントロジーについての合意の欠如をさらに悪化させる可能性が高い。
タスク
マルチメディアレコードのデータベースを組織化し、委託し、そして問合せる。
事例ドメイン
絶滅危機にある生物のマルチメディアレコード。
典型的なユーザ
- 特定のレコードを作成している科学者。
- 新しいレコードを委託しているマネージャー。
- Web サイトを通して DB を問合せている科学者
- Web サイトを通して DB を問合せている学校の生徒
オントロジーサンプル
現在、彼らは異なったトップレベルのカテゴリーのために、およそ10個の基本レコードテンプレートを使う。
例えば、典型的なのは、植物のためには「移動」フィールドがないが、動物のために重要である。
これらのトップレベルのカテゴリーは、一般的なタイプの行動しかカバーしていないという意味で必然的に不十分である。種のユニークな、あるいは、まれな行動は:
- レコードに含めることが重要である
- トップレベルのカテゴリーにではなく
また、このような行動は科学的な討論の主題になっている。
具体的な例が、くちばしに有毒な昆虫を拾い上げて、
彼らの羽毛にこすりつける鳥に関するものである。
彼らが何のためにこれをするかは論争を引き起こす:
- 気持ちよくなるためか
- 羽毛の寄生生物を絶滅させるためか
あなたがその行動のために使う名前は、その動機の上でのあなたの判断によるものである。すなわち、政治的な確信に依存するであろう。
また、同義的な複数の異なる名前を持っているいくつかの行動がある。
デフォルト継承は重要である。
よく知られているペンギン問題は:
living things don't fly
birds do fly
penguins don't fly
最初にレコードを作り、デフォルト値を埋め込むことができるときに、もし必要であるなら、あるいはより動的に変更するために、取り扱われるものである。
カテゴリ情報をフィールドでの複数の(部分的に首尾一貫しない)分類法に関連付けることは重要である。
OWLへの要求事項
言うのが難しいが −
知識ベースに対する広範囲な要求事項があり、実際にオントロジーサブシステムに属する問題である。
- デフォルト値などの属性遺伝を持った階層的なクラス。
おそらく単一継承で十分だろう。
- 由来: 特定のレコードにある事実を、専門家や非専門家による後からのアノテーションや、継承された事実などから区別するため。
- 問合せのサポート。
問合せは、カテゴリ情報や、もしかすると偽り(例えば、「鯨が魚である」は、小さい子供たちが探索する助けに有用かも知れない。さもなければDBに鯨がいないと
結論するかもしれない。)によって導かれるかもしれない。
混合モードの問合せ −
自由なテキストとカテゴリ情報の両方による。
- 属性と値のための複数の同意語のラベル。
- シソーラスのサポート。
- その場その場で、分散的にオントロジーをすぐに拡張する能力。
(専門家がそれらの種の特別な行動を記述するためにフレームワークを加える。)
利用例2:「EDS Web ページ埋め立て」
貢献者: Mike Smith
コンテキスト
企業のコミュニケーションと企業の記録に対するサポート。
タスク
階層的カテゴリーの中に巨大なWebページの埋め立て地を組織化する
事例ドメイン
外部の新聞発表、製品提供とケーススタディ、企業手続き、内部の製品説明と比較、ホワイトペーパー、プロセス記述の提供。
典型的なユーザ
-
クライアントの示した興味に合った販売物件を探すセールスパーソン。
-
特定の専門技術と詳細な過去の経験を探す技術者。
オントロジーサンプル
文書タイプ階層:
新聞発表
経済状態の詳細をカバーする新聞発表
証券取引委員会のファイリングを詳しく述べた新聞発表
.....
部分-全体関係やソフトウェア、ハードウェア、通信の互換性をカバーする条件を含むソリューション記述。
OWLへの要求事項
- デフォルトと制約条件。
- 部分-全体関係。
- 言語に中立の表現。
- クラスと区別されるインスタンス。
- 我々はWebオントロジーと中心ビジネスとの間の明確なインタフェースとXML標準の構築を必要としている。
利用例3:「航空宇宙工学データモデリング」
貢献者: Stephen Buswell
コンテキスト
航空宇宙工学における企業のコミュニケーションと企業の記録に対するサポート。
タスク
大量の技術ドキュメントを相互にリンクされた階層的カテゴリーの中に組織化する
事例ドメイン
航空機設計ドキュメンテーション; 製造工程ドキュメンテーション;
テスト工程ドキュメンテーション; メンテナンスドキュメンテーション; イラスト
典型的なユーザ
-
特定の部分(例えば、’翼の桁’)に関連しているすべての情報を探しているメンテナンスエンジニア。
-
特定のサブアセンブリの再利用に対する制約条件を見ている設計エンジニア。
オントロジーサンプル
ドキュメント
設計ドキュメント
サブアセンブリ設計ドキュメント
....
コンポーネントタイプ階層:
製造部品
翼の桁
部分-全体の関係:
[wing-spar ispartof wing-assembly]
部分間の制約条件:
[wing-spar.length < wing.length]
一般的な関係:
[this.document.this-picture illustrates wing-spar]
インスタンス:
[A380 isinstanceof Aircraft]
OWLへの要求事項
-
クラス階層
-
デフォルト
-
クラス間の制約条件
-
部分-全体関係
-
一般的な関係
-
言語に中立の表現。
-
インスタンスの表現
-
我々はWebオントロジーと中心ビジネスとの間の明確なインタフェースとXML標準の構築を必要としている。
利用例4:「芸術イメージコレクション」
貢献者: Guus Schreiber
コンテキスト
我々は芸術作品の意味的なアノテーションに取り組んでいる。目的はオントロジーを通じてインデキシングと検索をサポートすることである。
芸術に関しては多くの知識ソースがある。我々はここでこれらのうちの2つに焦点を合わせる:
-
画像記述のための VRA 3.0 標準 は、基本的にはダブリンコアの絵画アノテーションの改良である
-
ゲッティ財団によって構築された Art and Architecture Thesaurus (AAT) は、芸術作品(芸術カテゴリ、材料、スタイル、カラー、....)
を記述するための120,000の用語のよく構造化された階層を提供する。
我々は VRA によって提供された画像記述テンプレートを表す WebOnt 言語を使い、VRA のすべてのデータエレメントをデータエレメントの「filler」が
見いだされる AAT 階層のサブツリーに関係付けることを望む。例えば、我々は VRA データエレメント「style/period」をスタイルとピリオドを
表している AAT のサブツリーに関連付けることを望む。
さらに、我々はオントロジーの中に追加の知識を表現することを望む。例えば、もしインデックス付けする人がアンティークな整理だんすの style/period に
“後期ジョージ王朝風”という値を選択するなら、我々はデータエレメント“date.created”が西暦1760から1811年の間の値を持っていて、
そして“culture”が英国であると推論できることを望む。このタイプのバックグラウンド知識の利用可能性が、検索と同様にインデキシングのために
与えられるサポートを極めて増加させる。
タスク
デジタル画像コレクションのインデキシングと検索
事例ドメイン
アンティーク家具の画像の博物館コレクション
典型的なユーザ
-
画像インデキシングに関与する博物館員。
-
このドメインの基本的な知識を保有しアンティークを探している素人
オントロジーサンプル
AAT カラー階層の表現
我々は、我々のオントロジーで、どの AAT 用語がデータエレメント“color”の値と成りうるかを表すことを望む。
AAT は精巧な色の階層を持っていて、だいたい次のような構造になっている:
<color>
<chromatic color>
pink
vivid pink
strong pink
....
<intermediate pink>
purplish pink
brilliant purplish pink
....
yellowish pink
....
brownish pink
(etc.)
<neutral color>
white
gray
light gray
....
black
タイプ“<label>”の用語は AAT が「ガイド用語」と呼ぶものである。
それらの目的は階層に構造を提供することである。
我々が画像記述テンプレートの“color”スロットの値の制約条件を指定するとき、我々は理想的には<color><階層の
どんなサブクラスでもスロットフィラーとして用いられることができることを望む。
しかし、我々はおそらく値の集合からガイド用語を除外することを望む。
ガイド用語と実際の色の値との違いは UML で抽象的クラス対具体的クラスと呼ばれるものに近い(抽象的クラスがインスタンスを
作れなくて、具体的なクラスが作れる)。
このような記法は、RDFS そして DAML+OILに欠落している。
ついでながら: 我々の仕事の仮定は、成功するためには、(AAT のように)すでに利用可能な(セミ)オントロジーの上に作る必要があり、
WebOnt 言語での表現の上にこれらをマップする必要があるだろうということである。
我々が AAT のような大規模な努力をやり直すことができると考えるのは非現実的である。
集合構造の表現
我々がアンティークな整理だんすのようなオブジェクトにインデックスを付けようとするとき、ほとんど必ずオブジェクトの part-of 構造を表現する必要がある。
例えば、たんすの脚に“bun feet”のようなスタイルの値を与えたい。
我々の見解では、WebOnt 委員会は WebOnt 言語に(限定された形式の)集合を導入することを考えるべきである。
もしあなたが単にこれをもう1つの slot/relation として表現するなら、あなたはセマンティックスの多くを失う。
これは同じく UML の人々からの要求事項である可能性が高い(集合は UML のクラスモデルの重要な場所を占めている)。
定義知識
差し当たり、我々が WebOnt で AAT と VRA を表現できると想定しよう。
効果的な検索サポートのために我々はこのオントロジーにドメイン知識を加える必要がある。
この知識は画像記述テンプレートの中で典型的にスロット間制約条件の形式をとる。
1つの例:
style/period = "Late Georgian"
=>
culture = "British" AND
date.created = between 1760 and 1811
[style/period、culture、date.created は、すべて、芸術作品記述テンプレートのスロットとして定義された VRA データエレメントである。]
我々はこの制約条件を RDFS で定義することができなかった。
Sean Bechofer(University of Manchester)は DAML+OIL ソリューションを提供した(データタイプ表現と URI の詳細はそのまま):
<daml:Restriction>
<daml:onProperty rdf:resource="some-URL#style"/>
<daml:hasClass>
<daml:Class rdf:about="some-URL#Late Georgian"/>
</daml:hasClass>
<rdfs:subClassOf>
<daml:Class>
<daml:intersectionOf rdf:parseType="daml:collection"/>
<daml:Restriction>
<daml:onProperty rdf:resource="some-URL#date"/>
<daml:hasClass>
<daml:Class rdf:about="some-URL#1760-1811"/>
</daml:hasClass>
</daml:Restriction>
<daml:Restriction>
<daml:onProperty rdf:resource="some-URL#culture"/>
<daml:hasClass>
<daml:Class rdf:about="some-URL#British"/>
</daml:hasClass>
</daml:Restriction>
</daml:intersectionOf>
</daml:Class>
</rdf:subClassOf>
</daml:Restriction>
それで、すべての後期ジョージ王朝風のものは、英国のもののサブクラスで、1760年から1811年の間に作られるたものである。
これは、データモデリングにおいて、multiple specialization と呼ばれるものに類似している。
ここで2つの問題が生じる:
- シンタックスは本当にひどい。
- たいていのユーザには、これは定義知識を定義する直観的な方法ではないであろう。
OWL はより自然な方法を提供することができるであろうか?
[Sean Bechofer と Frank van Harmelen からの情報提供に特に感謝する。]
デフォルト知識
これは、実際、事例ドメインにおけるドメイン知識の最も共通の形式である。 デフォルト知識の1つのサンプル:
IF type "chest of drawers" AND
style/period = Late-Georgian
THEN (this typically suggests)
material.main = mahogany
知識の構造は定義知識に類似している、しかしソリューションはおそらくさらに難しい。
これを「スロット間のプリファレンス」と呼ぶことができる。
OWLへの要求事項
- 抽象的なクラスと具体的なクラスの区別
- 部分-全体関係
- 定義知識(を表現する容易な方法)
- デフォルト知識
利用例5:「概念的なオープンハイパーメディア」
貢献者: Nick Gibbins
コンテキスト
巨大な Webサイトのようなコーパスをブラウジングする際のナビゲーションの改善
タスク
コーパス上へのハイパーテキストリンクのオーバーレイの構築(linkbase)
事例ドメイン
学術機関によって作られた組織的な研究ドキュメント。
典型的なユーザ
-
ドキュメント中の用語の詳細説明(例えば、ドキュメントで言及された人々についての情報)を必要とする初心者ユーザ
-
望んでいる情報のだいたいの場所を知っていて、それを見つけるためにブラウジングする方法を知っている経験豊かなユーザ
-
ドキュメントにアノテーションを付ける(ドキュメント中の用語をオントロジーと結びつける)経験豊かなユーザ、それによって新しいリンクが作られることを可能にする
オントロジーサンプル
オントロジーは、部分的にダブリンコア(書誌的なメタデータの記述)に基づいているが、同じくドキュメント(部門の委員会議事録、交付金アプリケーションなど)の
内容として目次(あるいは、どちらかと言えば、それらの目次によって参照される実体)を記述するための表現方法を必要とする。
OWLへの要求事項
- 特性を使ってのインスタンス(例えば、人々)の参照
- 関係の合成
-
ある特定のタイプのリンク(例えば、ドキュメントの著者のホームページへのリンク)を指定するように要求された
- 一般に実体を指す用語を定義する能力
-
例えば、用語“Nick Gibbins”は、一般に、電子メールアドレス nmg@ecs.soton.ac.uk をもつ人を指すのに使われる。
こうした用語の指し示すものは、必ずしもスタティックではない。
例えば、用語“head of department”は、それが使われるコンテキスト(その用語が現われるドキュメントの発行日付)に応じて異なる個人を指す。
- 由来
- リンクの著者の明示は不要だが、そのリンクが何によって作られたかを表す由来が必要
参考文献
-
The Art and Architecture Thesaurus
http://shiva.pub.getty.edu.
-
Visual Resources Association~Standards Committee.
VRA core categories, version 3.0.
Technical report, Visual Resources Association, July 2000.
http://www.gsd.harvard.edu/~staffaw3/vra/vracore3.htm.