外部リンクページの仕様(その後)

2015-11-13 外部リンクページの仕様以降で書いた動作、ようやくメインパスが通ってきました。

まず GitHub にデータセットの目次を置きました。

① https://raw.githubusercontent.com/suchowan/when_exe/master/test/events/example-datasets.txt

中身は下記3行(以下、丸付数字は説明のために付加したものです)
② https://raw.githubusercontent.com/suchowan/when_exe/master/test/events/shogun-dataset.csv 徳川将軍一覧
③ primeminister-dataset.csv 日本国首相一覧
④ history-dataset.csv    中西版歴史データ大型版

http://hosi.org:4000/cookies の最下段に付け加えた「データセット」
という項目に①の URL を入力してOKボタンを押します。

これによりFormフレームの<出来事>リンクがデータセットの表示機能に
なります。



江戸時代の日付を選んで<出来事>リンクをクリックすると、その日に
在位していた将軍が表示されるでしょう(→こんな具合)。

②はデータセット定義ファイルで、中身は下記のようになっています[1]

⑤ # When::Events::DataSets
⑥ rdfs:,       http://www.w3.org/2000/01/rdf-schema#
⑦ dc:,        http://purl.org/dc/elements/1.1/
⑧ dct:,       http://purl.org/dc/terms/
⑨ ts:,        http://hosi.org/ts#
⑩ wikipedia:,    https://ja.wikipedia.org/wiki/, Wikipedia
⑪ wikipedia:@ja,   https://ja.wikipedia.org/wiki/, ウィキペディア
⑫ {rdfs:label},   List of Tokugawa Shoguns
⑬ {rdfs:label}@ja,  徳川将軍一覧
⑭ {ts:reference},  https://ja.wikipedia.org/wiki/%E5%BE%B3%E5%B7%9D%E5%B0%86%E8%BB%8D%E4%B8%80%E8%A6%A7,"/<th>(\d+)<\/th><td.*?>.+?href=\""\/wiki\/(.+?)\"".*?([^>]+?)<\/a>.*?<\/td><td.*?>.+?<\/td><td.*?>.+?<\/td><td.*?>.+?<\/td><td.*?>.*?年.*?((?:\d+?)年).*?((?:閏?\d+?)月).*?((?:\d+?)日).*?年.*?((?:\d+?)年).*?((?:閏?\d+?)月).*?((?:\d+?)日).*?<\/td>/"
⑮ {dct:valid},    [4][5][6]..[7][8][9]^^Japanese, .when?
⑯ {dct:abstract},  [3]
⑰ {dc:source},    wikipedia:[2]
⑱ {ts:start},    {dct:valid},  <>#first.to_i
⑲ {ts:until},    {dct:valid},  <>#last.to_i

⑭行の指示にしたがってウィキペディアの記事「徳川将軍一覧」を
読んで、正規表現を用いて就任・退任の年月日などを自動的に切り
出して⑮行のように配置・解釈し、在位期間を取り込んでいます。

⑯行が事項欄、⑰行がソース欄に対応します。ソース欄に書かれた
「ウィキペディア」の文字は⑪行目の「ウィキペディア」を拾ったもの
です。ブラウザの言語設定を英語にすれば⑩行目の Wikipedia を
拾います。

⑱⑲行は日付範囲検索高速化のためのインデクス情報生成指示です。

データセット定義ファイルの仕様はまだまだ洗練させる必要があり最終的
なものではありません。ワークフロー上の最大のネックがデータセット定義
ファイルの作成となるでしょうから、工夫したいところです。

[1] ③④は現状ではサーバーからのみ読めるローカルファイルです。
  本日は解説を省略します。

[2016-01-06 追記]
サンプルデータのパスを test/examples から test/events に移動しました。

この記事へのコメント

この記事へのトラックバック