英教史: 199回例会

今月17日の例会では、画像データベースの意義や可能性について議論しました。テキストからなるデータベース、たとえばコーパスと比較すると、画像データは「コンピュータプログラムを用いた言語処理が容易でない」という特徴(弱点)を持つわけですが、OCR技術の向上により「透明テキスト付きPDF」の精度が上がっていけば、かなり多様な利用が可能になるものと期待されます。透明テキスト付きPDFであれば「全文検索」可能なファイルが出来上がります。データベースは検索のし易さが勝負なので、この点は楽しみです。
発表のときにウィキペディアを紹介しながら、検索システムのあり方を議論しようと思ったのですが、時間が足りませんでした。画像データベースの作業と並行して、今、以下のようなことを考えています。

ハイパーテキストに組み込まれたリンクをたどることは、連想という検索軸に沿った探し方。それで探せないものは、グーグルのように全文検索で探しあてる。この両者を兼ね備えたウィキペディアのいき方は、データの蓄積と検索を繰り返す私たちにとって、魅力的である。今年度の学内プロジェクト(「県下の英学史資源を掘り起こし、現代の英語教育に応用する」)では、こうした複線的な資料の配置と検索の仕組みをウェブ上で実現してみたい...