2008年1月16日水曜日

国会図書館の電子書籍保存

 日本ペンクラブ電子文藝館委員会で国会図書館に行ってきた。電子文藝館では国会図書館のPORTAに参加することを検討していて、その説明を受けがてら電子資料室を見学させていただき、電子図書館の現状についてお話をうかがったのだ。

 今日は休館日にあたっていたが、ロビーに人がいないのは妙な感じである。検索用のパソコンにすべて電源がはいっていて、映画の一場面にはいりこんだような妙な感じだった。

 DVDやCD-ROMの付属する書籍はすべて電子資料室で閲覧するが、ビューアーをインストールする必要のあるディスクではそのつど係員がパソコンにインストールするそうである。30分くらいかかることがけっこうあって、時にはインストールできないこともあるそうだ。日経新聞のデータベースも毎回ビューアーをインストールしなければならない。サーバーに保存できないのか聞いたところ、毎回CD-ROMを読みこませる形なら納本書籍として無料で利用できるが、サーバーに保存すると別契約になり利用料金がかかるということだった。利用頻度が高いものはできるだけサーバーに蓄積する方向で考えているが、予算の関係でなかなか増やせないらしい。

 国会図書館は資料の永久保存を任務の一つとしているが、CDの劣化にどう対処しているのか聞いてみた。CDはOSの違いなどで読めなくなったものはあるが、ディスクの劣化で読めなくなったものはまだないので、緊急の課題とは考えていない。現在はフロッピーの劣化について研究をはじめたところで、CDやDVDの劣化対策は将来の課題になるということだった。

 ちなみに、今、電子資料室で一番閲覧が多いのはこの本だそうである。わざわざ国会図書館まで来てモニターをにらみながらマッサージをはじめるオバサンがいるというが、買った方が早いだろうに。


 電子図書館の現状についての話も興味深かった。電子図書館については1998年に田屋裕之氏にインタビューさせていただいたが、あれからもう十年たってしまったわけだ。

 話題は多岐にわたったが、この1月7日に日経夕刊の一面に大きく載った「国会図書館の本、全国で閲覧可能に・3000万冊をデジタル化」という記事についても聞いてみた。

 3000万冊といえば国会図書館の全蔵書である。それが「インターネットを通じて自宅やオフィスで簡単に読める」ようにするというのだから、事実だとすれば大スクープだが、他のメディアの後追い記事はない。そもそも量的に不可能だし、3000万冊の7割は著作権が活きているはずである。著作権を全否定しかねない事業に国会図書館が本当に乗りだしたのだろうか。

 案の定、そんな計画はないということだった。いかにも飛ばしくさい記事ではあったが、日経の夕刊一面に載ったので国会図書館には各方面から問い合わせがあり、当惑しているとのことであった。

 書籍デジタル化の現状はどうだろうか? 国会図書館は明治・大正期の14万3千冊を「近代デジタルライブラリー」として公開しているが、ライブラリーの対象となる蔵書は880万冊あり、わずか1.6%が完了したにすぎない。平成19年度は8100万円の予算で1万冊をデジタル化したが、20年度には1.3億円に増額し1万5千冊程度がデジタル化されるようだ。書籍のデジタル化には追い風が吹いていて予算がとりやすいそうだが、10倍20倍になるわけではない。仮に年3万冊になったとしても、近代デジタルライブラリー880万冊のデジタル化が完了するには280年かかる。3000万冊だと1000年である。万一予算が10倍に増えたとしても100年かかる計算だ。


 デジタル化に手間がかかるのはスキャンをいまだに手作業でやっていることも影響しているようだ。国会図書館には資料の永久保存という任務があるので、Googleが使っているような自動スキャン機は使えないということである。それなら本を傷めない自動スキャン機を日本の技術で独自開発すればいいと思うのだが。

 全文テキスト化についてはOCRが古い活字に対応しておらず、明治期の文献ではヒット率が90%まで落ちるということだった。そういえば、SATの『大正大蔵経』電子化では康煕字典体の活字を読むために台湾製のOCRを使っているということだった(「電子テキストの海へ」)。中国の『四庫全書』デジタル化プロジェクトでは手書きの楷書を処理できるOCRを独自開発したということだし(「「アジアの漢字と文献処理」レポート」)、韓国の『高麗大蔵経』電子化プロジェクトではサムスンの研究所が全面的にバックアップしたという。日本のIT企業は何をしているのか。

 デジタル化以上に大変なのは著作権の処理である。近代デジタルライブラリー事業を進めるにあたり、明治期の著者7万2730人を調査したところ、70%にあたる5万1千人余が生年月日不詳で著作権保護期間が終わっているかどうか確認できなかった。


保護期間完了 20,141名27.69%
保護期間中 777名 1.07%
生年月日不詳 1,712名 71.10%
処理未完了 100名 .14%

 生年月日不詳の場合、著者が日本人であれば文化庁長官の裁定により補償金を供託することで印刷制限つきのネット公開ができるようになる。補償額は一件あたり51円、利用期間は5年間である。著者が生年月日不詳の外国人の場合は文化庁長官裁定の対象外である。裁定で公開できたのは生年月日不詳者の75%である。

 文藝家協会で著作権問題を担当する三田誠広氏によれば裁定条件は緩和の方向で検討が進んでいるということだが、裁定という回り道をとおらなければならない点は変わらない。著作権保護期間の書籍のネット公開にいたっては、Googleでさえ難渋しているくらいで、どだい無理な話である。

 IT関係に飛ばし記事はつきものだが、日経は今回もまたやってくれたわけである。