インタビュー

Vol.4

日本人が漢字とどう付き合っていくかの国民的な議論があるべきだと思います。

月本雅幸

2013.03.26

国語学者の月本雅幸先生のインタビュー第2回です。
前回は漢文訓読についてのお話でしたが、今回はデータ化が難しい国語学における文字データの取り扱い方や、日本語研究のこれからについてお伺いします。

データとして漢文資料を取り扱うには


――普段はパソコンをお使いになられているということですが、レ点をはじめ訓点資料は、パソコンで表記が難しい場面も多いと思うのですが、どのように取り扱われているんでしょうか。

私のように古い文献を扱うものは、大きく二つに分かれます。できるだけもとの文字を保存しよう、忠実になんとかしたい、という人間と、それはあきらめて、細かいところは捨象してしまって、とりあえずできることでやるんだ、という二つです。

もっとも、ひとりの人間をとっても、若い頃はできるだけ忠実にしたかったけれども、今ではだいたいのところでいいだろうと揺れ動くこともあるんですね。私は、パソコンの初期のエンドユーザーでしたので、漢字の第一水準をプリンタに印刷させるために、たばこの箱くらいのROMを買ってこないといけなかったんです。買ってきたあとで「なんで第二水準が印字されないんだろう?」と思ったら、第二水準は別にもうひとつROMを買わなくてはいけなかった、と。そんな世代からみれば、細かい一点一画まで忠実に再現するということは難しいと考えています。

ですから、パソコンで打つ文字は近似値を示すのであって、今は簡単に画像を使えますので、画像と両方で管理すれば、いちいち文字を原文どおりの形にする必要もないだろうと思っております。もちろん、画像をそう簡単に提供してもらえない場合や、公表できない場合はどうするかというのは、今なお大きな問題ですけれどもね。

ただ、昔は少し難しい構造の漢字は、分解して部品で示すようなことがよくありましたけれど、今はいろいろなメーカーさんのたくさんのフォント集が発売されているので、他に置き換えができないような、しかし複雑な形の漢字も、(省略形に基づく)異体字ではなくて、難しい字体のままの漢字を表現することがかなりできるようになってきました。これは本当に正直にありがたいと思っております。実際に、そういうものをときどき使っていますね。

――TRONコードに、先生がこれまでに集められてきた、なかなか表示できなかった漢字も組み込んでご利用いただけるのではないかと思うのですが、いかがでしょう?

今は漢字の字体の研究もある程度進んでまいりまして、たとえば、北海道大学などで作った「漢字字体規範データベース」など、いろいろなデータベースがあるんですね。

ただ、中国には中国の、日本には日本の標準があって、それはやはり似ているようで違うものだということですね。さらに、日本の漢字の標準というのも、時代によって変わっています。昔の筆写体というのは、それこそ今からみると信じがたい形であったりするのですが、明朝体の導入によって、現在われわれが考えるような「楷書が標準字体である」という意識が一般化してきたことと繋がってくるんだろうと思うんですね。

ですから、将来は、中国の古い筆写文字を表すためのソフトだとか、日本の写経の文字を表すためのソフトだとかが、汎用性のあるものもそれはそれで魅力はあるのですが、あるものに特化して、それについてはきちんとできるというものがあれば、それぞれの分野の専門家にとって非常に使い勝手がよくなるんじゃないかと思います。作る側としては大変でしょうけれども。

たとえば、奈良文化財研究所というところでは木簡のデータベースがあります。木簡の出てくる奈良時代やそれ以前の文字ものを対象にして、動作が軽くてファイルサイズが小さくて、したがって価格も比較的低廉なものがあれば、その研究者がみんなそれを持つようになる、そういうやり方ができるんじゃないかと思うんですね。

つまり、今の大規模文字集合というソフトは、なんでもかんでも入れようという方向に進んできていて、それはそれでそこからピックアップできるわけですからありがたいわけですが、いざ探すときになかなか大変だということも、実はあるわけなんですね。世界各地の諸言語の文字をどんどんいれるんだというやり方ももちろんありますし、一方で「私はこの文字は使うけれどもこの文字は使わないんだ」ということもあるわけで、私は、サンスクリットの文字は使うことはありますけれどもタイの文字を使うことはないので、選択的にデータを入れ替えて、自分の専門にあわせてカスタマイズできる大規模文字集合ソフトなんかがあればいいなぁ、などと夢想してみたりするんですね。

ですから、大きなものはそういうかたちで、小さなものはあるものに特化して、持ち運びができて、小さな容量の端末でも十分使えるというような、たとえば発掘の現場でも使えるとか、出張でも使えるとかですね。まだまだいろいろな方向性がありうるんじゃないかと思うんですけどね。

――研究者の専門ごとにカスタマイズされて手軽に使いやすいもの、ということですね。ところで、先生はどのような漢字のデータベースがあったらいいとお考えですか。

私の恩師である築島裕先生は、平安時代の古訓点資料で、どういう漢字にどういう読みが付いているかというデータベースを紙媒体で作られたんですね。『訓点語彙集成』というんですが、紙媒体だけで提供されているんです。これはもったいない話で、データベースの形で電子的に出版されるべきものであるし、将来はそうやって公開されていくべきものであろうと思うんですね。ただ、築島先生が集められた用例のうちの何分の一しかそこには収められておりません。本体だけで8冊あるんですけど、それが先生が集められた用例の何分の一なんですね。

漢字検索では、漢字には読みが付属していますが、その「読み」というものはある種の標準化された「21世紀の読み」ですよね。

たとえば、古い文献にどういう読みがあるのかということ、どういう文献にどういう読みが付いているかということがデータベースに載れば、それは非常に使い勝手が良くなります。そういうものは、実は現代の漢和辞典でも提供されてはいないわけです。ですから、いろんな発展性があるだろうなぁと。
漢字の字体の研究や漢字の読み方の研究などと、これから開発されていく電子的な媒体のシステムは、双方向性の発展の可能性があるんじゃないかというふうに思いますね。

「このソフトは便利だ」「こういう使い方もできる」というのは、もちろんありがたいのですが、「これこそ研究に使えるんだ」というものが、それぞれの分野で存在すればいいと思います。

たとえばですね、これはあちこちで開発されつつありますけれども、歴史関係で古文書の調査をするときに、崩し字でよく読めないものがある。それを「この漢字はなんなんだ」というように検索できるシステム、崩し字の検索システムですね。そういうものとも関係性をもって、漢字の形と読みとが統合された形でデータベース化されるということになれば、そして、それがきちんとある方式で検索できるとなれば、これはもう、すばらしいことだろうなぁと思います。

用語解説

TRON(トロン)コード
世界のあらゆる文字を収録するというコンセプトの下に150万字を収録できるコード体系。


▲PAGE TOP