どうしよう日本語入力システム (その2)

昔の話をするようになったら歳をとった証拠だ。が、いきがかり上、しばらく昔の話を書いてみよう。

日本語入力システム自分史

UNIX 期

Wnn を使い始めたのは学生だった 1991年頃だ。その前には NEC の PC98 で少しのあいだ ATOK を使っていた。確か「一太郎 Ver.3」だったから、いま調べてみると ATOK6 か ATOK7 だったことになる。

そこに Sun SPARCstation 2 というワークステーションが研究室にやってきて、X Window system で日本語を入力するのに Wnn を使い始めた。確か X11R4 や R5 だったので、これもいま調べてみると、それらに標準添付されていた Wnn 4.1 や Wnn 4.2 を使っていたことになる。その頃にあった別の日本語入力システムの Canna や Sj3 は使ったというより試してみた程度だった。

その後使った HP のワークステーションの HP-UX に VJE だか ATOK だかが付属していたと思うが、このワークステーションはほとんどリモートで使っていたので、日本語入力システムに触れることは滅多になかった (もう当時のバージョンがいくつだかも忘れてしまった)。

Wnn 4.2 の頃はいろいろと情報が出回っていて、辞書を追加したりパラメータを調整することで、標準の状態よりかなり変換精度を上げることができた。

世間で Windows 3.1 や Windows 95 が大流行している頃、私は Sun SPARCclassic を独占してデスクトップで使えるという環境にあったため、その時期を Windows と無縁で過ごした。その後ノート型を含め、いわゆる PC/AT 互換機も使うようになった頃には既に Linux が入手できたため、そこでも Windows を使わずにすんだ。そんな職場を離れたあとも今日に至るまで、トータルで 20 年以上もコンピュータを毎日使っていながら Windows も Mac も常用したことがないという、たぶんかなり珍しい部類の人となった。

Linux-Wnn 期

1997 年、Wnn 6 for Linux/BSD が発売されるとすぐに購入した。UNIX 版はその前に出ていたが普通に買える価格ではなかったし、その頃には Sun SPARCclassic は既にサーバーとして裏にまわり、Debian をインストールした PC をデスクトップで使っていた。

Wnn 6 は、それまでのバージョンがフリーソフトだったのに対し、商用ソフトであった。「Wnnについての基礎知識」のページの中ほど、「*Wnn6 で強化された機能とは」の項にあるように、20万語のシステム辞書、「フレキシブル・インテリジェンス(Flexible Intelligence)機能」により、変換精度は格段によくなった。

2001年、Wnn 7 for Linux/BSD が発売になり、これもすぐに購入した。

ATOK 期

2005年に Wnn 8 が発売になった際には、Wnn 7 で十分満足していたので購入を見送った。UTF-8 への対応というのが大きな変化だったが、その頃はまだ EUC-JP で使い続けていたので、その必要性も感じなかったのだ。その後 2009年に、別の会社から、その時点の ubuntu に対応したという Wnn8 for ubuntu というものが発売されたが、ほぼ1年で販売を止めてしまったようだ。

これらを購入しなかったことを後悔する時がやってきた。2010年頃には、(1) OS のライブラリが新しくなり、依存関係を改変しないとインストールもできなくなってきた。いつか本当に起動しなくなるかもしれない。(2) 最近は UTF-8 でしか動かないアプリケーションがいくつか出てきたが、Wnn 7 (xwnmo) は locale を EUC-JP にしなければならないため、日本語を入力できない。(3) 開発元の情報を見ても、この先、新しいバージョンが出る気配がない。という状況になってしまった。

OSS の Anthy を試してみたものの、あまりの使い勝手の悪さに 1週間ほどで嫌になってしまった。

そこで思い切って ATOK X3 を購入することにした。ATOK X3 は 2007年の製品で、既に時代遅れぎみだが、こちらも次がいつ出るのか(そもそも次はあるのか)見えないので、思い切ることにした。

ATOK X3 が悪いとは言わないが、何しろこちらが Wnn に慣れきっているため、不満に思ってしまう点はいくつかあった。

変換精度が思ったほど高くないと感じるのは、長いあいだ学習させてきた Wnn7 と比較しているからだろうか。それを割り引いても 2001年の製品である Wnn7 のほうが「賢い」ように感じられた。

それに、異体字(いわゆる旧字)を簡単に出せない。Windows 用の新しい ATOK には異体字変換があるようだが、Linux 版 の ATOK X3 にはその機能がない。Wnn7 には標準で「異形字変換辞書」を持っており、いったん仮名から漢字に変換したあと(たとえば「けいざい」→「経済」)、漢字から異形字(「経」→「經」、「済」→「濟」)に変換する、単漢字変換の一種ともいえる機能があった。とりあえず「正字正假名辭書」を追加してしのぐことにしたが、これは単語レベルの辞書なので、登録されていない単語(人名など)で旧字を出したいときにはやはり苦労する。

発売直後から指摘されている不具合が未だ放置されているなど、開発元のやる気のなさも心配だったのだが、前の記事にも書いたように、たった1年ほどで終わりの時が近づいてきたようだ。


結局、20年ほどの日本語入力システム自分史を振り返ってみると、最近1年の ATOK X3 を除いて、なんと19年が Wnn (そのうち10年ほどが Wnn7) というものであった。

この項さらに続く(たぶん)。

どうしよう日本語入力システム (その1)

Debian sid (i386) で、libgtk2.0-0 を 2.24.5-4 にアップデートしたら日本語入力システム ATOK X3 が使えなくなってしまった。2.24.4-3 に戻せば使える。そのあいだのバージョンではどうだかわからないが、いずれにせよ、ほかのアプリケーションとの兼ね合いで libgtk をそのままにしておくわけにもいかないだろうから、ごまかしておけるのも時間の問題だ。

そもそも、それまでずっと使っていた日本語入力システム Wnn7 が、やはりライブラリ (や、日本語文字コード) の問題でうまく動かせなくなり、その代わりにしかたなく ATOK X3 を使い始めたのだった。今度もまた本質的ではないと思われるライブラリの問題で使えなくなるとは非常に残念である。このへんが頻繁にバージョンアップのあるオープンソースと、どうしても対応が緩慢 (この場合、緩慢どころかもう停止してるのだろう) になる商用ソフトの相性の悪いところだ。

選択肢がない

日本語を使う者にとって日本語入力システムは必要不可欠だ。ハードウェアがどうとか OS が何であるかよりもっと人間よりのところにあると言ってもいい。キーボードのHappy Hacking Keyboard のページに、

アメリカ西部のカウボーイたちは、馬が死ぬと馬はそこに残していくが、どんなに砂漠を歩こうとも、鞍は自分で担いで往く。馬は消耗品であり、鞍は自分の体に馴染んだインタフェースだからだ。

いまやパソコンは消耗品であり、キーボードは大切な、生涯使えるインタフェースであることを忘れてはいけない。

[東京大学 和田英一 名誉教授の談話]

という言葉が掲げられているが、この「キーボード」を「日本語入力システム」に置き換えても何ら違和感はない。

それにもかかわらず、Windows 環境下ですら現在では選択の幅がほとんどない。その原因は Windows にバンドルされている MS-IME の寡占につきると思う。しばらく前の Web ブラウザ Internet Explorer 寡占問題と同じだ。このときヨーロッパは 「WindowsとIEの抱き合わせは競争法違反」と異議声明を出した。日本でも MS-IME に対して異議を申し立てるべきだったのだ。それまで多くの日本語入力システムがあって切磋琢磨していたものが、ほとんど姿を消してしまった。

OS のシェアから考えて、Linux 版のみの商用日本語入力システムが開発されるわけもなく、Windows 市場で稼げなければ Linux 版は存在し得ない(もちろん MS-IME の Linux 版が出るわけもないし)。こうして Wnn も Linux 版の ATOK も消えていきつつあるのが現状だ。


長くなってきたので、この項つづく

異体字同一視検索

PostgreSQL をバックエンドに、フロントエンドを PHP でどうにか書いて、自前のデータベースを仕事に使っています。そこでたまに異体字を同一視してほしい(たとえば「斎藤」さんだったか「齊藤」さんだったかうろ覚え)ときがあるのですが、それほど頻度も高くないし、人間が注意して対処(「読み」も登録しているので「さいとう」で検索)すれば乗り切れるので、つい後回しにしていました。

そろそろ何とかしなければ、と web を検索したところ、「異体字同一視検索」を見つけました。そう、以前に調べたときにこの方と同じく「漢字データベースの異体字データベース」を見つけてはいたものの、そこからどうしようと思いながらそのままにしていたのでした。

さっそくそのページの説明のとおりに自分のスクリプトに組み込みました。こちらでは日本語のいわゆる旧字体があれば十分で、簡体字は必要ではないのですが、そのままで快適に機能しています。このように情報を公開していただいていることに大変感謝しています。

subscribe の訳語は「継読」で

RSSフィードやメーリングリストなど、subscribe の訳語を「購読する」、名詞形の subscription を「購読」としているのを目にする機会がしばしばあります(ほかに文脈に応じて「登録」や「加入者」(subscriber の訳として)としている場合もありますが、ここでは専ら「購読」について考えます)。
RSS フィードをはじめとして、インターネットでは、ある情報の更新を何らかの手段で通知するための機能がいろいろとあり、特定の情報をその管理下におくように指定することを “Subscribe” (署名する、賛同する、予約する、購読する、などの意) といいます。
この訳語がどうもしっくりこないと感じているのは、私だけではないようです。違和感は「購」が、代価を支払う、という意味を持っているところにあります。
「購読」とは「金を払って読む」事であって、ウェブ上の、いくらでも無料で参照できるリソースに対して使用する語ではないだらう。初めてこれらを「購読」した時、「え、金かかんの?」と思ったものだ。
ほかに適切な訳語があればきっとそれが当てられているでしょうから、しかたないということのようです。
だったら、「RSSフィードを購読する」よりももっと適した日本語訳があるかというと…これが意外と難しいようで…。
適切な語がないのだったら造ればいいのか、「統計」や「神経」だって最初はそうだったのだ、などと思いながら布団に入り込み、あれこれ考えているうちに「継読」というのを思いつきました。我ながらこれはなかなかいいと悦に入って眠りにつきました。 翌朝、「継読」で検索してみると、意外に多く引っかかりました。読書界(?)で多く使われているようで、特にシリーズ物を次々に読んでいくことを指している用法も見受けられ、ちょうどここで考えている意味とも合致しそうです。そのほかにメールマガジンに対して用いられているものも見つかりました。そして、ここでの主張と同じものも発見しました(『購読』ではなく『構読』や『継読』にすべき) この造語の最初の発案者にはなれませんでしたが、あらためて
  • subscribe は「継読する」
  • subscription は「継読申込」または短くして「継読」
と訳してはどうかと主張します。 この語の難点のひとつは、見た目が「継続」に似ていて、「間違いじゃないの?」と思われそうだというところでしょうか。

外来語のカタカナ表記の末尾の長音について

1年ほど前にマイクロソフト社の方針変更で話題になったものですが、今ごろになって書いてみます。

検索してみると、これについて論じているページはたくさん出てきます。そもそもカタカナ表記はどうしても元の発音を表現できないので長音をつけてもつけなくても五十歩百歩(例えば、「カタカナ語の長音表記」について)という主張は、そのとおりだと思います。

例えば「コンピュータ」と「コンピューター」を(これが英語の computer のことだという知識があると難しいのですが、その発音を思い起こしてしまわないように注意しながら、単純に日本語のカタカナだと思って)発音して比べてみると、後者のほうが「タ」のアクセントが強くなります。たぶん私だけでなく一般的にそうだと言ってもいいと思います。英語ではありませんが、「イタリア語では長音を区別しないが、単語を単体で発音するとアクセント位置が長くなる(単子音の場合は顕著)ので」長音を使うとしている場合もあります。つまり逆に考えると、カタカナに長音があるとそこにアクセントが置かれやすいことの現れです。

私は素人なのでこれ以上詳しく述べることはできませんが、検索しても英語のカタカナ表記の長音とアクセントについて言及しているものがあまり多くは見つからないのは意外でした。

私自身は、五十歩百歩とはいえ少しでも隔たりの小さいほうがまし、という考えで、不要なアクセントを作ってしまう語末の長音には賛成しません。

日本語スタイルガイド

Wiki 書式をやめて(簡略)HTML で書くようになったら、そのほうがむしろ書きたいように楽に書けることが判って、なんだという気がしている。

さてそうすると内容以外の、文章のスタイルについても気になってきた。それは何もここに書くときだけではない。自分のなかではこれまでの経験からある一定のルールというのが出来ているのだが、重要度 (自分にとっての) に応じてブレるものもある。

そこで文章のスタイルについてのガイドラインについて、検索してみた。Gnome.JP の Wiki を経由して、タイムリーにも出たばかりの What’s Translation@Sun日本語スタイルガイド を発見した。元々の Sun 内部の指針(【追記】リンク切れ)を再編されたものということだ。英語から日本語への翻訳を前提に書かれているが、はじめから日本語の文章を書く場合にもよく当てはまる。いったん通読したら普段は クイックリファレンスを見るだけでも随分役に立ちそうだ。何しろ個人や小さなコミュニティではこのような明文化の作業はしない (できない) ので、たいへんありがたい。

自分のなかのルールといくつかの点で違いはある。たとえば感嘆符・疑問符は使わない、としている点。横書きの、特にブログのような場面では既に日本語の一部として使用可能だと思う。さらに、もし使う場合 (メッセージでは使うとされている) には日本語と疑問符のあいだにスペースを入れるとしている点も疑問に思う。そのほか漢字とかなの使い分けのなかにもいくつか自分の基準と違うものがある。

しかしそれらを除いて大部分はたいへん有益な内容である。カタカナ語の末尾の長音は、自分のなかでも場面ごとにブレが大きく気になっていたので、100% 同意できるかどうかは別として、大いに参考になった。元々が技術文書、マニュアルを対象として作られているので、それ以外にそのまま適用できないかもしれないが、参照資料のひとつとして活用したい。

【追記】この記事を書いたときとリンク先が変更になっているので、修正しました。