某ワークショップ

今回はO形氏が中心になって企画した改定常用漢字表についてのワークショップ(講演資料が公開されている)に参加.東京で開催されると気軽に参加できて嬉しい.
最初のO形氏による問題をわかりやすく整理した発表があり,その後各自の発表がおこなわれて,最後にパネル討論.
M先生の発表は,実際に用いたnグラムを用いた頻度調査資料の簡単な分析.委員会では,頻度だけでなく「造語力」も重視されているとのことだが,実際にどのような分析がおこなわれたのか不明だが,これは比較的簡単に定義できるのではないか?と後からM先生とH原氏と議論.ただ,「醤」が出現頻度が高くても漏れているようだが,これはほとんど「醤油」としか出現しないからではないかと思われるが,反面「醤油」という言葉は「醤油ラーメン」,「醤油味」,「醤油バター」,「醤油せんべい」など,単語としての造語力はあるのでないかと思われるので,文字だけでなく単語にも注目する必要があると思っている.
H原氏は自社の高精度時間軸コーパス(一般公開予定)を元に分析.ただし,データは某掲示板のバイアスが掛かっているようだったので後から確認したところ,単に某掲示板の割合が多いだけでなく,データ落ちした後に多くのサイトで複数のコピーが保存されていて重複を除いていないことが影響しているらしい.なお,「藁」という単語の頻度が最近低下したのは,「(w」や「www」などと時代により表記が変遷したからだそうで,なかなか面白い.
M川氏は,「中音訓」,「高音訓」など常用漢字のどの文字をどの年代に教えるかが決められているという事実を披露.それだったら,現在あまりつかわれなくなった常用漢字は,教育用から外すだけで,いいのに….また,「漢字テストのふしぎ」という動画を紹介し,漢字認識の同一性の曖昧さや,我々の画数認識の甘さなど,多くの興味深い問題を紹介してくれた.
D
H留間氏は新聞における漢字の使われ方を紹介してくれたが,現場では比較的柔軟に対処しているようだ.特に,昔はルビを使うのが難しかったので交ぜ書きをしていたが,その後それが批判されるようになったなど,時代による違いもあるようだ.
S口氏は情報システムにおける影響で,今回補助文字に属する漢字が一文字加えられたが,それはBMP内の既存漢字で代用して良いという方向性に行くかもしれないとのこと.他に,既存企業システムのデータベースはほとんどShift-JISで実装されているので,対処は難しいという話だった.ただ,同様な主旨でメールでUTF-8を使えないという話をされていたが,それは企業システムのようにリプレースが難しくなく,無料のソフトが標準添付されていたり,ダウンロードするなどユーザ側で簡単にコストゼロで対処できるわけだし,しかもすでにUTF-8対応のメールクライアントがほとんどを占めていて,かなり現状とずれているのでは?というのが周囲の人と話した結論だった.そもそもHTMLメールだって普通に送られているわけだし,今時ISO-2022-JPのプレーンテキストだけというのは,よっぽどの変わり者しかいないのではないかと思う.
参加前は,私のような企業研究者にとってわからないような議論が多いかなと少し危惧していたのだが,今回はわかりやすい議論が多く,本業の方にも役立つ話だった.