OCR、実はすごい
今回参加するプロジェクトでは原文をテキスト化するつもりはなかったのだが、新しく導入したエディタで辞書引きの手間が省けることからOCRすることにした。
これまで使っていたのはe.Typistエントリー。スキャナにバンドルされていたものである。そこそこ認識するものの、"w"はほとんどが"\v"になるし、"rn"は"m"に、そして"m"は"rn"になってしまう。わざとやってるんじゃないかと思うくらい、逆になるのだ。また、"y"も決まって"v_"になる。あるていど予測がつく誤りだし読み替えができるので、こんなものだと思っていたのだが、人間には区別できても辞書引き機能は対応してくれない。翻訳仲間の里緒さんが色々OCRソフトを試しているようなので、わたしも試しにe.Typistの製品版(v.10.0)をダウンロードしてみた。
使ってみて……今までなにやってたの!?と思うほどの認識率である。1ページでひとつも訂正なしなんてこともあった。間欠スキャン、連続処理機能で所要時間も劇的に短縮された。今回の原書は写真や図版が多いので、レイアウト処理はほとんど手作業だったが、普通のペーパーバックなら本当に手早く処理できると思う。あまりの性能の差に、試用期間1日にしてアップグレード版を買いに走った。
これだけの性能があるのに、エントリー版のお粗末さはなんなのか。あれだけ校正に手間をかけないと使い物にならないなんて……。とくに"rn"と"m"がことごとく逆に認識されるのは、やっぱりわざとじゃないの? それはそれで優秀な認識率だけど(^^;)。とにかく、製品版があまりにすばらしくて、逆に腹が立った。過去2日の肩凝り、目のかすみ、む、虚しい……。認識率はそこそこに、他の機能を制限したものをバンドルしてくれないと、OCRってこの程度だと思い込むところだったじゃないですか。いくら「おまけ」とはいえ、この性能の差、露骨過ぎ~。
とにかく、次回からテキスト化が楽になるのは嬉しい。ちょうどe-Book版がまだなくてPBで買った原書がある。アップグレード版の投資はあっというまに元が取れそうだ。それにしても、PCもネットもない時代だったら、果たして翻訳者になっていただろうか。
TrackBack
TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/81127/4195180
Listed below are links to weblogs that reference OCR、実はすごい:
» OCRソフトは和英混在文が苦手 [ギターのある生活]
雅さんのBlogに「OCR、実はすごい」という内容の記事が掲載されていました。「これまで使っていたスキャナのおまけOCRは駄目だったけど、正式版にアップグレード [Read More]
Tracked on May 20, 2005 at 01:52 PM



Comments
トラックバックありがとうございます。
雅さんもOCRで苦労されてたんですね。きちんと読み取ってくれたときのあの感動は大きいですよね。いままで自分がいかにろーてくだったかを思い知らされましたよ。
わたしも製品版を買っちゃうかも。
Posted by: 里緒 | May 19, 2005 at 01:37 PM
感動、ですよね。
装備は「はいてく」になってきたので、今度は翻訳の腕をあげなくては(^^;)。
わたしはアップグレード版だったので衝動買いしちゃいましたけど、製品版は結構お高いですよね。投資の価値はあると思いますけど。
紙の用語集もテキスト化したいけど、和英混合文の認識はイマイチでした。索引をスキャンしたところ、アスタリスクがすべて「暑」とか「苦」に化けていました。今日の天気にはぴったり?
Posted by: 雅 | May 19, 2005 at 01:51 PM
佐藤信彦です。
かれこれ4年か5年前にいろいろ調べて購入した英文専用OCRソフト「TextBridge」の認識率は非常に高かったですよ。限りなく100%に近く、ちょっと使った限りでは修正の必要はありませんでした。
ただ、英和混在の紙文書を電子化したいと思ってほかのOCRソフトをいろいろ試しましたが、よいものは無かったです。和文なら和文、英文なら英文に限れば優れたソフトでも、ことごとく使い物にならない状態でした。
今の状況は改善されたのでしょうか。
Posted by: 佐藤信彦 | May 19, 2005 at 02:32 PM
佐藤さま
こんにちは。
知り合いにやはりPrest OCR!(英文専用)をお使いの方がいらっしゃいますが、"m" と "rn" の混同はあるものの、そのままでも使えるレベルとのことでした。やはり英文なら英文に限定したもののほうが優秀なのでしょうか。
とはいえ、今回購入したe.Typistも、英文認識に関してはまったく不満はありません。普段は英文の読み込みにしか使わないので、当分これのお世話になりそうです。
和英混在の場合、日本語を主にするからでしょうか、スペースがなくなってしまい、またアスタリスクはすべて漢字になってしまいました。「使える」とはお世辞にも言えませんね。
Posted by: 雅 | May 19, 2005 at 10:10 PM
佐藤信彦です。
英和混在文は今のOCRソフトでも苦手なのですね。教えて下さりありがとうございます。
ちなみに、OCRによる読み込みが成功したかどうかを確認するため、目視に合わせて音声合成ソフトでPCに読み上げさせる、という手法を使っている方がいるようです。僕も自分の作成した文章の構成をする際には、音声合成ソフトを利用します。100%正しい読みをしてくれるわけではありませんが、目で見るだけだと見落としてしまう誤記や文章の流れのおかしなところを見つけるのに結構使えますね。
ただ、現在使っているソフトはちょっと間抜けな誤動作をするもので、これをどうやって回避しようか探っています。詳しくはまた後日。
Posted by: 佐藤信彦 | May 20, 2005 at 05:52 AM
佐藤さま
校正はたいていプリントアウトで行いますが、耳で聞く(音読する)のは確かに効果的ですよね。
音声合成ソフト、興味があります。耳寄りな情報がありましたら、よろしくお願いします。
Posted by: 雅 | May 20, 2005 at 10:06 AM
英文のOCRならOmniPageが良いですよ。大分前に海外でプリンタを購入したときについていました。今はアップブレードを購入してPro版を使っていますが、かなり満足しています。個人的には特に使用していませんが、音声合成の機能もついています。
Posted by: 斎藤 | May 30, 2007 at 10:26 AM