1999年01月26日

OCR(岡島昭浩)


e.Typistをバージョンアップしました。

その必要はないかな、とも思ったのですが、「和文中の英字にも対応」というようなことがパッケージに書いてあったので(フルセット)、アップグレード版を購入。

縦書きの中の寝ている英字に対応したのかと思ったのだが、その様子はない。

旧バージョンからの字書変換も裏技風にやらねばならないようで、ようやく変換を始めてくれたかと思ったら途中でハングアップ。

スキャンは相変わらず遅い。濃度自動設定でやった日にゃ……。

認識。遅くなったのでは? パワーのあるマシンでしか使うな、ということか。



岡島昭浩 さんからのコメント

( Date: 1999年 1月 28日 木曜日 16:20:18)


この度のe.Typist for Macintoshはv.4.0とのこと。私が使っていたのはe.Typist97。その前はv.2.0を使っていた。
マニュアルによれば、バージョン3.0以降のものはそのまま使える、とのこと。バージョン3.0って何? いつのまにそんなのが出た? とも思うがまあe.Typist97のことか、と思う。
しかし起動してもユーザ字書を認識してくれない。「学習字書の管理」などでも見付けてくれないのである。いろいろやったが旨く行ったのは次の方法。

まず、デフォルトのユーザ字書で立ち上げる。
デフォルトのユーザ字書を別フォルダに移動。
旧バージョンのユーザ字書をデフォルトのユーザ字書の名前に換える。
「学習字書の管理」で、そのユーザ字書を選ぶ。
そうするとようやく「これはVer2.0かe.Typist97で作られた字書ですから変換します」というメッセージがでる。
でもこの変換が時間がかかった。ようやく終わった、と思ったらそれはindexづくりの終りであり、そこからさらに時間がかかるのであった。


よくなったところはないのか。
今のところ見付けられない。
オート処理のインターフェースが変ったので、あるいは連続処理が50枚という制限がなくなったのではないか、と期待したが、駄目。

G4圧縮TIFFの読み込みも失敗するし。カタログ的には無圧縮TIFFしか書いていないが、e.Typist97では、書き込みは無圧縮になるが読み込みだけは可能だった。

外字が2000から減らされるのではないか、という恐れ(Windows版はそれより少ないという噂で)は杞憂であった。
Windows版も2000になっているのかな。



岡島昭浩 さんからのコメント

( Date: 1999年 1月 28日 木曜日 16:25:49)


 書籍の場合、真ん中に折り目がある。今新たにスキャンする場合には、右と左で歪みが生じないように気をつければとよいのだが(といっても難しい)、昔コピーしたものをシートフィーダで読み込んだ場合が困る。

昔から、綺麗にコピーしようなどとは思っていない。読めればよい、と思っていた。少し位黒くてもいい。薄くてもいい。コピー屋さんに「トナー換えてください」という勇気も無かったし。

この辺は諦めがつく。ところが左右の歪みはなんとかならんものか。

右と左を別ファイルにして、傾き自動補正をかければよいのだが、なにせ連続処理が50枚まで、というのがネックだ。「寝ている間のOCR」がちょっとしか進まないではないか。



岡島昭浩 さんからのコメント

( Date: 1999年 1月 28日 木曜日 16:27:32)


 そうそう、傾き補正の角度が増えたのはいいこと。シートフィーダだと、歪んじゃうことが多いのだ。



岡島昭浩 さんからのコメント

( Date: 1999年 1月 29日 金曜日 15:50:26)


 スキャンが遅い、というのは、同じスキャナを使い、別のソフトでスキャニングした場合と比べて、ということ。

 自宅ではスキャナ(エプソン)に付属しているソフトが、99番目までならがファイル名を勝手に作ってくれて(なんと100番目は10番目に上書きされてしまう、警告も無く)、助かるのだが、学校で使っているやつ(HP)は、それをやってくれず手動でファイル名を書かねばならない。これは面倒。

 e.Typist97は、9999まで大丈夫のようだったが、今度のは999までに減ったようだ。



岡島昭浩 さんからのコメント

( Date: 1999年 9月 27日 月曜日 12:59:30)


Windowsマシン用に、読取り革命を購入。
e.Typistと比べて一長一短ではあるが、全体的にいい感じ。50枚までなどというけちな事を言わないのがいい。

いかんところ。
傾き自動修正にえらく時間がかかるし、時折失敗して「不正な処理で終了」となるところ。
「不正な処理」などで終了しても、それまでの認識結果が残っているのはいいが、覚えさせた文字などを忘れてしまっているところ(単語辞書も同様)
どうも段組みが敏感すぎる。たまたま句読点が左右の行で並んでいたりするとそこを段組みと見なしてしまう。泣き別れである。とても段落ごとの改行には出来ない。とんでもないところが繋がっちゃうから。
e.Typistでは読んでくれていた、縦書きの中の横に二つ並んだ数字を読んでくれない。
「ファイル取り込み」では複数のフォルダから追加できるのに、一括処理では一つのフォルダからしか入れられない。
ファイルの入力順を任意に出来ないみたい。取り込んだ後並べかえるとかも出来ない? 1...9,10,11のようなファイル名の場合が面倒。01...09とリネームすればいいのだがそれも面倒。これはe.Typistでも97は良かったが、4.0では勝手にソートされることがあるので、不便に思っていたのだが。

別話題。
近ごろは、ADFでコピーを読み込む場合には、折れ目のところで切って、読み込むようにした。90度回転の手間も省けるし、紙の引っ掛かり・もつれも少ないようだ。
画像はOCRに掛けた後も捨てない。CD-Rに焼いておくのである。というよりもスキャナを繋いでいるパソコンとOCRをやらせているパソコンは別なのでCD-Rでやっているのだ。
読み取ったコピーは惜しまず捨てる(CD-Rよ消えないでおくれ)。これで少しは部屋が片付くか。



岡島昭浩 さんからのコメント

( Date: 2000年 9月 22日 金曜日 15:57:38)


 この頃は、ちょっと元気になりかかると滅入らせてくれることがおきます。ハードディスクの昇天や、メールボックスファイルの破損など。その度に自分の危機管理能力の低さを思い知るのですが、昨日また。

 OCRソフトの件だから、ここに書いているわけですが、バージョンアップ版が置いてあったので、ついつい買っちゃったわけです。でインストールしました。

再起動後、新バージョンを起動。ところが即座に、不正処理で終了! いろいろやってみたのですが、どうもうまく行かず、インストールし直そうと、新版の方をアンインストール。ところが再インストールしようとして、旧バージョンのあるフォルダを参照させると、「インストールされていません」。旧バージョンの方が消えてしもうた。辞書なんかも移していないのに。

泣く泣く、旧バージョンを再インストールしようとすると、CD-ROMは見つかったものの、シリアルナンバーが見つからない。

相変わらず、起動直後の不正終了しかしない新バージョンもアンインストールして(今度はちゃんと消えた)、今にいたります。

ああ。



岡島昭浩 さんからのコメント

( Date: 2000年 10月 20日 金曜日 16:22:36)


 ようやく、シリアルナンバーを書き写したマニュアルが発見されました。もう諦め掛けてて、新しいOCRソフトを買おうか、ついては、日本語も読める中国語OCRにしようか、などと考えていたのですが、見つかったのでそれは先送り。中国の文献は物凄い勢いで電子化されているようなので、まあ私がやらなくても、という思いも。

 ところで、レンタル落ちの中古PCはどうも困った部分があります。LANボードがついて2万をきる、という値段に目が眩んで買ってしまったのですが、最近はLANボードも安いのね。それはよいとして、SCSIボードを付けようかと思って箱を見ると、妙なネジでとめてある。そこにはオリ……と書いてある。これは普通のドライバーであきそうもない。勝手な増設はさせない、ということなのだろう。プライヤで力任せに開けるか。



岡島昭浩 さんからのコメント

( Date: 2000年 12月 01日 金曜日 17:55:05)


 結局、その中古PCは鍵がないと増設は出来ないようなのだが、鍵などはない。それはともかく、このマシンで認識革命2000が動いたのでよかった。以前のバージョンよりも、段組みの認識がよさそう。
 また、e.typsitのバージョンアップの知らせが来たが、Mac用は私のマシンが非力過ぎて駄目なので、Win用のe.typsitに乗り換えることにした。しかしe.Typistは未だに連続処理は50枚までなんだな。それが無ければよいソフトだと思うのだが。
 そうこうしていると、認識革命2001の案内が。カタログを見ていると欲しくなる。縦書き中の横になっている英文字を読んでくれる・右ページと左ページの傾きがちがっても補正してくれる。
 ただ、認識革命は手動による傾き補正が出来ないが難点だったのよね。e.Typistなら、例えば右半分の傾きに合わせて手動で補正し、その上で右半分を消して左を補正し、そして消しておいた右を張り付ける、ということがで出来るのだが。



岡島昭浩 さんからのコメント

( Date: 2000年 12月 03日 日曜日 8:43:46)


 使い始めたばかりのWindowsのe.Typistには、「見開き手動補正」というのがあって、ページの切れ目さえ指定してやれば左右の傾き違いを補正してくれる。
 50枚という制限さえなければ、愛用してよいOCRなのだが。

 丁寧に読み取りたい時に使う、という位置付けですね。ただ、認識革命と違って、不正終了の後に立ち上げ直したら、まっさらの状態で立ち上がっちゃう。



岡島昭浩 さんからのコメント
( Date: 2003年 12月 17日 水曜日 22:03:32)

e.Typit、100ページまで読み込めるようになっています。また、終了時の状態で立ち上がる、というモードもあります。

PDF画像の直接読み込みは、一旦AcrobatReaderを立ち上げてファイルに印刷しているのでとても時間がかかります。


見開き補正は、読取革命にもあり、これは、真ん中を指定した後、自動的に補正することもできるし、左右を別々に手動で訂正することもできます。


Chinascanも買いましたが、やや期待はずれでした。1ページずつしか読み込みませんし、認識力も今ひとつの感があります。



Yeemar さんからのコメント
( Date: 2003年 12月 17日 水曜日 23:34:40)

e.Typistが終了時の状態で次に起動できるというのは魅力的です。これができない私の現状では、OCRで一旦読み込んだ限りは、是が非でもその地点までは校正してから終了する必要があります。


「非・新潮文庫の100冊」という、さまざまな文庫本から寄せ集めた作品をテキストファイル化すればおもしろいだろうと、時々夢想します。もとより、現状では不可能です。しかし、設備によっては個人でも可能かもしれませんね。



岡島昭浩 さんからのコメント
( Date: 2003年 12月 18日 木曜日 00:21:05)

 場合によっては、「作業状態の保存」というのを行うこともできます。大物を作業中に、臨時で小物を入力せねばならぬ時があり、その際など便利です。




posted by 岡島昭浩 at 14:55| Comment(0) | TrackBack(0) | ■初代「あれこれ会議室」 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック
×

この広告は180日以上新しい記事の投稿がないブログに表示されております。