1998年07月29日

HP(岡島昭浩)

 HPのスキャナを使ってます。ADFを付けて、OCRをがんがんやろうと思いました。

 ところがなんと、HPはスキャナから撤退するのだと。もう取り扱っていないのだと。

 しかし驚いたね。HPのADFの撤退前の定価と、cannonのスキャナ+ADFの実売価格とがそんなには違わないのだから。

 でも勢いをそがれた感じだし、置き場のこともあるし、思案中。

HP


岡島昭浩 さんからのコメント
( Date: 1998年 7月 30日 木曜日 15:59:15)

 キヤノンのADF、20枚置きか……。買う気が失せる。できれば100枚ぐらい、せめて50枚は置けないと。

 ドキュメントスキャナ、ってのがあるんですね。これ幾らぐらいするんでしょう。高いんでしょうね。

キヤノンDR-3020/3020N


岡島昭浩 さんからのコメント
( Date: 1998年 11月 06日 金曜日 11:53:03)

 エプソンのGT2200WINS、20枚しか置けないけど、思い切って購入。

 MACには対応しておらずWINDOWSだけなので、最初はSoft-Windowsでやろうとしたが、SCSIが認識されず断念。FMVに導入。

 使ってみるとなかなかよい。コピーしておいたやつを挟んでおくとザーザー読み込んでくれる。

 OCRソフトも入れておくか、とZIPドライブにインストールしようとした。

 で、時々起こる現象だけど、マウスが思い通りに動いてくれなくなった。家からマウスを持って来て繋ごうとそのままにして帰宅。

 その結果。

その結果


岡島昭浩 さんからのコメント
( Date: 1998年 11月 10日 火曜日 10:43:07)

 折角のフィーダ付きスキャナが浮いてしまっています。
 資料室のパソコンにはSCSIボードが付いていないし。


岡島昭浩 さんからのコメント
( Date: 1999年 2月 02日 火曜日 15:46:29)

FMVは完全に、エプソンのGT2200WINSの為に存在するマシンになってしまっています。

部屋を整理するためにもコピーをどんどん捨てよう。

ああ、昨日はとうとう、書籍に断裁機の刃を降りおろしてしまった。すこし罪悪感。でもスキャン時間の節約になる。
表をザーっとやって、tifファイルに変換。ファイル作成時でソートし、2とびでナンバリングリネーム。001 003 004 005 
裏は同じ要領で、逆順に2とびでナンバリングリネーム。002 004 006 008
ページがずれていないかを確認して、同一フォルダへ。


岡島昭浩 さんからのコメント
( Date: 1999年 2月 02日 火曜日 15:52:53)

 ホッチキスの針を外すのが日課になっているのですが、そのうちに、和本の紐をはずしてしまうかも。

このエプソンのGT2200WINS、9980円とお買得だった。USBのGT2200WINUは全然安くしてない(29800円ぐらいだった、今は少し下がってるかも)のに。SCSIはもう古いのか。


岡島昭浩 さんからのコメント
( Date: 1999年 4月 03日 土曜日 16:05:51)

 ADFでスキャンする場合、その効率に大きな影響を与えるのが紙質である。
 紙質はまったくざまざまである。きちんきちんと1枚ずつ抜けることなく送られてくれる紙・平気で次の紙も道連れにしてゆく紙・うまく送られずに「ADFに用紙が有りません」となる紙・最初の数ミリだけ送られて何故かそこで止まってしまい、その結果白紙としてスキャンされてしまうことがある紙……。さまざまである。また同じ紙でもこれが表裏によって違うので厄介である。スペースを節約するために、やや時間がかかるのに両面コピーをしたりしたのが、今となっては恨めしい。
 本を切断してADFにかける場合、当初は、文庫本よりも大きなサイズの本の方が活字が大きく、従ってOCRに掛けた場合の認識率が高いのでよかろうと思ったのだが、単行本は紙が厚いことが多いので、表をスキャンした段階で丸まってしまうことが多い。それをそのままスキャンすると、失敗が多い。紙がないといわれたり、2枚送ったり、スキャンの途中で2枚目を巻き込んだり。重石をのせておいたり逆巻にしたりしてから丸みを取り除き、さらに丹念に天を揃えてから裏にかかる必要がある。
 文庫本の場合、昔の文庫本は天を切りそろえていないことが多かったのだが、最近の文庫本は切りそろえてあるのが普通のようだ。これは助かる。

 いずれにしろ、ADFは100%の信頼はできないので、チェックをするようにした。ADFは20枚までとのことだが、薄い紙なら25枚ぐらいは大丈夫である。それで50ページずつにしておいて、それをADFに置く。スキャンが終わった時点で25枚スキャンされていれば合格。そうでなければ、スキャンされていない紙が有るはずなので確認する。1,6,11,16,21と見てゆき、10ページおきになっているかを確認する。そして抜けているページを見つける。
 最初の頃は1,11,21と見ていったのだが、どうやらスキャンのミスはADFに紙が多く貯えられている時に多いように思えたのでこのようにしたのである。しかし必ずそうであるとも言い切れない。

 研究室のMacにはEPSONのGT-7000Sというのをつなぎ、ADFを付けた。これはなぜかあまりうまくいかない。ハード的にはよさそうである。ADFを通した後でも紙の丸まりは少ないような気がする。ところがソフト的にうまくいっていないのである。
 紙がよくないせいか、途中で引っ掛かったりすると、それにつられてマシンの方までハングアップしてしまうことがあるのだ。また、ADFに紙がなくなったあと、すぐにTWAINを終了させてあげないと、これまたハングアップしてしまうようだ。おかげで「これから会議」とか「これから授業」という時に、スキャンさせることができないのである。ハングアップ覚悟で、ということもやってみたのだが、リスタートさせてから見ると、スキャンさせたはずの25枚の内、最後の10枚ぐらいが消えてしまっているのだ(消えてしまっているといっても、ファイルとしてはちゃんとあることはあるのだが、ページ数の情報などを推測してやらなければならないので面倒なのだ)。
 また添付のソフト(Presto PageManager)がMac用はWin用に比べて劣っているようだ。Win用のソフトはスキャンしたデータをフォルダごとに、TIFのG4圧縮にして保存してくれるのだが、Mac用はそれができない。さらにいえば、ファイル保存も面倒で、アプリケーションにわたすふりをして、tempフォルダにいれられたファイルを使うしかないのだ。保存ではなく、あくまでもアプリケーションに渡すだけだから、元のファイルを削除してしまったら、tempのファイルまで削除されてしまう。だから消される前に移動しないといけない。
 またアプリにわたす形式をTIFと指定したら、なんと無圧縮だ。そういえば元々のデータ保存形式もWinではpcxなのにMacでは無圧縮のTIFF。ディスクを浪費してしまう。

 e.Typistはスキャナに対して独自のインターフェースを持っているのだが、2月に出たばかりの7000Sは従来のEPSONのスキャナとはちょっと違うのか、ADFがうまく作動してくれない。そればかりでなく、原稿台のスキャンも時々失敗する。スキャナのスイッチを入れなおせ、とおっしゃるのだ。乱暴だな、とは思うがこわごわスイッチを入れなおしてみる。でもだめだ。しばらくは仕方なく再起動させていたのだが、PrestoPagemanagerからTWAINを呼び出して、プレスキャンなどをすればよいようだ。でも不便。e.Typistのメディアドライブに要望を出そうかとも思うのだが、面倒で。


岡島昭浩 さんからのコメント
( Date: 2000年 6月 16日 金曜日 10:55:49)

先日、

ペーパーレスとは行かないまでも、部屋にあふれるコピーの山を整理するために愛用して来たシートフィーダー型のスキャナーが動かなくなってしまった。コピー紙との相性が実に良く、段ボール箱にして数箱分のコピーを処分することが出来て重宝していたのだが、残念なことにこの製品は、現在は売られておらず、後継機種もないようだ。フラットヘッドスキャナーにドキュメントフィーダーを取り付けたものも使って見たのだが、同じメーカーのものとも思えぬほど、途中でつかえたり2枚まとめて送ったりと、苛つかされることが多い。まことに残念な愛機との別れであった。

という文を書いたのですが、その後、同機をYahooオークションで購入。再びスキャンスキャン。本をばらしてスキャンすると、紙との相性もあるし、捨てるものを半減するので、ここのところは、コピーを中心にスキャンしてガンガン棄てております。ずっと読まないだろうコピーもあるしね(でも読むかもしれないと思うとそのままは捨てられない)。

なお、上の「数箱」は、5-6箱の謂でした。スキャンしたけど棄てていないコピーもありますし。

このスレッドの名前、「HP」って付けたのは自分なのに、最初、見付けられなかった……。せめて「HPのスキャナ」とでもしておけば良かった。「ヒューパ」なんて略しかたをすることはあるのでしょうか。あるいは「ヒュレパ」?


堀正人 さんからのコメント
( Date: 2000年 6月 19日 月曜日 23:35:18)

1〜2年前、誰だかが「ヒューパカ」と言ってるのを耳にした覚えがあるのですが、検索しても出てきませんね。発言者(結構年配者だったと思う)オリジナルの略称かもしれません。

両面印刷できるプリンタ、実勢価格36,800円とか。うーん、どうしよう…。


岡島昭浩 さんからのコメント
( Date: 2000年 6月 20日 火曜日 10:28:54)

 ヒューパカですか、アルパカみたいで面白いですね。
 私は、ワイエッチピーと言っていたので、ワイが抜けてからは、なんとなく物足りない感じでエッチピーと呼んでいるのです。

 どこかで、「HPへ」と書いておいてホームページではなくてヒューレットパッカードのwebへリンクしたら面白かろう、と書いてあったのを考えつつ、ここの題名もHPにしたのでした。


岡島昭浩 さんからのコメント
( Date: 2000年 9月 27日 水曜日 17:24:58)

 エプソンのスキャナに……、という話題だから別のところに書きます。

高羽五郎計画


岡島昭浩 さんからのコメント
( Date: 2001年 4月 06日 金曜日 11:51:02)

 インドネシアでは、HPは携帯電話の意味で使っているようだ。ハンディフォンかとおもったら、ハンドフォンのようだ。

ちなみに電話の略号はTELP(頭の中にビートルズの音楽が……)。


岡島昭浩 さんからのコメント
( Date: 2002年 08月 27日 火曜日 20:26:31)

 たまたま、似たようなことをしている人たちが居たのを見つけました。
シートフィーダーでざくざくとスキャンしている人たちです。

プリンタ型スキャナ


岡島昭浩 さんからのコメント
( Date: 2002年 08月 27日 火曜日 21:37:06)

 続いているようです。

【ADF】スキャナで連続取り込み


岡島昭浩 さんからのコメント
( Date: 2002年 08月 27日 火曜日 22:16:42)

 この会議室のどこかに、『大言海』や『大日本国語辞典』をスキャンした、と書いたと思ってたのですが、ありませんね。誰かへのメールだったのか。


岡島昭浩 さんからのコメント
( Date: 2003年 12月 16日 火曜日 22:15:29)

私が自宅で使っているのは、これです。

scansnap


Yeemar さんからのコメント
( Date: 2003年 12月 17日 水曜日 06:20:33)

「scansnap」の機能紹介の動画を見ました。いやはや、速そうですね。価格も手ごろで、さっそく入手したくなりました。しかし、私のエプソン「GT-7200U」(フラットベッドスキャナ)から乗り換えるには、校正の問題に不安を残します。

作成されたテキストファイルをどう使うかという目的にもよりますが、ある語句がテキストの中で何回用いられているか、などということを知ろうとすれば、校正をしっかりとしたいところです。私は、現状では、読みとりソフトで1ページ読みとるごとに、「原稿の画像」「テキスト文章」を左右に並べて表示しつつ校正しています。こうすると、ソフトが校正中の部分の文字を色つき表示してくれて、仕事がしやすく感じます(後に、プリントアウトしたり、音声読み上げソフトで読み上げさせたりして二校をします)。

先にテキストファイルの完成品が出来てしまうと、上のようにして校正することが出来ないと思われるのですが、どうでしょうか。

また、このスキャナは文章を読むことを主とするため、写真を精細にスキャンすることは出来なさそうですね。(そのためには、フラットベッドを捨てずに置いておけばよいわけですが。)


岡島昭浩 さんからのコメント
( Date: 2003年 12月 17日 水曜日 09:30:44)

 プロモーション動画は、多分、ノーマルモードでのスキャンでしょう。私は白黒2値では600dpi相当となる、「スーパーファインモード」でスキャンしておりますので、ああまでは速くありません。

 このscansnapの仕様として、twain対応ではない、というのがあります。多分、そのことによってパソコンへの転送速度を速くしているのだろうということですが、OCRソフトなどからの画像読み取りが出来ないわけです。

 そこで、私の使い方は、まず、Scansnapで画像PDFを作ります。これは100ページ分を作るのが普通です。その上で、同じpfuで頒布されているシェアウェアのScanbox(4000円)を使って、tiffに変換します。これはそのままマルチページのtiffにすることも可能ですし、一枚ずつのファイルに連番で変換することも可能です。

 そうしてから、OCRに掛けます。丁寧にOCRしたい時には、e.Typistで行います。e.Typistには、100ページまで、という制限があるので、先ほどの取り込み時に100ページ分で1ファイルにしているわけです。
 ざざっとOCRにかけておいて、という分には、読取革命2002を使います。これはページ数の制限は1000ページ。ただ、あまりに多いと途中で異常終了してしまいます。

Scanbox


Yeemar さんからのコメント
( Date: 2003年 12月 17日 水曜日 18:54:39)

「PDFファイルを作り、後にTIFFに変換する」ことで、後にOCRソフトで画面上で表示しながら校正することが可能になるわけですね。

私の現状では、本のページをめくってスキャナのガラス面に置き、OCRで読みとる作業が、どう急いでも1回につき30秒ほどかかります。300ページの本の場合、その作業のためには少なく見積もって30秒×150回=1時間15分、現実には2時間ぐらいはかかるわけで、この無為な時間が節約できるのはたいへん魅力です。

校正に要する時間も節約できればいいのですが。とりわけ写植でなく活字本の場合は、誤読が多く、校正にも時間がかかって困ります。途中で腹が立って全部手打ち作業に切り換えてしまったりします。


岡島昭浩 さんからのコメント
( Date: 2004年 03月 03日 水曜日 00:35:04)

丸谷才一『思考のレッスン』(文芸春秋1999.9.30)p168-9に、次のようにあります。

本はバラバラに破って読め
――もう一つ丸谷さんの読書でびっくりしたのは、本が本の形をなしていない。バラバラにされて本棚に置いてあったことです。
丸谷 僕は本をフェティシズムの対象にするつもりはまったくない。大事なのはテクストそれ自体であって、本ではないと思っているんです。美本を愛藏するといったような趣味はまったくありません。だから、平気で本に書き込みするし、破る、一冊の本を読みやすいようにバラバラにする(笑)。あれは出版社の人にはとてもいやがられるんだなあ(笑)。
――ちょっと心が痛みますね……。
丸谷 しかし、大事なのは、本という物体ではないんです。テクストを読んだとき、テクストと僕とのあいだで、ある種の幻想、観念が生じるわけでしょう。ロラン・バルトふうに言うと、テクストと読者とのあいだに電流が通じる。それがなければ単なる白い紙に黒いインキがついて汚れている物体にすぎないわけだから(笑)。
――原理原則としてはわかりますが、一冊一万円の『蕪村全集』をバラせるかというと、それはなかなか勇気の要ることですよね。
丸谷 うーん……『蕪村全集』ねえ。やっぱり一万円だったら、僕も心が怯《ひる》むかもしれないねえ(笑)。

私のばらしたもので、単価が最も高いのは『日本方言大辞典』でしょうか。三冊セットのを幾らで買ったのでしたか。六万ぐらいかな。とすると、それよりも『時代別国語大辞典 室町編』の方が高いかな、第一巻しか持ってなかったけれど。

破るのを躊躇するのは、値段よりも本の古さですね。書物としての価値、というのでしょうか、私自身は全然愛書家ではないけれども、これをばらすことで失われる情報がありそうだ、と感じる場合です。
古くても、後世の製本である場合などは、あまりひるまずにバラすことが出来ます。




posted by 岡島昭浩 at 17:04| Comment(0) | TrackBack(0) | ■初代「あれこれ会議室」 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック