TOPページ
  >
スキャナー・スキャンの使いこなし術B
■OCRソフトの文字認識率の比較
Copyright (C) 2006-2017 株式会社 実践 All Rights Reserved.
スキャンブックス® および scanbooks® は、株式会社実践の商標登録です。
■OCRでテキストデータ化する方法
  前回、OCRソフトで透明テキスト付PDFにする際に、PDFのメリットがあるとご説明しましたが、今回は実際にOCRで透明テキスト付PDFにする方法をご紹介します。 | ||
  OCRとは「光学文字認識(Optical Character Recognition)」のことで、スキャンして読み取った画像から文字を特定し、テキストデータに変換する仕組みのことです。 | ||
  スキャンした画像ファイルをテキストデータに変換すると、デスクトップ検索やファイル内検索などによりファイル内の文書を全文検索することができます。   また、テキストデータとして取り出すこともできるので、テキストファイルとして保存したり、他の文書にコピー&ペーストすることも可能です。   ただし、大量の画像ファイルのデータ解析をすると少し時間がかかります。   また、どんなOCRソフトであっても認識精度は100%ということはなく、どうしても文字誤認が発生するため、完全に全て正しくテキストデータ化することはできません。   解析時間が短く、誤認率の低いソフトが、理想的なOCRソフトになります。 |
||
  今回、ご紹介するのはADFスキャナを購入すると同梱されている「Adobe Acrobat Standard」です。   「Adobe Acrobat Standard」は、最も代表的なPDF作成ソフトで、OCR機能も搭載されています。   別売りで購入することもできますが、別売りで購入すると3万円以上もする高価なソフトです。(弊社レンタルサービスでは「Adobe Acrobat Standard」はレンタル対象外となっております。ご了承ください) | ||
  「Adobe Acrobat Standard」を使えば、PDFファイルを「透明テキスト付PDF」にすることができます。 | ||
  また、テキストファイルとして取り出したい時は、「Adobe Reader」(Adobe社ウェブサイトから無料でダウンロード可能)で透明テキスト付ファイルを開き、「ファイル」→「テキストとして保存」でテキストファイルとして保存することができます。 | ||
  実際の認識精度(誤認率)は、下記の表を参考にしてください。 |
■OCRソフトの文字認識率の比較
|
|
350ページの画像データをOCRでテキストデータ化するのにかかる時間 [使用したPCのスペック] OS: Windows XP CPU: intel Centrino Duo 1.66GHz メモリー: 2GB |
|
実際の画像ファイル 200dpi   300dpi 日本語のみの文庫本形式の原稿は、300dpiでスキャンすればなんとか実用に堪えるレベルの認識率になることがわかります。 |
スキャン画質200dpiの場合 |
十九韻で上京した日ー初めて降りた深井の駅は新宿だった。天外が低い連絡油路をとめ
どなく流れていく人の波が怖かった。人が多すぎる、と思った。 牡非中の天才の中の天才たちが、国越のような国際機関によって秘密礎に弛められ '環 境問題や今後の人軒について貼しあった結 (. 人口半減化計画」を立て、全世界の人間 gr を人類にとって価値あると判断できる肴のみ生存を許可する という国際法を作ったとし t て、その国抑法の定めるところの 総合的な判断 r J によって 'もし自分が生存を許可され なかったとしたら、青んで受け入れようと思う。 その国際法によって定められた 総合的な判断益申しは、世界の天才たちが作った完全 r なる雀軌性を持つ人斯史上股高の判断必碑であり、しかも面倒な釈数や面接や診断も必輩ない。さらにそれは、知能・運動能力・柄気にならない遺伝 pi・・繋耕・犯罪旧・人穣・年齢 ・性別などに左右されることのない画期的な判断盛坤だ。 その判断韮準とは何か -日常生活において他者の捕助がなければ生活できないような決定的な賠省を持つこと。 他肴の生存が円らの生存の絶対粂件となるような紙背をもつ するように巡化していくことが、絶淑リスできない。人徹は地番の存在を決定的に内れ化クの府小化となる。人間は'他省の生存を否定 |
|
スキャン画質300dpiの場合 | |
三幸 3第十九歳で上京した日 '初めて降りた東京の駅は新宿だった。天井が低い連絡通路をとめどなく流れていく人の波が怖かった。人が多すぎるへと思った。世界中の天才の中の天才たちが '国連のような国際機関によって秘密譲に典められ '見境問題や今後の人類について話しあった結果 '「人口半減化計画」を立て、全世界の人間を人類にとって価値あると判断できる者のみ生存を許可する、という国際法を作ったとして'その国際法の定めるところの「総合的な判断」によって 'もし自分が生存を許可されなかったとしたら、喜んで受け入れようと思う。その国際法によって定められた「総合的な判断基準」は '世界の天才たちが作った完全なる客観性を持つ人類史上最高の判断基準であり 'しかも面倒な試験や面接や診断も必要ない。さらにそれは '知能・運動能力・病気にならない迫伝子・業節・犯罪暦・人種・年齢・性別などに左右されることのない画期的な判断基準だ。その判断基準とは何か -日常生活において他者の補助がなければ生活できないような決定的な障害を持つこと。 他者の生存が自らの生存の絶対条件となるような障害をもつ人間は '他者の生存を否定できない。人類は他者の存在を決定的に内在化するように進化していくことが、絶滅リスクの最小化となる。 |
|
実際の画像ファイル 200dpi   300dpi 英文字を含む文庫本形式の原稿の場合は、300dpiの解像度でスキャンしても英文字が勝手に大文字や小文字になっていたり、日本語も誤認識している漢字がいくつか見られます。 |
スキャン画質200dpiの場合 |
三℃3 スキャナー・スキャンの使いこなし術 pDFはメリットがない-ウ ワードやエクセルなどで作成した文磐をPDFでデータ保存するメリットは、簡S. には内容を改編できなくする'無料配布されているAcrobatReaderさえあれば、 pcにあらかじめインストールされているソフト原境によらず'閲・印刷が可催、などが挙げられま 贅 す。 そのため'様々などジTネスシーンでPDF形式で保存・利用されていますが'本や漫画や様態など~谷伸を画倣データとして保存・利用する幼合のpDF化メリットは次のような点になります。 @ Jpeg形式では 1ページごと別々のファイルとして保存されるがt pDFにすれば 1冊まるごと -つのファイルとしてまとめることができ、保存・コピー・ 地理しやすい。 Jr A ocRをかけて r透明テキスト付 pDFJとして依存すれば内容の検索が可能になる。しかし Iガで、沓輔データのpDF化には以下のようなデメリットがあります。 @ tpodや pspなど、.ハソコン以外のハードでは pDFで間架できない。 17Aスキャンした画像の 部を切り出して利用したり'加工することができない。 |
|
スキャン画質300dpiの場合 | |
三幸 スキャナ ー ・スキャンの使いこなし術 はメリットがない!?エクセルなどで作成した文怨を pDFワードや PDFでデータ保存するメリ ットは、簡単には 3第 内容を改編できなくする、無料配布されているAcrbatReaderさえあればt にあらか じめインストールされているソフト環境によらず'閲覧が挙げられま す。そのため'様々などジネスシーンでpDF形式で保存・利用されていますが、本や漫画や雑誌など、番縛を画像データとして保存・利用する場合のpDF化メリットは次のような点になります。 @jpeg形式では 1ページごと別々のファイルとして保存されるが、 pDFにすれば 1冊まるごと1つのファイルとしてまとめることができ'保存整理しやすい。 AocRをかけて「透明テキスト付pDF」として保存すれば内容の検索が可能になる。しかし t方で'脊籍データのpDF化には以下のようなデメリットがあります。 @iPodやpspなど、パソコン以外のハードではpoDFで閲覧できない. 17Aスキャンした画像の一部を切り出して利用したり'加工することができない。 c ・印刷が可能、など ・コピ p ー・ |
|
極小文字や図を含む 実際の画像ファイル 200dpi   300dpi 技術書や資格試験などのテキストをイメージした原稿の場合、図の注釈など、非常に細かい文字があるため一般的にOCRの認識精度がかなり落ちます。 300dpiの解像度の原稿でもかなり混乱した状況となっています。 |
スキャン画質200dpiの場合 |
BTS⊂anはフリ-ソフトなので下さ己のアドレスからダウンロードして下さい. ht pwwe(tOr⊂OJP /sf/l9/vwadaes otwn5hrwr/e11()tl 89Xhm の導入方法と使い方 ワードやエクセルなどで作成した文革芋を PDFでデータ保存するメリットは簡単には内容を改編できなくする、無料配布されている∧crobaiEモeaderさえあれば、pcにあらかじめインストールされているソフト環境によらず、閲覧・印刷が可稚、などが挙げられます。 そのため、様々などジネスシーンでPDF形式で保存・利用されていますが、本や艶画や雑誌など、恕符を画像データとして保存・利用する場合の PDF化メリットは次のような点になります。 図 1 BTSCanを起動したところ @ファイル名に付加する文字列を指定します。<>で囲9=れた中にYYYY(守)や MM (月)、DD(即などを入力すると、日付を指 定することもできます。 ◎出力ファイル亀に鵡号を含めるかどうか指定できます。 Bこれから取り込む園便データの番号を拍足します。ここに表示されている番号がファイル名に佃JX)され、画像を読み込むごとに増分値だけ白h的にil加していきます。rOJに戻したいときは.撤字部分をマウスでドラッグし反転表示させた状姓. また、 pDF化のメリットである「1つのファイルとしてまとめる」ことができる点も、 PDF化しなくても,JPCgのままひとつのフォルダに入れ、Zipファイルなどに閏めることができるので、 PDFだけのメリットにはなりえません。閲覧のしやすさについては、古いバーションの∧cr・ObaiReaderでは右開き・左開きの指定が変吏できない場合があるなど不便な点もありますが、」pegのままであれば、フリーソフトで用途に応じた様々などュ-ワソフトが出ています。特に「Leeyes」は、非常に使い勝手よくお勧めです。 以上から、 PDI化のメリットは、検索利用するために、OCRをかけ透明 Tテキスト付 pDFにする場合に限られるということになりますが現状はまだまだ誤認織も多く、実用的かどうかは判断が分かれるところですO そのため、弊社では北本的にJPCg形式でのデータ保存を推奨しております。 JPegで保存しておけば、必要に応じて PDFにすることも、OCRをかけて透明テキストィ、Jきにすることもできますし、もとのjpegフ7イルも残しておくこ 12 |
|
スキャン画質300dpiの場合 | |
スキャンするメリットとは?
BTScanの導入方法と使い方 ワードやェクセルなどで作成した文書を pDFでデータ保存するメリットは deaer Abcroa 簡単には内容を改編できなくする、無料配布されている tRさえあれば、pcにあらかじめインストールされているソフト環境によらず、閲覧・印刷が可能、などが挙げられます。 そのため、様々などジネスシーンでPDF形式で保存・利用されていますが、本や漫画や雑誌など、書籍を画像データとして保存・利用する場合の PDF化メリットは次のような点になります。 「 B定することもできます。 TSを起動したところ ⊂an す。<>で囲まれた中にY ので下吉己のアドレスからダウンロードして下さい。 ht 分侶だけ自動的に増加していきます.0 図 1 @ファイル名に付加する文字列を指定しま ( Y Y Y 年)やMM 、 (月)DD( 日)などを入力すると、日付を指 はフリーソフトな B出力ファイル名に番号を含めるかどうか指 定でき京す。 90 1 8 1e Bこれから取り込む画像データの番号を指定します。ここに表示されている番号がファイル名に付加され、画像を読み込むごとに増 」に 戻したいときは、数字部分をマウスでドラッグし反転表示させた状態。 また、PDF化のメリットである「1つのファイルとしてまとめる」ことが ip peg できる点も、PDF化しなくても、j のままひとつのフォルダに入れ、z ファイルなどに固めることができるので、PDFだけのメリットにはなりえま peg deaer Abcroa せんo閲覧のしやすさについては、古いバーションの tRでは右開き・左開きの指定が変更できない場合があるなど不便な点もありますが、j のままであれば、フリーソフトで用途に応じた様々などュ-ワソフトが出てい ます。特に Leeyes「 」は、非常に使い勝手よくお勧めです。 以上から、pDF化のメリットは、検索利用するために、OCRをかけ透明テキスト付 pDFにする場合に限られるということになりますが現状はまだまだ誤認識も多く、実用的かどうかは判断が分かれるところです。 ⊂anJtvecorcop www/ 'p s /hdarware/ 59wrn/ ftso/ ltmh peg peg pegj そのため、弊社では基本的にj形式でのデータ保存を推奨しております。 で保存しておけば、必要に応じて PDFにすることも、OCRをかけて透明テキスト付きにすることもできますし、もとのjファイルも残しておくこ 12 |
スキャンブックス® および scanbooks® は、株式会社実践の商標登録です。