完全に一致

日本工業標準調査会 (JISC) のサイトで見ることが出来る PDF が奇妙だということを先日の記事に書いた。
id:SaitoAtsushi:20110323:1300889237
画像化された文書の上に見えない文字がある構成という話だ。
これについて shiro さんからコメントをもらった。

shiro 2011/03/25 03:21
OCR にはそういう pdf を生成する機能がありますよね。 もしかすると一度紙にしてスキャンしてから OCR かけている?
「紙が決定的な一次資料であり、利用者の便宜のためにOCRをかけている」みたいな規則があって杓子定規に運用されてるとかでしょうか… 謎ですね。

http://d.hatena.ne.jp/SaitoAtsushi/20110323/1300889237#c1300990893

OCR ソフトでそのような機能を持つものがあるとは知らなかったが、正式な書類は紙という思想は珍しいものではないので、いかにもありそうな話だと思える。
折角なので検証してみようと OCR 特有の誤認識を探してみた。 その結果、誤認識らしき部分は全く見付からなかった。 それどころか、画像とテキストは記号部分も含めてピッタリと完全に一致しているのだ。 さすがに OCR でここまでの精度は無理だろう。
画像化されている文書は黒文字で、その上にテキストを赤で可視化したものがこれだ。
f:id:SaitoAtsushi:20110325202827p:image
英数字に関してはフォントまで一致しているように見える。 日本語部分はズレが大きいが、本来想定しているフォントが私の環境にないためだろう。 フォント埋め込みはしていないようだ。
そういう経緯でフォント関連の事情があるのではないかと思い至った。 権利関係の事情でフォントを埋め込むわけにはいかないが、読む環境によって表示が狂うのも好ましくないので画像にしてしまおう。 そんなところではないだろうか。
Document ID: a01afd0afdd4c5aa26fff5f5b602810e