③コード情報（電子文書）とイメージ情報（電子化文書）の基礎

コード情報（電子文書）とイメージ情報（電子化文書）の基礎

文字情報のコード情報入力

コード情報とは
コード情報とは文書情報のなかでも文字を中心とした情報、あるいはイメージ情報を検索するための索引となる目的で入力されている情報のことで、文字コードによって認識される情報のことである。

コード情報の入力方法
①キーボードからの入力
キーボードからの直接入力が基本の入力方法である。
タイピングミス等が発生しがちとなるため、重要なキー項目にはシステム的にチェックデジットなどを利用して正確さをはかる必要がある。

②OCR機器からの入力方法
OCR（Optical Character Recognition）とは、光学的に読み取ったイメージ情報から、文字情報を読み取ってコード情報に変換する技術である。
スキャナから原稿を読み取った状態ではビットマップのイメージ情報なのでコード情報に変換する必要がある。
この変換を、OCR解析という。
OCR解析には、ハードウェアとソフトウェアの両方を利用して解析する方法と、ソフトウェアだけで解析する方法がある。

③バーコードからの入力方法
バーコードとは、白と色地（通常は黒）の線の集まりと、その線の太さによって特定のコードを対応させたもので、この縞模様を光学的に読み取ることにより、コードを認識する。
日本でJIS 規格化された「総合標準バーコード」は、JAN、標準ITF、CODE-128、CODE39、NW-7の5種類がある。

■１次元バーコードの例■

■２次元バーコードの例■

④OMR機器からの入力方法
OMR（Optical Mark Recognition）とは、あらかじめ定められた個所に印刷されているマークをチェックすることにより、その情報の意味を解析して入力情報として利用する方法である。
OCRとの決定的な違いは、マークすることによって判断されるので、原稿の汚れ以外ではほとんど解析ミスがない。
当然、読み取りスピードも解析スピードも速くなる。

文字コードと文字フォント

文字と文字コード
文字は小さな点（ドット）の集合で表すことができる。
文字を純粋にイメージで保存すると１つの文字でも大量のデータ量が必要とされる。
そこで、１つ１つの文字をイメージで表すのではなく、文字に付けた固有の番号で管理する方法が考えだされた。
つまり、人の目で見える時だけ、保存している文字イメージを参照して、文字として復元して見せる。
このようにあるものを違った形に変えることを「符号化（エンコード）」といい、逆に符号化されたものを元に戻すことを「複合化（デコード）」という。
一般に「文字コード」と呼ばれているのは、この符号化された文字番号（情報交換用符号）のことなのである。

1バイトの文字コード
文字種の少ない欧米では、7ビットもしくは8ビットのコードを使う。
ISOやJISで定められた、0から127までの128個のコードに英文字や記号・制御コードを割り当てている。
これを標準規格という。
8ビットでは0から255までの256種類の文字が使用できるが、7ビットと重複する部分はそのままにして、増えた128個に新しいコードを割り当てる方法が採られている。

文字コードと文字フォント
文字コードはデコードによってコードをイメージに変換していく。
文字イメージが収められたデータを「フォント」といい、OS側が持っていたり、プリンタ等の出力デバイス側に備わっている場合もある。

フォントの種類

① ビットマップフォント
ビットマップフォントのデータは、0・1のビットマップデータである。
大きく表示した場合、ギザギザが目立ってしまう。
② アウトラインフォント
アウトラインフォントは座標値としてデータを持っており、画面表示や印刷する時に表示サイズに合わせてビットマップデータが生成されるので常に滑らかである。

ビットマップフォント

アウトラインフォント

イメージ情報に関する基礎知識

デジタルとアナログの変換について

実生活のほとんどはアナログ情報である。
しかし、コンピュータは全ての情報をデジタルで表現する。
そのため、実世界のデータをパソコンに入力するには、アナログ情報からデジタル情報への変換作業が必ず必要になる。

① アナログデータからデジタルデータへ　（A/D変換）
アナログ信号をデジタルデータとして符号化し、ハードディスクなどに取り込む。
これをサンプリングあるいは標本化という。

② デジタルデータからアナログデータへ　（D/A変換）
ハードディスク内のファイルを読み、このデータをもとに１つ１つの標本の大きさを復元する。

イメージ情報のタイプ

① ビットマップデータ
ビットマップは小さな点で画像を表現する仕組みで、その画像を描く最小の単位は「画（picture）」と「要素（element）」という意味を合わせて、「画素（pixel）」と呼ぶ。
また単に「点（dot）」とも呼ばれている。
ビットマップは１つの画像（イメージ）を１つ１つの小さな点で表現する。
従って、その特性上、画素が小さいほど精密な画像が描けることになる。

この画素の細かさ単位を「解像度」といい、1インチ当たりの画素数で表す。
単位は「dpi（ドットピッチ：dot per inch）」という。

② ベクトルデータ
ベクトルデータは、画像を「書き方の命令」の集まりととらえ、CADなどで利用されているデータである。

画質について

画像の品質（画質）を決める要素には次のものがある。
①画素数、②階調数、③画像のダイナミックレンジとS/N 比

① 画素数
画像を構成する画素の数を画素数という。
画素数が多いほど品質は良くなるが、ファイルサイズが大きくなるため、出力時間やパソコンでの処理時間がかかるなどの問題も発生する。
特にネットワークを通じて送受信する際には、ネットワークの環境により通信時間などが問題となることが多いので、画素数を多くすることがよいのではなく、使いやすさとのバランスから画素数の決定が必要である。
人間の目の解像力は20 dot/mm 程度である。
一般のカラー画像では、300 dpi （11.8 dot/mm 相当）とすればまず満足する値となる。

② 階調数
カラーやグレースケールの調子の段階を階調という。
デジタル信号は文字原稿のような白黒のみの画像では、２値情報が使われることが多いが、写真などの連続の階調を持った原稿では多値の情報を使用する。
パソコンが扱いやすい単位として8bit が使われるケースが多い。
8bitは2の8乗で256の階調を表す。
カラーの場合は、RGBそれぞれの色に256階調を持たせると、256×256×256＝16,777,216色の再現ができることになる。
8bitの256階調では滑らかなトーンのある明るさの変わり目などで段差が出てしまうことがあるので、デジタル化の前に明るい部分と暗い部分で階調に差をつけ（非線形処理）、段差を目立たなくする処理をする場合である。
また、階調数を16bit、24bitにすることもある。

③画像のダイナミックレンジとS/N 比
入力する光学的な画像に対して信号として受け取ることのできる明るさの範囲、または再現できる明るさの範囲の能力をダイナミックレンジという。
スキャナで画像を取り込む際に、スキャナのダイナミックレンジが被写体である資料の濃度レンジより狭いと、低濃度側や高濃度側の階調（濃度変化）がなくなってしまう。
特にカラー写真をスキャンする時には、このダイナミックレンジに気をつける必要がある。
SN比は、信号（S）と雑音（N）の比で、この値が大きいほどよい画質になる。
ノイズが多いと、信号がノイズに打ち消されて、ダイナミックレンジは打ち消されてしまう。
画像をクッキリさせるような処理をするときにSN比が低いと、ざらついた汚い画像になってしまうので、SN比にあった画像処理にをする必要がある。

モノクロ画像のデジタル化

モノクロ画像には、大きくわけて２値（白か黒）とグレースケールに分けることができる。

① 白黒２階調（２値）
画像の各ピクセルを、白か黒のいずれかにあてはめることにより、表現する方法である。
（例：FAXなどで出力される文字原稿）
1画像を1ビットに対応させているだけで色成分を保存しておく必要がないため、データは最もコンパクトである。

② グレースケール
モノクロ写真のようなアナログの画像は、各点ごとに明るさの決まった連続的なデータである。

③ カラー画像
２級の範囲外

①文書情報マネジメントとは？

②コンピュータの基礎知識

③コード情報（電子文書）とイメージ情報（電子化文書）の基礎

④イメージ情報の入力・検索・保存

⑤アナログ（マイクロフィルム）とデジタルのハイブリッド（融合）

出典：デジタル化に対応した文書情報マネジメントの基礎と応用
（社）日本画像情報マネジメント協会新資格準備委員会編