第1回 導入、画像を工学的に視る

目次

イントロ

授業概要

この授業では、デジタル画像について学びます。
特に画像工学1では、人間がある対象を視たり、認識したりすること、そして視覚的に作品などを作り出すこと、それぞれをコンピューターで行うときのプロセスの違いに着目し、コンピュータービジョン(古典的な画像操作からはじまり、機械学習や深層学習における識別モデルと生成モデル、生成AI)を中心とした画像表現における工学的知識を学びます。
そして、それらの芸術との関わりや芸術的解釈、アーティストの実践なども紹介し、画像工学の知識を自身の表現に応用するための足がかりを身に着けます。

授業計画

第1回 導入、画像を工学的に視る
第2回 古典的画像操作と表現
第3回 OpenCVと表現
第4回 深層学習における識別モデルと表現
第5回 深層学習における生成モデルと表現
第6回 生成AIと表現1
第7回 生成AIと表現2

視る

私たちの視るということについて少し科学的な見方で説明してみます.


ものが見えるというのは光の反射を目で読み取っている状態のことをいいます.
図のりんごが赤く見えているという状態は,太陽光や電気などの白色光がりんごに当たり,りんごの持つ性質によって赤い光だけが反射して,その光を人間の目が読み取っているということになります.
逆に言えば,りんごは赤以外の光を吸収しているということでもあります.


外界からの光は角膜を通り虹彩で香料を絞られ,更に水晶体を通って眼球内に入り,網膜上にその像を結びます.
網膜にある視細胞は,目で捉えた情報を,視神経を通して脳に送ります.
角膜と水晶体がレンズの役割をはたし,網膜の視細胞が撮像素子(イメージセンサ)の役割を果たします.

色と光


私たちの目は,可視光と呼ばれる約380-780nmの波長の電磁波を網膜上の錐体細胞によって捉えています.網膜上には,S錐体,M錐体,L錐体という3種類の錐体がありそれぞれ455nm,530nm,575nm付近に感度のピークがあります.それに対するそれぞれの錐体細胞の応答量の比が異なるため,異なった色として識別されています.
光の三原色があるのは錐体が3種類であるためです.

色と認知

色の相対性などは認知科学的な世界(人の頭の中で起こる,個人差などを含む領域)になるので本授業では割愛します.
実際は私の専門はその領域も含むので,どこかで話したいと思いつつ.

画像を工学的に視る

普段みなさんが目にするデジタル画像では,jpg, png, tiff, などの様々な拡張子で扱われています.一例としてRGB系では,中身は1ピクセルごとにR(赤),G(緑),B(青)の値の加法混色で決まり,それがグリッド上に配置されることで1枚の画像を形成しています.場合によってはA(アルファ,不透明度)の情報やそのた高次元の情報ももつことができたり,色の分解能(どれだけの細かさで色の値を決めるか)も異なります.

  1. 2値画像
    個々の画素ごとに,白または黒のが措置をもつ画像.

  2. グレースケール画像
    白黒の濃淡を表現した画像

  3. カラー画像
    RGBの濃淡レベルで表される画像.
    256段階xRGBの1,678万色表現できるような画像をフルカラー画像と呼びます.

入力

デジタルカメラ

人間が視るというようなことがデジタルの世界ではどう行われているか,図で説明します.
まず物体が反射した光がレンズを通して,撮像素子に結像します.撮像素子は四角形で,面を細かい領域に分割し,それぞれの場所で光を読み取って電圧に変換していたりします.これを画像処理エンジンでデジタルのデータに起こし,最終的に記録メディアであるSDカードなどに保存されるというようなプロセスとなります.

出力

LEDモニタ

画像(image)は画素(pixel)がグリッド状に配置されて成り立っています.それぞれの画素は異なる色に調整されて,その色と場所の組み合わせによって,
一つの絵のように見えている
のです.
以下の画像は顕微鏡で観たディスプレイの画素です.よく見るとRGBが横並びになっている最小限の構成要素がグリッド状に並び,それぞれの強さが若干違います.このように私達が普段デジタルツールなどでRGBの値を決めて作ったテクスチャは最終的にこの画素の色の強さに直結していることがわかります.

画像出典元: AV Watch

印刷

たとえば網点という印刷技法があります.
画像はシアン,マゼンタ,イエロー,ブラックを塗るか塗らないかという限られた状況において,ドットの大きさや分布を工夫することで俯瞰してみたときに任意の色彩を再現しています.


画像出典元: Wikipedia

ビデオプロジェクタ

たとえばDLPプロジェクタは,ホイールとDLPチップの組み合わせにより任意の画像を再現します.ホイールはいくつかのカラーフィルタがつけられており,特定の色のフィルターを通ったときに透過光が発色しているという状態になります.さらに,DLPチップという細かい鏡がグリッド状に配置された素子で反射させることにより最終的に投影されます.その反射角度を工夫することにより,色の濃淡を再現します.