画像処理技術の歴史的変遷

まず画像処理技術の歴史的な変遷を表に示します．

古典的な画像処理技術（1960年代〜1990年代）

技術名	簡単な内容	年
二値化（Thresholding）	ピクセル値を閾値で白黒に分離	1960年代
エッジ検出（Sobel, Prewitt）	微分フィルタによる輪郭抽出	1968, 1970
フレーム間差分	連続フレームの引き算による動き検出	1970年代
メディアンフィルタ	ノイズ除去のための中央値フィルタ	1971
Hough変換	直線や円などの幾何学図形の検出	1972
ヒストグラム均等化	コントラスト強調	1970年代
モルフォロジー演算	膨張・収縮による形状処理	1960-70年代
ブロブ解析	連結領域の検出と特徴抽出	1970年代
Canny法	最適なエッジ検出アルゴリズム	1986
Lucas-Kanade法	オプティカルフローによる動き推定	1981
Harris コーナー検出	特徴点としてのコーナー検出	1988
ガウシアンフィルタ	平滑化処理	1980年代

OpenCV時代の技術（1999年〜）

技術名	簡単な内容	年
OpenCVリリース	統合画像処理ライブラリの登場	1999
Haar Cascade	機械学習ベースの顔検出	2001
SIFT	スケール不変特徴量検出	1999/2004
Mean Shift	確率密度推定による物体追跡	2000年代初頭
SURF	SIFTの高速版	2006
HOG	勾配方向ヒストグラムによる物体検出	2005
Farneback法	高精度オプティカルフロー	2003
FAST	高速コーナー検出	2006
ORB	特許フリーの特徴点検出器	2011
MOG/MOG2	混合ガウス分布による背景差分	2001/2004
AKAZE	高速な特徴点検出	2013
DNN モジュール	深層学習モデルの統合	2017
YOLO統合	リアルタイム物体検出	2016〜
顔認識（深層学習）	CNN/Dlib統合による高精度顔認識	2015〜

技術的転換点

1960-80年代: 基本的な画像処理アルゴリズムの確立
1990年代: コンピュータビジョンの理論的発展
1999年: OpenCVリリース、技術の民主化
2000年代: 機械学習の統合
2010年代: 深層学習の本格的導入

代表的な古典的画像処理の技術解説

代表的な処理について説明します．
画像が画素の連なりでしかないことは前回やりました．
では，「ここにこれがある」「境界線がここ」などどうやってわかるのでしょうか？それをひとまず古典的な技術で説明します．

2値化

白い紙に黒い文字が印刷された文書は，人間には2色しかないという認知ですが，実際には特に境界付近で細かなグレースケールで構成されています．これに対してある値以上なのか，未満なのかで数値的にも0か1かの2値に無理やり分けるような処理を2値化といいます．

実際に画像処理された画像と元画像を比較するとこのようになります．

また，適当なしきい値を決める方法として，判別分析方がよく用いられます．
しきい値で分けられる
– 画素数ω₁, ω₂
– 分散σ₁, σ₂
としたとき，
(ω₁σ₁² + ω₂σ₂²)
が最小値になる値tをとります．

領域分割処理

画素または小領域の特徴量に基づいて，画像を隣接画像の集合，すなわち領域に分割する処理です．それを応用することによって，シルエット抽出やエッジ検出が可能になったりします．

領域統合法

以下のような作業を行い，領域を分割します．

ある画素にラベルをつける
上下左右または近傍8箇所を調べて色が同じなら同じラベルをつける
同じラベルを付ける場所がなくなったらまた，色の違うある画素について同じことを行う
同じラベルごとに平均化する

ミーンシフトによる隣接画素の結合

たとえば，カラー画像の画素を，位置パラメータ（x, y）＋色パラメータ（R, G, B）の5次元の特徴空間にばらまかれた点群として扱います．そのなかで近い画素同士をミーンシフトで移動させます．
ミーンシフトは，ある点を中心とした円に入る点群の重心に中心点を移動させ，動かなくなるまでその処理を繰り返す手法です．

エッジ処理，シルエット抽出

領域分割を施した画像をうまく用いて，エッジを抽出したり，人のいる領域だけを切り取ったりしてシルエットが抽出できたりします

作品紹介

それでは最後に，OpenCV以前のより古典的な画像処理技術を使った作品群を紹介します．

Wooden Mirror (1999) Daniel Rozin

ピクセル状に分けた木のグリッドに対して，回転角をピクセル値に割り当てることによって，木と光の具合で明暗をマッピングし，鏡のように見せています．

Videoplace, Responsive Environment (1972-1990s) Myron Krueger

1970年代からComputer Visionを用いた制作を行なっていました．カメラで観客のシルエットを捉え，単純な二値化処理でシルエット抽出を行い，グラフィックと合成しました．リアルタイムでのシルエット抽出と投影という技術は，当時極めて革新的でした．
OpenCV技術は彼への敬意を評して作られている経緯があります．

Very Nervous System (1982-1991) David Rokeby

David Rokebyが1986年から1990年にかけて開発したインタラクティブ・サウンド・インスタレーションです．カメラで捉えた身体の動きをリアルタイムに音に変換する，コンピュータビジョンを用いた初期の重要作品の一つです．フレーム間差分を用いて，連続するフレームを比較して動きのある領域を検出し音を出したり，画面を複数のゾーンに分割してそれぞれに展開を割り当てたりしています．

Beyond the Pages (1995) 藤幡正樹

このインタラクティブ・インスタレーションは，物理的な本とデジタル映像を融合させた，拡張現実（AR）の先駆的作品として知られています．
実物の白い本をのページをめくると，その動作に応じてデジタルコンテンツが表示されます．技術的には，天井に設置されたカメラが本の位置や開き具合を検出・計算して，プロジェクターで本の形状に合わせて映像を投影マッピングします．

metaDESK (1997) Brygg Ullmer, Hiroshi Ishii

小さな円盤状のオブジェクトを机上に配置し，机の下に設置された赤外線センサーによってパックの位置を検出して机の表面に地図を投影します．レンズやスケーラなど多種多様な道具を物理的に扱えることが特徴です．

Computerを使うということ

Media artにおいてComputerを使うということは，大胆に言うと何かを何かに変換するということです．
これまでみなさんが習ってきたTouchDesignerを用いたプログラミングは，変換プロセスの方法を学んでいたということになります．
今からそういった視点で作品を見たり，考えたりしてみます．

メディアアートおみくじ (2008) 水野渚

http://web.archive.org/web/20100717174349/http://www.iamas.ac.jp/~ngs08/mediaartomikuji/array.php

Media artにおけるmapping問題

多くのメディアアートの作品には，コンピュータによる処理が伴います．
mapping問題とはどこかで聞いた言葉を使っているんですが，図のようにコンピュータのプロセスでうまくマッピングしないと必然性のない作品になってしまうリスクがあります．原因と結果を意図的に離す場合を除いて，基本的にはセンシングした入力が何らかの形で出力につながっているとわかることが非常に重要です．

Scott Allen

Evangelist of ZOGAKU, SEZO. Visual media artist.

第2回古典的画像操作と表現

目次