眾創年代
隨著視覺運算應用在無人駕駛、工業生產、物聯網等,傳統以幀格(Frame)為基礎的視訊記錄方式,限制亦開始浮現,尤其在記錄高速活動,幀格率(Frame Rate)太少會流失資訊。
神經形態視覺(Neuromorphic vision)興起,而其中專門研究神經形態視覺的法國Prophesee,數月前推出基於事件視覺(Event-Based Vision)的視訊感應器Metavision,每個像素(Pixel)都是獨立和非同步。Prophesee剛在10月底市場上又再融資了2800萬美元,總融資額已達6800萬美元。
位於瑞士的初創iniVation,也率先推出神經形態視覺攝影機,付有開發套裝軟件,並且有同時可輸出事件視覺和幀格(Frame)神經形態視覺高質視訊。據廠商的公佈,此攝錄機還有超低延遲(<0.1 ms)、高動態範圍(>120 dB,比市面所有CMOS高)、還有超低功耗等優勢。幀格驅動技術亦可應用於神經形態視覺,偵察靜態物件也有優勢,iniVation攝影機同時支援兩種技術。
一般的視訊串流基於連續擷取幀格的技術,跟人眼看見事物的視覺暫留現象不一樣,人眼不將視訊記錄一連串的幀格,而將空間和時間變化,以極高效率將傳送至大腦。人類視覺系統可以在非常複雜的環境當中識別各種不同的物體,因此通過類比人類視覺系統來設計高效、低能耗的硬體視覺系統對未來的人工智慧應用具有重大的意義。
傳統的視訊連續播放幀格,變成仿似連續發生的動畫;人眼有約0.1-0.4秒左右的圖像暫留現象,動畫一般最高幀數不超過24,影像看來是連續發生,原因即在此。
不過,人眼其實是通过分辨連續光波流動信號;視覺皮層很短時間內保存一張圖像,收到信號時,大腦會通過早前保存圖像,與擷取新圖像之間的信號差異,合併並製造出一種「連續運動」幻覺,也即是所謂「平滑」的現象。
神經形態視覺模仿人眼,以非同步方式感測影像,像素以不同速率,各自決定對場景每一像素去擷取。不過有異於人類的神經形態視覺,神經形態視覺技術應用對像,不是人類,而是機器。
如果讀取視覺訊號的是機器,不會有視覺的暫留現象,某些一瞬即逝的訊號,若未能捕捉,可能造成災難。所以幀格錄取影像,除非幀率極快,否則可能流失非常多的資訊;以運動比賽為例,或者昆蟲震翅,必須高速攝影機,否則無法看到細節。
Prophesee開發出神經形態感測器,摹擬眼睛與大腦的機器學習演算法,以基於事件的視覺方法感知和處理,從而選擇有效場景,並可忽略不相關的事物。
基於事件的感測器中,每個素像都是非同步,而且獨立捕捉的訊號,不再由固定的幀率(Frame rate)控制,而從視訊幅度域變化控制,直至檢測到變化或運動才記錄下來。資訊也不是逐幀發送的,而是通過連續捕視訊獨立像率,解決幀格之間可能損失訊息的問題。事件感測器的解像度通常較低,功耗也相應為低。
記憶體模擬視網膜
香港理工大學柴揚教授也研發出兩端光控阻變記憶體(two-terminal optoelectronic resistive random access memory,ORRAM),也可應用在上述的神經形態視覺。
光控阻變記憶體將光探測、光存儲和光可調控的突觸塑性行為集成於一體,,也有助神經形態視覺發展,應用於仿神經形態的視覺感測器。上述記憶體陣列同時展示圖像探測、存儲以及預處理功能(例如,圖像對比度增強以及圖像背底雜訊的平滑),整合了傳感端圖像存儲和處理功能,具有甚大的商業應用前景。
光控阻變記憶體可表現光控可調,並且隨時間變化塑性,上述記憶體陣列可進一步模擬人眼視網膜功能,實現對圖像探測,同時可對圖像有預處理功能,解決CMOS不能處理神經形態視覺的難題。CMOS 圖像感測器雖然可即時探測光信號和圖像特徵,但同時會生成大量冗餘數據,佔用了大量存儲,也增高了耗能。