午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

從神經科學到計算機視覺:人類與計算機視覺五十年回顧

 昵稱16619343 2017-11-14

新智元 AI World2017世界人工智能大會開場視頻

中國人工智能資訊智庫社交主平臺新智元主辦的 AI WORLD 2017 世界人工智能大會11月8日在北京國家會議中心舉行,大會以“AI 新萬象,中國智能+”為主題,上百位AI領袖作了覆蓋技術、學術和產業(yè)最前沿的報告和討論,2000多名業(yè)內人士參會。新智元創(chuàng)始人兼CEO楊靜在會上發(fā)布全球首個AI專家互動資訊平臺“新智元V享圈”。

全程回顧新智元AI World 2017世界人工智能大會盛況:

新智元推薦

【新智元導讀】本文簡單的介紹了神經網絡近50年的發(fā)展歷程,從1968年的Hubel和Wiesel開展的貓實驗,一直到李飛飛教授等人的成果。從本質上講解了人工神經網絡的原理及學習過程,對于想了解神經網絡起源及發(fā)展歷程的讀者而言,是一篇較為合適的文章。

如何像人類大腦一樣完成一項視覺任務是復雜的,比如深度感知、目標跟蹤、邊緣檢測等,而掃描環(huán)境和定位是大腦經常做的事情,這些都被人們認為是理所當然的事情。在過去某段時間里,研究者們可能從來沒有想過創(chuàng)建類似人類大腦處理任務一樣的系統(tǒng)。然而,在過去的50年中,我們已經從神經科學中看似一些小的突破轉向能夠描述圖片中場景的“電腦”。

在神經科學課程教學過程中,有很多趣聞發(fā)生以幫助同學們更好地理解大腦是如何工作的。比如Phineas Gauge是一名美國的鐵路工人,在某次施工時遭遇爆炸事故,被一根鐵棍擊穿頭顱,幸運的是他活了下來,但是他的左額葉皮質受到損傷,導致語言障礙,同時也影響其生理性格;還有Britten的論文描述大腦何時再混亂的移動點鐘發(fā)現信號。所有這些零碎的研究開始加深我們對大腦如何工作的理解。

還有類似的一個例子,為人類視覺和計算機視覺的大量研究奠定了基礎,那就是著名的Hubel和Wiesel的研究。由于二人在心理學上的突出貢獻,獲得了1981年的諾貝爾和平獎,此外他們在視覺系統(tǒng)的信息處理方面也獲得了突破性的發(fā)現。他們打響了研究神經元的第一槍,他們通過連接一個電極到一個神經元上,就能夠聽到神經元對一條光的刺激作出的反應。他們對V1大腦皮層神經元的工作原理有了新的了解,這是令人興奮的新認識,該研究有助于闡明V1神經元的映射和相關功能。

在下面的視頻中,演示了 V1神經元是如何對待位置和角度的光條做出反應的,當光條移動時,就會有裂紋,這表明你聽到貓的神經元對刺激做出的反應。

視頻:http://v.youku.com/v_show/id_XNDc0MTg0NzA4.html?spm=5176.100239.blogcont241263.10.nADySV

通過這個實驗,他們演示了幾種類型的神經元只有在某些刺激下是如何被激活的,另一個有趣的特征是細胞似乎自然地映射到不同角度,如下圖所示,V1的每一部分都包含一組非常特殊的神經元,這些神經元通常對特定角度的光條作出反應。

這些細胞的反應以某種方式結合起來,理論上能夠創(chuàng)建一個自下向上的自然世界形象,也就是說,通過接收許多神經元對各種光條的反應,人類大腦開始繪制出周圍的圖景。

一晃近30年過去了,江山代有才人出,時代屬于Olshausen和David JField二位研究者。兩位研究人員都專注于計算神經科學領域,這個領域主要是研究大腦如何編碼和解碼信息,并推動了這個領域相關工作的進一步發(fā)展。事實上,他們在自己的工作中引用了Hubel和Wiesel的研究成果。此外,他們不只是注重單一的光條,還拍攝了照片,開始研究如何通過算法識別和編碼圖像內部的特征。

他們在1996年(20多年前)寫的一篇叫做自然圖像統(tǒng)計和高效編碼,本文的目的是討論在圖像識別應用中失敗的Hebbian學習模型。具體來說,Hebbian學習算法利用了主成分分析算法學習,但存在的問題是,該模型不能同時學習定位、定向以及帶通結構來繪制自然圖像。從理論上講,該模型部分源自于Hubel和Wiesel在關的研究成果,除此之外,對192個神經元的輸出進行了建模。

他們的研究表明,在對自然圖像客觀存在的規(guī)律進行編碼時,模型的建立更多地側重于稀疏性會使得模型更有效。

使用一個稀疏模型,該模型限制每個基函數列表所需的系數數目,來表示一個圖像中的各種特征,由下式證明:

其主體部分是為了找到實際圖像和函數表示圖像之間的最低平均誤差。

然后與代價函數一起迫使算法限制表示圖像表示所需的系數數量

使用梯度下降算法最大限度地減少表示圖像所需的系數數量,但是該篇論文自身還沒有顯示出能夠將特征轉化為圖像的神經網絡。

在1991年,互聯網剛剛普及?,F在科學已經從檢測貓的神經元對光條刺激的反應轉到神經網絡的數學模型,該模型能夠輸出圖像的實際特征。在1996年的那篇論文中,最后一行是“未來一項重要而令人興奮的挑戰(zhàn)將是如何將這些原理推理到更高級的皮層視覺領域以提供預測”。這是一個挑戰(zhàn),通過利用低級的特,然后創(chuàng)建一個自下而上的網絡模型來真正地預測一副圖像。

Olshausen等人的模型類似于上圖,如果你對深度學習了解的話,那么對這個輸出低級特征的矩陣看起來是不是非常熟悉。

在過去的幾年中,很多論文都使用了與上圖非常相似的矩陣,這些矩陣被用作卷積神經網絡的卷積層。可以發(fā)現,這應該是模擬單個神經元對視覺刺激的反應方式。

此時此刻,利用這些低層次的特征來預測圖像的實際背景不再是Olshausen等人論文中的最后一行中的理論猜想,這在今天變成了現實。

這同時也說明了神經元能夠識別光條的原因,神經網絡可以利用低層次的特征預測圖像所包含的信息。2015年斯坦福大學的Andrej Karpathy和李飛飛發(fā)表了一篇關于這一問題的重要論文——Deep Visual-Semantic Alignments for Generating Image Descriptions。在這篇論文中,演示了通過一個遞歸神經網絡能夠詳細描述圖像,如下圖所示,不僅僅只是指出了圖片中有一只貓或一只狗,而且能夠詳細描述圖像內容,比如“男孩在尾板上做后空翻”等。雖然現在它并不完美,但它相較于1968年而言,仍是一個跨越式的發(fā)展!

從1968年到現在,這是一個漫長的發(fā)展過程。本文引用的論文從1968年開始到2015結束都快有50年的時間。然而,從大局來看,神經網絡的發(fā)展只會越來越快,它不僅僅只是用來識別圖像,還被用于醫(yī)學圖像的癌癥檢測、預測人類的情感表達、自動駕駛等等各個領域。

接下來的50年里,計算機視覺的發(fā)展前景如何?歡迎廣大讀者留言發(fā)表自己的看法。

作者信息

SeattleDataGuy,軟件工程師,專注于機器學習、深度學習以及數據科學。

本文由北郵@愛可可-愛生活老師推薦,阿里云云棲社區(qū)組織翻譯。

    本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發(fā)布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發(fā)現有害或侵權內容,請點擊一鍵舉報。
    轉藏 分享 獻花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多