人工智能濾鏡曾一度刷爆朋友圈,畫家Prisma、助成電影《你的為雷姓名》同款濾鏡都是如此,但人工智能在圖畫方面的鋒網發展遠不止這些。
除了打造“藝術濾鏡”,公開人工智能還能夠協助用戶依據需求生成圖片、畫家增加紋路、助成對本來像素很差的為雷圖片進行超分辯率處理,助你成為“畫家”。鋒網其間用到的公開技能也與最近很火的“生成對立網絡”(GANs)有關。
本期公開課,雷鋒網請到了圖普科技機器學習工程師 Vincent 為咱們揭開 AI 能夠助你成為“畫家”的助成隱秘。 Vincent 曾在英國留學兩年,為雷回國后參加圖普,鋒網擔任機器學習工程師一職,公開參加圖普多個產品的研制作業,立誓要搞深度學習搞到死。
嘉賓介紹:
Vincent,圖普科技機器學習工程師,首要從事工業級深度學習算法的研制。曾任摩根大通歐洲技能中心分析師,IBM愛丁堡辦公室軟件工程師。了解自然言語處理(文本分類,言語模型等),圖畫轉化(藝術濾鏡、圖片上色等)和分類算法。
以下內容章收拾自公開課共享。
|。深度神經網絡在圖畫辨認范疇的發展。
自從 2012 年 Alexnet 橫空出世,一舉奪得 ImageNet 圖片分類大賽冠軍之后,深度學習一飛沖天,以卷積網絡為首的深度神經網絡不斷改寫各種核算機視覺使命的 State-of –the-art 。曩昔四五年間,咱們能夠看到學術界不斷地開宣告各種不同結構的卷積神經網絡,并且,這些結構并不僅僅是在 Alexnet 的基礎上加深層數,而是自成一派,各有所長。
本次公開課要點共享三種神經網絡結構:
Network in Network(NIN,網絡中的網絡):卷積網絡是一種線性操作,非線性的體現才能有限,NIN 的研制者規劃了比起傳統的卷積網絡更雜亂的操作 —— MLPconv,并用 Global average pooling 極大的改進了卷積網絡的巨細。
VGG 和 GoogLeNet(inception_v1):二者是 2014 年 ImageNet 比賽的雙雄。VGG 的規劃理念,全部都用了 3x3 卷積,增加了網絡的深度。 GoogLeNet 歸于Google 的 Inception 系列,用了比較花式的網絡規劃,旨在削減網絡的運算量,加速練習 。
Resnet(深度殘差網絡): 依據無限迫臨定理(Universal Approximation Theorem),咱們能夠用一個一層的神經網絡來完結恣意的維到維的映射,但網絡的參數量(網絡的寬度)會跟著問題雜亂度的增加變得非常大,而增加網絡的深度則能夠讓咱們用更少的參數量完結相同的映射。可是,跟著神經網絡層數的加深,它們的練習也會變得越來越困難,因為在練習時會呈現梯度消失的情況。Resnet 很好的處理了這個問題,讓練習達1000多層的神經網絡變得或許。
除了圖片分類,以 RCNN 系列為首的神經網絡技能在物體檢測使命上也獲得了嚴重發展,近年來也呈現了速度更快(YOLO),作用更好的算法(SSD)。
最近很火的 GAN 是一個練習結構,在 GAN 呈現之前, 生成模型的練習是一件相對較困難的工作,GAN 呈現后,生成模型練習的功率大大進步。
GAN的使用大部分也是生成模型的使用,用來生成圖片、音樂、文字等。可是對立練習對練習判別模型也是有非常大的協助的,因為盡管有非線性的激活函數,但深度網絡依然是高度線性的,會對差錯進行累積,累積的差錯作用經過肉眼分辯不出來,可是能夠從卷積網絡中看出。但與一般線性模型不同,深度神經網絡能夠擬合對立練習能夠很好的處理這個問題,處理辦法是生成對立樣本,使得網絡對對立樣本的容忍性更強些。
GAN這一兩年來發生了許多非常有意思的使用,其間包含上期公開課中馮佳時博士說到的超分辯率,旨在把低分辯率的圖片擴大,而盡量不讓其清晰度受影響。
|紋路轉化。
近幾個月比較火的紋路轉化也便是所謂的圖片風格化,在深度學習之前,這也是一個非常困難的問題。其本質原因在于之前非深度學習的辦法只能獲取到方針圖片低層次的圖片特征,這導致這些辦法無法獨立的對圖片的語義內容和風格的改變進行有效地建模,然后無法很好地對兩者進行解耦和組成。
風格化算法現在更迭了兩代。
第一代風格化算法:Neural Style。
2015年的時分,德國圖賓根大學的學者們提出了一種用深度神經網絡各層的呼應來表達圖片的風格和內容的辦法,辦法可歸納為:
預備好在 ImageNet 數據集上練習好的 VGG 網絡,然后選取其間的某些層作為風格語義的提取層,某些層作為內容語義的提取層;
用這個練習好的 VGG 提取風格圖片代表風格的高層語義信息,詳細為,把風格圖片作為 VGG 的輸入,然后提取在風格語義選取層激活值的格拉姆矩陣(Gramian Matrix)。值得一提的是,格拉姆矩陣的數學含義使得其能夠很好地捕捉激活值之間的相關性,所以能很好地體現圖片的風格特征;
用 VGG 提取被風格化圖片代表內容的高層語義信息,詳細為,把該圖片作為 VGG 的輸入,然后提取內容語義提取層的激活值。這個辦法很好地利用了卷積神經網絡的性質,既捕捉了圖片元素的結構信息,又對細節有必定的容錯度;
隨機初始化一張圖片,然后用2,3介紹的辦法提取其風格,內容特征,然后將它們別離與風格圖片的風格特征,內容圖片的內容特征相減,再按必定的權重相加,作為優化的方針函數。
堅持 VGG 的權重不不變,直接對初始化的圖?做梯度下降,直至方針函數降至一個比較小的值。
這個辦法的風格化作用震動了學術界,但它的缺點也是清楚明了的,因為這種風格化辦法本質上是一個使用梯度下降迭代優化的進程,所以盡管其作用不不錯,可是風格化的速度較慢,處理一張圖片在GPU上大約需求十幾秒。deepart.io這個網站便是運用這個技能來進行圖片紋路轉化的。
第二代風格化算法:Fast Neural Style。
有了能夠解耦圖片風格和內容的辦法,咱們就能練習一個端到端的網絡,使得咱們只需求做一次前向,就能得到風格化圖片。因而生成圖片大約的過程是,依據轉化的網絡得到輸出,輸出至 VGG 網絡,提取風格特征后,跟風格圖片的特質做比較,內容圖片的特征也會被提取,跟內容圖片做比較。
這種算法的有點是速度快,能夠在GPU上做到實時生成。上一年年中火爆全國際的 Prisma,背面便是這個技能。但這個技能仍是有缺點的,比方因為卷積網絡固有的性質,它無法像手動繪圖相同對圖片的細節進行精挑細選的處理,所以它像是一個豪宕的印象派畫家,對一些對細節要求比較高的使命,比方人物的動漫化,這種辦法是不太合適的。
所以,前段時間?較流行的《你的姓名》同款濾鏡所用到的技能跟Prisma 并不相同,咱們猜想這個濾鏡不是端到端的,而是會先對原圖做像素切割,找出或許是天空的部分,然后加上新海誠特征的云,其他部分則會做一些濾鏡化處理。
紋路轉化的別的一個非常有意思的使用是Neural Doodle,運用這個技能,咱們能夠讓三歲的小孩子都輕易地像莫奈相同成為繪畫大師。這個技能本質上其實便是先對一幅國際名畫(比方皮埃爾-奧古斯特·雷諾阿的Bank of a River)做一個像素切割,得出它的語義圖,讓神經網絡學習每個區域的風格。
然后,咱們只需求像小孩子相同在這個語義圖上面涂鴉(比方,咱們想要在圖片的中心畫一條河,在右上方畫一棵樹),神經網絡就能依據語義圖上的區域烘托它,最終得出一幅印象派的高文。
咱們假如有重視 AI 范疇信息的話,或許也知道 Facebook 宣告了他們的 caffe2go 結構,并展現了他們在手機上的實時風格化視頻,這項作用含義嚴重,首要體現在能夠在手機端非常有功率的運轉人工智能的算法,把風趣的人工智能技能完結到你的手掌心。例如現在直播或視頻中能夠在人臉上增加各種心愛小動物表情的技能也是人工智能的技能,其首要運用了人臉要害點檢測技能。
完結視頻風格化的難點在于:
像圖畫風格化這樣的重型使用,假如要在手機上做到實時作用,需求有非常多工程上的優化和算法方面,在盡量不影響作用的前提下削減網絡的參數量;
?起單圖片風格化,視頻風格化需求考量的東西會更多,獨自對視頻的每一幀進行處理,不考慮幀與幀之間的相關,會形成風格化的視頻顫動和不協調。
|。是非相片上色。
最終一個要介紹的技能為是非相片上色(Colourful Image Colourization),幻想一下,假如人工智能超卓地完結這個使命,咱們便能夠用它來為老相片,老電影增色,輕易地為漫畫上色了。本次公開課我會首要介紹上一年 ECCV 里加州大學伯克利分校的一篇文章介紹的辦法。這個辦法與之前辦法的不同之處在于,它把相片上色看成是一個分類問題——猜測三百多種色彩在圖片每一個像素點上的概率散布。這種辦法tackle了這個使命自身的不確定性,例如,當你看到一個是非的蘋果時,你或許會覺得它是赤色的,但假如這個蘋果是青色的,其實也并沒有多少違和感。咱們也能夠到作者的網站網站來試用他們的demo。
這篇文章里邊介紹的辦法有兩個非常重要的trick:
色彩重平衡(Class rebalancing)。
咱們都知道,各個色彩在全國際一切彩色相片里邊的散布是不相同的。比方,大部分相片里邊或許會有天空,墻面,草地等。論文作者給出了 ImageNet 數據會集色彩的散布,能夠看出,假如用 LAB 的辦法來表明圖片(L 通道為像素的亮度,AB 通道表明色彩),ab 值比較低的色彩呈現的頻率遠高于其他色彩。
假如不考慮這個問題,咱們的方針函數會對 ab 值?比較高的色彩極端不靈敏。所以,論文作者提出了了一種辦法——在練習時讓每一個像素點乘上一個系數,系數的巨細與該像素點 ab 值的散布有關。運用這個trick,輸出圖片的色彩會更有多樣性,更挨近實在的圖片。
從概率散布得出猜測色彩值(Point estimate)。
咱們知道,這個網絡的輸出是各個像素點ab值的概率散布,那么咱們怎么去經過這個概率散布得出這個ab值呢?當然,咱們能夠直接挑選概率最大的值作為咱們的 prediction,這種做法下輸出圖片的色彩會愈加艷麗,但許多時分會有不自然的patch呈現。別的一種做法是,取這個概率散布的均值作為prediction,這會導致咱們的輸出圖片對比度非常低。作者在這篇文章里提出了一個折中的做法:咱們能夠調整Softmax 函數的 temperature,然后再求新的概率散布的均值。
這篇文章介紹的辦法盡管作用很好,但它仍是有缺點的。比方,對狗的圖片上色時,即便它沒有伸出舌頭,神經網絡總是會“幻想”它伸出了,然后在鼻子下面的一小塊區域涂上赤色。并且,上色后的圖片有時會呈現一小塊突兀的 patch。
以上介紹的幾個技能都并不是完美的,可是瑕不掩瑜,咱們能從中看到深度學習的潛力,理解它能做的遠遠不止是分類和檢測。我信任跟著社會對深度學習的熱心越來越大,更多風趣的作用會不斷發生。假如你覺得以上的技能很帥,那我確保,你的驚奇才剛剛開始。
|有關產品化的考慮。
當然,要把學術界的作用使用到工業界其實并不是一件容易的工作。咱們做機器學習的都知道一個聞名的定理叫No Free Lunch Theorem,它說的便是,咱們并不或許找到對一切問題都最優的算法。在ImageNet數據集上體現最好的算法,在工業級巨大、雜亂、多變的數據上并不必定就會體現好。所以咱們也依據各個客戶數據散布的不同做了許多特定的優化。比方咱們在為映客供給審閱服務,直播場景自身就非常多樣和雜亂,咱們發現當直播視頻界面呈現很多用手機或許電腦等電子產品播映另一個界面的內容,相對整個圖片來說,內容呈現部分所占份額很小且非常含糊、不明顯,當呈現色情、暴恐等不良信息的時分,人工以及標準化的審閱模型難以精準辨認,誤判、漏判的概率較高。所以咱們需求針對這個問題詳細優化,針對畫中畫的數據再做辨認,然后再調用一般的審閱模型。雷鋒網雷鋒網。
圖普的產品現在已經在多個行業范疇獲得很好的使用,但它們暫時只能在必定程度上削減大部分審閱人力,無法徹底代替人工。這一輪融資往后,咱們將加大在服務和核算才能方面的投入,進步產品運轉速度和魯棒性;在算法方面,持續進步圖畫辨認準確率和召回率,咱們的愿景是徹底解放審閱人力,咱們也將往審閱之外的其他方向擴張事務,如人臉辨認,增強實際等,供給更直接,高效和多樣化的使命。