蘋果公布首份人工智能報告

時間：2024-09-04 06:23:51 報告

蘋果公布首份人工智能報告

　　蘋果公司(以下簡稱“蘋果”)近日終于不再遮遮掩掩，發布了自己的首份人工智能研究報告。業內人士稱，這對蘋果將來推廣自己的人工智能應用大有裨益。

蘋果公布首份人工智能報告

　　蘋果本月初曾表示，將發布自己的人工智能研究報告。不到一個月的時間，蘋果就兌現了承諾。近日，蘋果發布了第一份關于人工智能的學術論文。這篇報告闡述了一項新技術，即如何通過計算機生成圖像、而非真實圖像來訓練一種算法的圖像識別能力。

　　蘋果在報告中稱，在機器學習研究中，使用合成圖像(例如，來自一款視頻游戲)來訓練神經網絡要比使用真實圖像更有效。因為合成圖像數據已經被標記和注釋，而真實的圖像數據需要有人耗費巨大的精力去標記計算機看到的每件事物，如一棵樹、一條狗或一輛自行車。

　　當然，使用合成圖像也存在一定的弊端，導致一種算法所了解的內容與真實世界中的場景有所不同。蘋果在報告中稱：“有時，合成圖像數據不夠真實，導致神經網絡只能了解到合成圖像中所呈現的細節，而對真實圖像的認識有所不足。”

　　為解決該問題，提高合成圖像數據的訓練效果，蘋果研究人員推出了“模擬+無監督”的學習方法，以提高模擬圖像的真實感。蘋果研究人員使用一種經過修改的新型機器學習技術，被稱為“生成對抗網絡”(GAN)，讓兩個神經網絡彼此對抗，從而生成更逼真的圖像。

　　這篇報告的第一作者是蘋果研究員阿希什·什里瓦斯特瓦(Ashish Shrivastava)，擁有馬里蘭大學帕克分校計算機視覺博士學位。有業內人士稱，對于蘋果而言，此次公開其首份人工智能研究報告也是一大進步。多年來，蘋果對其在人工智能領域的研究一直守口如瓶，這遭到了人工智能研究社區的批評。同時，這也影響了蘋果招募人工智能人才。

　　此外，此次公開自己的人工智能研究也有助于將來普及自己的人工智能軟件。如今，人工智能軟件正被應用到幾乎所有應用中，如iPhone 7的拍照功能，以及各種互聯網服務。

　　以下是報告全文：

　　摘要

　　隨著圖形技術不斷進步，利用合成圖像訓練機器學習模型變得越來越容易，這可以幫助避免注釋圖像的昂貴支出。然而，通過合成圖像訓練機器學習模型可能無法達到令人滿意的效果，因為合成圖像與真實圖像之間畢竟存在區別。為了減少這種差異，蘋果公司提出“模擬+無監督”學習方法，即通過計算機生成圖像或合成圖像來訓練算法的圖像識別能力。

　　事實上，這種“模擬+無監督”學習需要將無標注的真實圖像數據與已經注釋的合成圖像相結合。在很大程度上，它需要依賴生成式對抗網絡(GAN)的新機器學習技術，它可通過兩個神經網絡相互對抗以生成更加真實的圖像。蘋果公司對標準GAN算法進行了多處關鍵性修改，以保留注釋、避免偽影以及穩定性訓練：自正則化(self-regularization)-局部對抗性損失-使用精煉圖像升級鑒別器。

　　蘋果公司發現，這個過程可以產生高度逼真的圖像，在質量上和用戶研究方面都已經獲得證實。蘋果公司已經通過訓練模型評估視線水平和手勢姿態，對計算機生成圖像進行定量評估。通過使用合成圖像，蘋果公司的圖像識別算法已經取得了巨大進步。在沒有使用任何標準真實數據的情況下，蘋果公司在MPIIGaze數據集中獲得了最高水平的結果。

　　引言

　　隨著最近高容量深度神經學習網絡的崛起，大規模標注訓練數據集正變得日益重要。可是，標準數量龐大的數據集成本非常高，而且相當耗費時間。為此，使用合成圖像而非真實圖像訓練算法的想法開始出現，因為注釋已經可實現自動化。利用XBOX360外設Kinect評估人體姿勢以及其他任務，都是使用合成數據完成的。

　　(圖1：“模擬+無監督”學習：通過計算機生成圖像或合成圖像來訓練算法的圖像識別能力)

　　然而，由于合成圖像與真實圖像之間存在差距，使用合成圖像訓練算法可能產生很多問題。因為合成圖像通常不夠真實，導致神經網絡學習僅僅能夠了解到合成圖像中的細節，并不能完整地識別出真實圖像，進而也無法為算法提供精確的學習。一種解決方案就是改進模擬器，可是增加真實性的計算往往非常昂貴，渲染器的設計也更加困難。此外，即使最頂級的渲染器可能也無法模仿真實圖像中的所有特征。因此，缺少真實性可能導致算法過度擬合合成圖像中不真實的細節。

　　在這篇論文中，蘋果公司提出“模擬+無監督”學習的方法，其目的就是使用未標注真實數據的模擬器提高合成圖像的真實性。提高真實性可更好地幫助訓練機器學習模型，而且無需收集任何數據，也無需人類繼續標注圖像。除了增加真實性，“模擬+無監督”學習還應該保留注釋信息以用于訓練機器學習模型，比如圖一中的注視方向應被保留下來。此外，由于機器學習模型對合成數據中的偽影非常敏感，“模擬+無監督”學習也應該產生沒有偽影的圖像。

　　蘋果公司為“模擬+無監督”學習開發出新的方法，稱之為SimGAN，它可以利用稱之為“精煉器網絡(refiner network)”的神經網絡從模擬器中提煉合成圖像。圖二中展示了這種方法的概述：第一，黑盒子模擬器中生成合成圖像，然后利用“精煉器網絡”對其進行提煉。為了增加真實性，也就是“模擬+無監督”學習算法的首要需求，我們需要利用類似生成式對抗網絡(GAN)來訓練“精煉器網絡”，進而產生判別網絡無法區分真假的精煉圖像。

　　第二，為了保留合成圖像上的注釋信息，蘋果公司需要利用“自正則化損失”彌補對抗性損失，在合成圖像和精煉圖像之間進行修改。此外，我們還利用完全卷積神經網絡，在像素水平方面進行操作，并保留全局結構，而非整體修改圖像的內容。

　　第三，GAN框架要求訓練2個神經網絡進行對抗，它們的目標往往不夠穩定，傾向于產生偽影。為了避免漂移和產生更強的偽影，導致甄別更困難，我們需要限定鑒別器的接收區域為局部接收，而非整張圖片接收，這導致每張圖像都會產生多個局部對抗性損失。此外，蘋果公司還引入提高訓練穩定性的方法，即通過使用精煉圖像而非當前“精煉器網絡”中的現有圖像升級鑒別器。

　　1.1相關工作

　　GAN框架需要2個神經網絡競爭損失，即生成器與鑒別器。其中，生成器網絡的目標是在真實圖像上繪制隨機向量，而鑒別器網絡的目標則是區分生成圖像與真實圖像。GAN網絡是由古德弗羅(I. Goodfellow)等人首先引入的，它可以幫助生成逼真的視覺圖像。自從那以來，GAN已經有了許多改進，并被投入到有趣的應用中。

　　(圖2：SimGAN概觀：我們利用“精煉器網絡”提煉模擬器產生的輸出圖像，并最大限度地減少局部對抗性損失，并進行自正則化。

　　對抗性損失可以欺騙鑒別器網絡，從而令其將合成圖像誤認為真實圖像。而自正則化則會最大限度減少合成圖像與真實圖像的差異，包括保留注釋信息，并讓精煉圖像被用于訓練機器學習模型。“精煉器網絡”與鑒別器網絡也會交替升級。)

　　王(X. Wang)與古普塔(A. Gupta)利用結構化GAN學習表面法線，然后將其與Style GAN相結合，以生成天然的室內場景。我們提議使用對抗性訓練進行遞歸生成模型(recurrent generative model)訓練。此外，最近推出的iGAN能夠幫助用戶以交互模式改變圖像。劉(M.-Y. Liu)等人開發的CoGAN結合GAN可多模態聯合分布圖像，無需要求應對圖像的元組，這有利于開發出聯合發布解決方案。而陳(X. Chen)等人開發的InfoGAN是GAN信息理論的擴展，允許有意義的陳述學習。

　　恩杰爾路圖澤爾(Oncel Tuzel)等人利用GAN解決人臉圖像超高分辨率問題。李(C. Li)和王(M. Wand)提議MarKOvian GAN進行有效的紋理合成。洛特爾(W. Lotter)等人在LSTM網絡中利用對抗性損失進行視覺序列預測。于(L. Yu)等人提議SeqGAN框架，利用GAN強化學習。許多近來的問題都顯示出與生成模型領域相關的問題，比如PixelRNN可利用RNN的softmax損失預測像素順序。生成網絡側重于使用隨機噪聲矢量生成圖像，與我們的模型相比，其生成的圖像沒有任何標注信息，因此也無法用于訓練機器學習模型。

　　許多努力都在探索使用合成數據進行各種預測任務，包括視線評估、RGB圖像文本檢測與分類、字體識別、對象檢測、深度圖像中手部姿態評估、RGB-D場景識別、城市場景語義分割以及人體姿態評估等。蓋伊登(A. Gaidon)等人的研究表明，利用合成數據訓練深度神經網絡，可以提高其表現。我們的工作是對這些方法的補充，我們使用未標記真實數據提高了模擬器的真實性。

　　嘉寧(Y. Ganin)與萊姆皮茨基(V. Lempitsky)在數據域適應設置中利用合成數據，了解合成圖像與真實圖像域的變化過程中保持不變的特征。王(Z. Wang)等人利用合成和真實數據訓練層疊卷積碼自動編碼器，以便了解其字體檢測器ConvNet的低級表示形式。張(X. Zhang)等人學習多通道編碼，以便減少真實數據與合成數據的域的轉變。與經典域適應方法相反，它采用與特定的特征以便適應具體的預測任務，而我們可通過對抗性訓練，彌合圖像分布之間的差距。這種方法使我們能夠生成非常逼真的圖像，可以用于訓練任何機器學習模型，并執行潛在的更多任務。

　　2“模擬+無監督”學習

　　模擬+無監督學習的目標是使用一組未標記的真實圖像yi ∈ Y，學習可提煉合成圖像X的refiner Rθ(x)，其中θ屬于函數參數。讓我們用X?表示精煉圖像，然后會得出X?：θ= R(X)。在“模擬+無監督”學習中，最關鍵的要求就是精煉圖像X?，以便于其看起來更像真實圖像，同時保留來自模擬器的注釋信息。為此，我們建議通過最大化減少兩個損失的組合來學習：

　　其中，xi是e ith合成訓練圖像，X是相應的精煉圖像。第一部分是真實性成本，即向合成圖像中增加真實性的成本。第二部分則代表著通過最小化合成圖像精煉圖像的差異保存注釋信息的成本。在下面的章節中，我們會展開這個公式，并提供優化θ的算法。

　　2.1對抗性損失

　　為了向合成圖像中添加真實性，蘋果公司需要在合成圖形和真實圖像的分部之間建立起聯系。在理想情況下，精煉機可能無法將給定的圖像分類為真實圖像還是高度精煉圖像。這就需要使用對抗性的鑒頻器，網絡Dφ，它可訓練分辨圖像到底是真實圖像還是精煉圖像，而φ是鑒別器網絡參數。對抗性損失訓練refiner networkR，它負責欺騙D網絡，令其將精煉圖像誤認為是真實圖像。利用GAN方法，蘋果公司建造了2個神經網絡參與的極限博弈模型，并升級“精煉器網絡”Rθ和鑒別器網絡Dφ。接下來，蘋果公司更精確地描述這種模型。鑒別器網絡通過最大限度地減少以下損失來更新參數：

　　這相當于兩級分類問題產生的交叉熵誤差，其中Dφ(.)輸入的是合成圖像，而1 ? Dφ(.)則是真實圖像。至此，我們實現了Dφ作為ConvNet的最后輸出層，樣本很可能是精煉圖像。為了訓練這個網絡，每個小批量隨機抽取的樣本都由精煉合成圖像和真實圖像組成。對于每個yj來說，交叉熵的目標標簽損耗層為0，而每個x?i都對應1。然后通過隨機梯度下降(SGD)方式，φ會隨著小批量梯度損失而升級。在蘋果公司的實踐中，真實性損失函數使用訓練有素的鑒別器網路D如下：

　　通過最小化減小損失函數，“精煉器網絡”的力量促使鑒別器無法分辨出精煉圖像就是合成圖像。除了產生逼真的圖像外，“精煉器網絡”應該保存模擬器的注釋信息。舉例來說，用于評估視線的學習轉變不該改變凝視的方向，手部姿勢評估不應該改變肘部的位置。這是訓練機器學習模型使用配有模擬器注釋信息的精煉圖像的必要組成部分。為了實現這個目標，蘋果公司建議使用自正則化，它可以最大限度地減少合成圖像與精煉圖像之間的差異。

　　(算法1)

　　(圖3：局部對抗性損失的圖示。鑒別器網絡輸出wxh概率圖。對抗損失函數是局部塊上的交叉熵損失的總和。)

　　因此在蘋果公司的執行中，整體精煉損失函數(1)為：

　　(4)在||.||1是L1常模時，將Rθ作為一個完全卷積的神經網絡，而無需躍進或池化。在像素級別上修改合成圖像，而不是整體地修改圖像內容。例如在完全連接地編碼器網絡中便會如此，保留全局結構合注釋。蘋果公司通過交替地最小化LR(θ) 和LD(φ)來學習精化器和鑒別器參數。在更新Rθ的參數時，保持φ固定不變，而在更新Dφ時，則要保持θ不變。我們在算法1中描述了整個訓練過程。

　　(圖4：使用精細圖像歷史示意圖。相關信息請參閱文本描述。)

　　2.2本地對抗損失

　　精煉網絡另一個關鍵要求是，它應該學習模擬實際圖像特性，而不引入任何偽影。當訓練強鑒別器網絡時，精煉網絡傾向于過度強調某些圖像特征以欺騙當前鑒別器網絡，導致偏差和產生偽影。關鍵是任何我們從精化圖像中采樣的本地補丁都應該具有與真實圖像相類似的統計。由此可以定制本地鑒別器網絡對本地圖像補丁進行分類，而不是定義全局鑒別器網絡。

　　這不僅限制了接受域，還因此限制了鑒別器器網絡的容量，并且為每個圖像提供更多樣本以供學習鑒別器網絡。同時由于每個圖像由多個實際損失值，它還改善了精煉網絡的訓練。

　　在執行中，將鑒別器器D設計成一個完全卷積網絡，輸出偽類w × h概率圖。在后者中w × h是圖像中本地補丁的數量。在訓練精煉網絡時，將w×h本地補丁的交叉熵損失值求和，如圖3所示。

　　2.3使用精化圖像的歷史記錄更新鑒別器器

　　對抗訓練的對抗訓練的另一個問題是鑒別器器網絡只關注最新的精細圖像。這可能導致(i)與對抗訓練分歧，以及(ii)精煉網絡重新引入鑒別器已經忘記的工件。在整個訓練過程中的任何時間由精煉網絡生成的任何精細圖像對于鑒別器器來說都是偽造的圖像。因此，鑒別器應該有能力將這些圖像識別為假。基于這一觀察，我們引入了一種方法，通過使用精細圖像的歷史來提高對抗訓練的穩定性，而不僅僅是在當前小批次中小修小改。我們對算法1稍作改進，增加對先前網絡產生的精細圖像的緩沖。設B為此緩沖的大小，設b為算法1中使用的迷你批次大小。

　　(圖5：SimGAN輸出的圖像示例。左為MPIIGaze采集的實拍圖像，右為優化后的UnityEye合成圖像。從圖中可以看出精細合成圖像中的皮膚紋理和虹膜區都更近似真實而非合成圖像。)

　　(圖6：帶有兩個nxn卷積層的ResNet塊，每個都都具有f特征圖。)

　　在鑒別器器訓練的每次迭代中，通過對來自當前精煉網絡的b/2圖像進行采樣，以及從緩沖區采集額外b/2圖像，從而更新參數φ。保持緩沖區B大小固定，在每次迭代之后，蘋果公司使用新產生的精細圖像隨機替換緩沖區中的b/2樣本。該過程在圖4中標示出。

　　3.實驗

　　我們使用MPIIGaze [40，43]上的外貌估計數據集和紐約大學的手勢數據集 [35]來評估我們的方法。我們在所有實驗中使用完全卷積的精煉網絡與ResNet塊(圖6)。

　　3.1基于外貌的注視估計

　　注視估計是許多人機交互(HCI)任務的關鍵因素。然而，直接由眼睛圖像進行估計是有挑戰性的，特別是在圖像質量不佳時。例如智能手機或筆記本電腦前置攝像頭采集到的眼睛圖像。因此，為了生成大量注釋數據，最近幾次方法[40,43]用大量合成數據訓練它們的模型。在這里，我們展示使用SimGAN生成的精細合成圖像訓練顯著提高了任務的表現。

　　注視估計數據集包括使用眼睛注視合成器UnityEyes生成的1200萬樣本，以及來自MPIIGaze數據集的21,000實拍樣本。MPIIGaze的圖像樣本都是在各種照明條件不理想情況下捕捉到的圖像。而UnityEyes圖像都是在同一渲染環境下生成。

　　定性結果：圖5展示了合成生成的眼睛注視圖像以及經過處理的實拍圖像。如圖所示，我們觀察到合成圖像的顯著質量改進：SimGAN成功捕獲皮膚紋理，傳感器噪點以及虹膜區的外觀。請注意，我們的方法在改善真實性的同時保留了注釋信息(注視方向)。

　　‘視覺圖靈測試’：為了定量評估精細圖像的視覺質量，我們設計了一個簡單的用戶研究，要求受試者對圖像是屬于實拍或是合成進行區分。每個受試者被展示50張實拍圖像和50張合成圖像。在試驗中，受試者不斷觀看20個真假混雜的圖像，最終受試者很難分辨真實圖像和精細圖像之間的差異。在我們的總體分析中，10個受試者在1000次試驗中正確率只有517次(p=0.148)，跟隨機選差不多。表1展示了混淆矩陣。相比之下，當使用原始圖像和實拍圖像進行測試時，我們給每個受試者展示10個實拍和10個合成圖像，這種情況下受試者在200此實驗中選對了162次(p≤10-8)，結果明顯優于隨機選擇。

　　(表1：采用真實圖像和合成圖像進行的“視覺圖靈測試”。平均人類分類精度為51.7%，表明自動生成的精細圖像在視覺上已經達到以假亂真的程度。)

　　(圖7：使用MPIIGaze實拍樣本進行的眼睛注視估計的定量結果。曲線描述了不同測試數量下系統預估的誤差。圖示中使用精細圖像而不是合成圖像能顯著提高系統表現。)

　　定量結果：我們訓練了一個與[43]類似的簡單的卷積神經網絡(CNN)來對眼睛的注視方向進行預測。我們在UnityEyes上訓練，并在MPIIGaze上進行測試。圖7和表2比較了CNN分別使用合成數據以及SimGAN生成的精細數據的不同表現。我們觀察到SimGAN輸出訓練的表現有很大的提高，絕對百分比提高了22.3%。我們還發現訓練結果和訓練數據呈正相關——此處的4x指的是培訓數據集的100%。定量評估證實了圖5中觀察到的定性改進的價值，并且表明使用SimGAN能使機器學習模型有更好的表現。表3展示了同現有技術的比較，在精細圖像上訓練CNN的表現優于MPIGaze上的現有技術，相對改善了21%。這個巨大的改進顯示了我們的方法在許多HCI任務中的實際價值。

　　實施細節：精煉網絡Rθ是一個殘差網絡 (ResNet) 。每個ResNet塊由兩個卷積層組成，包含63個特征圖，如圖6所示。大小為55x35的輸入圖像和3x3的過濾器進行卷積，輸出64個特征圖。輸出通過4個ResNet塊傳遞。最后ResNet塊的輸出被傳遞到1x1卷積層，產生對應于精細合成圖像的1個特征圖。

　　(表2: 使用合成數據和SimGAN輸出進行訓練的比較。在無需監督真實數據的情況下，使用SimGAN輸出的圖像進行訓練表現出22.3%的優勢。)

　　(表3: SimGAN與MPIIGaze現有技術進行比較。R=真實圖像，S=合成圖像。誤差是以度為單位的平均眼睛注視估計誤差。對精細圖像的訓練帶來了2.1度的改進，相對現有技術提高了21%。)

　　鑒別器器網絡Dφ包含5個擴展層和2個最大合并層，分別為：(1)Conv3x3，stride = 2，特征映射= 96，(2)Conv3x3，stride = 2，特征映射= 64，( 3)MAXPool3x3，stride = 1，(4)Conv3x3，stride = 1，特征映射= 32，(5)Conv1x1，stride = 1，特征映射= 32，(6)Conv1x1，stride = 2，(7)Softmax。

　　對抗網絡是完全卷積的，并且已經被設計為使Rθ和Dφ中的最后層神經元的接受域是相似的。我們首先對Rθ網絡進行1000步的自正則化損失訓練，Dφ為200步。然后對于Dφ的每次更新，對應在算法中更新Rθ兩次。即Kd被設置為1，Kg被設置為50。

　　眼睛注視估計網絡同[43]類似，不過略作修改以使其更好地利用我們的大型合成數據集。輸入是35x55的灰度圖，通過5個卷積層，然后是3個完全連接的層，最后一個編碼三維注視向量：(1)Conv3x3，特征圖= 32，(2)Conv3x3 ，特征映射= 32，(3)Conv3×3，特征映射= 64，(4)Max- Pool3x3，stride = 2，(5)Conv3x3，特征映射= 80，(6)Conv3x3， MaxPool2x2，stride = 2，(8)FC9600，(9)FC1000，(10)FC3，(11)Eu- clidean loss。所有網絡都使用恒定的0.001學習速率和512批量大小進行訓練，直到驗證錯誤收斂。

　　3.2關于深度圖像的手勢圖像模擬

　　下一步，蘋果公司將用這宗方法對各種手勢的深度圖像進行模擬。在研究中，主要使用了紐約大學所提供的NYU手勢數據庫，其中包含72757個訓練樣本以及使用3臺Kinect相機所采集的8251個測試樣本，其中每個測試樣本包括一個正面手勢圖像以及兩個側面手勢圖像。而每一個深度圖像樣本都對手勢信息進行了標記，從而生成了合成圖像。圖10展示了手勢數據庫中的一個樣本。對數據庫樣本進行了預處理，利用合成圖像從真實圖像中提取了相應的像素點位。在使用深度學習網絡ConvNet進行處理之前，每個圖像樣本的分辨率大小被統一調整為224*224，背景值設置為零，前景值設置為原始深度值減2000。(此時假設背景分辨率為2000)。

　　圖10：NYU手勢數據庫。左圖為深度圖像樣本;右圖為處理后的合成圖像。

　　定性描述：圖11顯示了“生成對抗網絡”( SimGAN)對手勢數據庫的計算結果。由圖可知，真實深度圖像的噪聲已經邊緣化，且分布不連續。SimGAN能夠有效對原有圖像噪聲進行學習并模擬，從而產生出更加真實精細的合成圖像，且不需要在真實圖像上做出任何標記或注釋。

　　圖11： NYU手勢數據庫的精細測試圖像示例。左圖為真實圖像實像，右圖上為合成圖像，右圖下為來自蘋果生成對抗網絡的相應精細化輸出圖像。

　　實際圖像中的主要噪聲源是非平滑的邊緣噪聲。學習網絡能夠學習模擬真實圖像中存在的噪聲，重要的是不需要任何標記和注釋。

　　定量分析：

　　蘋果公司采用一種類似于Stacked Hourglass人體姿態算法的CNN仿真算法應用于真實圖像、合成圖像以及精細化合成圖像處理，與NYU手勢數據庫中的測試樣本進行對比。通過對其中14個手關節變換進行算法訓練。為了避免偏差，我們用單層神經網絡來分析算法對合成圖像的改進效果。圖12和表4顯示了關于算法對手勢數據庫進行處理的定量結果。其中由SimGAN輸出的精細化合成圖像顯著優于基于真實圖像進行訓練而產生的圖像，其更為逼真，比標準合成圖像高出了8.8%，其中仿真模擬輸出的注釋成本為零。同時要注意的是，3X代表圖像訓練選取了所有角度。

　　圖12：手勢估計的定量結果，關于NYU手勢測試集的真實深度圖像。

　　圖表顯示圖像與背景之間函數的累積曲線。可見，SimGAN輸出的精細化合成圖像顯著優于基于真實圖像進行訓練而產生的圖像，其更為逼真，比標準合成圖像高出了8.8%。重要的是，我們的學習網絡不需要對真實圖像進行標記。

　　表4：通過訓練生成各種手勢圖像的相似度。

　　Synthetic Data為一般網絡訓練產生的合成圖像，Real Data為真實圖像，Refined Synthetic Data為生成對抗網絡SimGAN輸出的精細化合成圖像。3X表示對真實圖像進行多角度模擬。

　　實現細節：關于手勢圖像判別的架構與眼睛圖像相同，但輸入圖像分辨率為224*224，濾波器大小為7*7，殘差網絡值為10。判別網絡D如下：(1)Conv7x7,

　　stride=4, feature maps=96, (2) Conv5x5, stride=2, feature maps=64, (3) MaxPool3x3, stride=2, (4) Conv3x3,stride=2, feature maps=32, (5) Conv1x1, stride=1, feature maps=32, (6) Conv1x1, stride=1, feature maps=2,(7) Softmax。

　　首先，會對R網絡進行自我規則化訓練500次，隨后引入D網絡訓練200次;隨后，每更新一次D網絡，就相應將R網絡進行兩次更新。在手勢估計中，我們采用Stacked Hourglass Net人體姿態算法輸出大小為64*64的熱點圖。我們在網絡學習中引入[-20,20]的隨機數據集來對不同角度的圖像進行訓練。直至驗證誤差有效收斂時，網絡訓練結束。

　　3.3對抗訓練的修正分析

　　首先蘋果公司比較了本地化對抗訓練以及全局對抗訓練的圖像偏差。在全局對抗中，判別網絡使用了完全連接層，從而使整個圖像相對于更加精細。而本地化對抗訓練則使得生成的圖像更為真實，如圖8所示。

　　圖8：左為全局對抗訓練結果，右為本地化對抗訓練結果。

　　顯示了全局對抗訓練與本地化對抗訓練的結果偏差。左圖生成的圖像更精細但不真實，右圖生成的圖像相對真實度更高。

　　接下來，在圖9中，顯示了使用反復訓練的歷史精細化圖像對判別網絡進行更新，并將其與標準對抗生成的合成圖像進行比較的結果。如圖所示，使用反復訓練的歷史精細化圖像刻產生更為真實的陰影，譬如在標準對抗訓練中，眼睛角落里沒有陰影。

　　圖9：使用歷史精細圖像對判別網絡進行更新的結果。

　　左圖：標準合成圖像;中圖：使用歷史數據對判別網絡進行更新后的圖像結果;右圖：使用近期歷史數據對判別網絡進行更新的圖像結果。如圖所示，使用反復訓練的歷史精細化圖像刻產生更為真實的陰影。

　　4.結論以及下一步工作

　　在文中，蘋果公司提出了一種“模擬+無監督”的機器學習方法，能夠有效提高模擬圖像的真實感。并描述了一種新的生成對抗網絡SimGAN，并將其應用于未經標注的真實圖像，獲得了最好的結果。下一步，蘋果公司將繼續探索為合成圖像建立更為逼真的精細圖像，同時研究如何對視頻進行處理。

【蘋果公布首份人工智能報告】相關文章：

公布調查報告12-11

蘋果調研報告08-19