從前有隻壞豬提示您:看後求收藏(第252章 淺度學習,讀書成神豪,從前有隻壞豬,大文學小說網),接著再看更方便。
請關閉瀏覽器的閱讀/暢讀/小說模式並且關閉廣告遮蔽過濾功能,避免出現內容無法顯示或者段落錯亂。
《自然》啊~
世界上最早的科學期刊之一,也是全世界最權威及最有名望的學術期刊之一。
版於1869年11月4日,到現在(2o15年)傳承都快一百五十年了~
而且在今天大多數科學期刊都專一於一個特殊的領域不同,《自然》是少數(其它類似期刊有《科學》和《美國國家科學院院刊》)依然表來自很多科學領域的一手研究論文的期刊。
在許多科學研究領域中,每年最重要、最前沿的研究結果是在《自然》中以短文章的形式表的。
儘管影響因子的評價不完全客觀,但4o+的影響因子可見一斑其影響力了~
儘管腦海中想了很多,但章杉還是不能完全理解在這上面文的概念~
就在章杉無比膨脹的時候,系統潑冷水了
“宿主在投稿o級論文的時候擁有1oo%的透過率,宿主在投稿1級論文的時候目前透過率為99%~”
“宿主投稿論文等級為n級別時,透過率相較o級每提高n級,將下降n2%的透過率~”
章杉。。。
得,白激動半天~
按照系統這個說法,將來投稿9級論文的時候只有19%的透過率了。
不過話說回來,目前系統裡面1級論文就是在naTuRe的節奏了。
9級論文將來在哪裡?
現在說來,投稿nature的話自然不是1oo%的過透過率了。
而是99%的過稿率~
雖然這聽起來很靠譜~
但章杉是一貫臉黑,99.99中獎率都有翻車的時候~
現在具體會是什麼結果,哪裡又能說得好呢~
對於投稿nature的那篇,章杉全然沒興趣了,反而是對那兩個o級論文章杉興趣更濃一些~
雖然這兩篇論文依舊是人類佼佼者才能企及的高度。
但以章杉的智慧他很快就搞清楚論文《Furtherapp1ineterativeadversaria1netorks》交代的來龍去脈
深度學習訓練一個模型需要很多的人工標註的資料。
在圖象識別裡面,經常可能需要上百萬的人工標註的資料,在語音識別裡面,可能需要成千上萬小時的人工標註的資料,機器翻譯更是需要數千萬的雙語句對做訓練,這些都是大資料的體現。
但是,很多時候找專家來標註資料是非常昂貴的,並且對一些應用而言,很難找到大規模的標註的資料,例如一些疑難雜症,或者是一些比較稀有的應用場景。
而標註資料的代價是極高的。
比如說對機器翻譯而言,現在如果請人工來翻譯,一個單詞的費用差不多是5—1o美分之間,一個句子平均長度差不多是3o個單詞,如果章杉需要標註一千萬個雙語句對,也就是章杉需要找專家翻譯一千萬句話,這個標註的費用差不多是22oo萬美元。
資料標註的費用是非常非常高的,讓一個創業公司或者一些剛剛涉足人工智慧的公司拿這麼大一筆資金來標註資料是很難或者是不太可行的。
因此當前深度學習的一個前沿就是如何從無標註的資料裡面進行學習。
而章杉這篇文章裡描述的生成式對抗網路就是起到這樣的作用。
生成式對抗網路的主要目的是學到一個生成模型,這樣生成式對抗網路可以生成很多影象,這種影象看起來就像真實的自然影象一樣。
生成式對抗網路解決這個問題的思路跟以前的方法不太一樣,生成式對抗網路是同時學習兩個神經網路一個神經網路生成影象,另外一個神經網路給影象進行分類,區分真實的影象和生成的影象。
在生成式對抗網路裡面,第一個神經網路也就是生成式神經網路,生成式對抗網路的目的是希望生成的影象非常像自然界的真實影象,這樣的話,那後面的第二個網路,也就是那個分類器沒辦法區分真實世界的影象和生成的影象;而第二個神經網路,也就是分類器,生成式對抗網路的目的是希望能夠正確的把生成的影象也就是假的影象和真實的自然界影象能夠區分開。
這兩個神經網路的目的其實是不一樣的,他們一起進行訓練,就可以得到一個很好的生成式神經網路。
生成式對抗網路最初提出的時候,主要是對於影象的生成。
章杉論文裡提出來的顯然是將該方法應用到各個不同的問題上。
不過論文的著重點還是章杉針對如何從無標註的資料進行學習!
在文中他提出了一個新思路,叫做對偶學習。
對偶學習的思路和前面生成式對抗學習會非常不一樣。
章杉現很多人工智慧的任務在結構上有對偶屬性。
在機器翻譯裡面,章杉把中文翻譯成英文,這是一個任務,但是章杉同樣也需要把英文翻譯成中文,這是一個對偶的任務。
這種原任務和對偶任務之間,他們的輸入和輸出正好是反著來的。
原本章杉還因為論文是系統弄得而心存愧疚,但現在看來這論文完全是照著他的思路去寫的。
因為之前對多門語言的卓越性。
章杉自己本人來寫這個論文的話,最可能想到的涉及對偶屬性的應用也是翻譯工作。
不過對偶工作不止於此。
在語音處理裡面,語音識別是把語音轉化成文字,語音合成是把文字轉化成語音,也是互為對偶的兩個任務。
本章未完,點選下一頁繼續閱讀。