當(dāng)前位置:主頁 > 就業(yè)服務(wù) > 就業(yè)新聞 > 機器學(xué)習(xí):網(wǎng)絡(luò)攻防新利器 > 正文
機器學(xué)習(xí):網(wǎng)絡(luò)攻防新利器
2017-07-13作者:四川新華編輯來源:科學(xué)網(wǎng)點擊:次
亞信網(wǎng)絡(luò)安全產(chǎn)業(yè)技術(shù)研究院副院長童寧做《機器學(xué)習(xí)驅(qū)動網(wǎng)絡(luò)安全發(fā)展》的分享

在人工智能時代,各行各業(yè)最怕聽到的是“取代”:人工智能被認(rèn)為將一步步取代法官、取代速記員,取代建筑工人和出租車司機……不過,目前在許多行業(yè),人工智能仍然只能扮演配角,網(wǎng)絡(luò)安全就是其中之一。
“就安全領(lǐng)域來講,我們把人工智能當(dāng)成一種幫助安全專家更有效地工作的一個工具。在可見的未來,還是需要領(lǐng)域?qū)<液途W(wǎng)絡(luò)安全專家來主導(dǎo)。”7月6日~7日,在成都召開的C3安全峰會上,亞信安全通用安全產(chǎn)品中心總經(jīng)理、亞信網(wǎng)絡(luò)安全產(chǎn)業(yè)技術(shù)研究院副院長童寧在接受《中國科學(xué)報》記者專訪時表示,機器學(xué)習(xí)的確提供了強有力的幫助,但在當(dāng)前網(wǎng)絡(luò)攻防態(tài)勢下,機器學(xué)習(xí)也難以“一肩挑”。
不過,隨著對機器學(xué)習(xí)這件工具開發(fā)、利用得逐漸深入,網(wǎng)絡(luò)安全正在進入網(wǎng)絡(luò)攻防的新階段。
充分條件和必要條件
機器學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)安全早已有之。童寧指出,早在1986年,美國斯坦福研究中心就提出用數(shù)據(jù)統(tǒng)計來檢測網(wǎng)絡(luò)非法入侵。“利用機器學(xué)習(xí)算法對垃圾郵件進行分類,也已是20年前的事情。”
童寧介紹說,隨著移動互聯(lián)網(wǎng)的發(fā)展,大量的設(shè)備產(chǎn)生了各式各樣的日志文件。特別是在2000年以后,在日志管理和分析方面,機器學(xué)習(xí)算法有了長足的發(fā)展。比如IBM等大型互聯(lián)網(wǎng)企業(yè)就在這些方面使用了大量的機器學(xué)習(xí)算法,包括關(guān)聯(lián)分析等。
“2000年以來,機器學(xué)習(xí)所帶來的變革——比如利用機器學(xué)習(xí)算法對用戶的異常行為進行分析等開始普及起來。”童寧說。
趨勢科技資深數(shù)據(jù)科學(xué)家張佳彥從技術(shù)發(fā)展和經(jīng)濟原因兩方面,向《中國科學(xué)報》記者展示了機器學(xué)習(xí)介入網(wǎng)絡(luò)安全的“充分條件”和“必要條件”。
“從2006年開始,網(wǎng)絡(luò)病毒開始急劇增加,直到2012年達到第一個高峰期。而2012年開始進入第二個循環(huán),更多的新病毒大量出現(xiàn)。” 張佳彥援引一組數(shù)據(jù)提出:“以2007年的數(shù)字為例,每年有約600萬個新病毒出現(xiàn),也就是每天出現(xiàn)1.6萬個病毒。在這種情況下僅靠網(wǎng)絡(luò)安全專家分析和阻擋是不夠的,這就為機器學(xué)習(xí)的出現(xiàn)提供了充分條件。”
然而事實是,2006~2012年間,一些機器學(xué)習(xí)技術(shù)已經(jīng)被用來嘗試助陣網(wǎng)絡(luò)安防,但直到2013年機器學(xué)習(xí)技術(shù)才逐漸被安全專家所討論和強調(diào)。這背后的原因是什么?張佳彥認(rèn)為其中牽涉不只是技術(shù)問題,還有經(jīng)濟原因。
原來,2006~2012年這期間,病毒的制造者已經(jīng)從單一黑客演化到有組織的黑客犯罪系統(tǒng),目標(biāo)就是為了竊取受感染電腦的資訊進行販賣。此時病毒的變種已經(jīng)非常繁多,網(wǎng)絡(luò)安全公司已開始使用機器學(xué)習(xí)對抗病毒。
然而,在這期間,用戶還不能接受機器學(xué)習(xí)的手段——這一階段的許多病毒都有潛伏期,由于沒有立即性危害,許多用戶雖已中毒但并不知情。而相比其他解決方案(如1:N病毒碼),誤判率更高的機器學(xué)習(xí)算法顯然給用戶帶來了困擾。
“這個時候即使已經(jīng)用了機器學(xué)習(xí)方案,但大家也不愿大張旗鼓地說。” 張佳彥告訴記者。
“劇情”在2012年后出現(xiàn)急轉(zhuǎn)。到了勒索軟件為代表的“網(wǎng)絡(luò)威脅時代”,緊跟著此后不易追蹤的比特幣等的出現(xiàn),勒索病毒所造成的立即性損失(的重要性)已經(jīng)超過了機器誤判帶來的困擾,“這為機器學(xué)習(xí)參與網(wǎng)絡(luò)攻防提供了必要條件。” 張佳彥表示。
有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)
對于機器學(xué)習(xí)來講,最主要的兩個概念分別是“有監(jiān)督學(xué)習(xí)”和“無監(jiān)督學(xué)習(xí)”。百度安全首席架構(gòu)師武廣柱解釋說:“有監(jiān)督學(xué)習(xí)就是人們‘告訴’機器‘哪些數(shù)據(jù)是屬于哪一類的’,然后進行數(shù)據(jù)訓(xùn)練;反之,無監(jiān)督學(xué)習(xí)就是不‘告訴’機器,直接由人們對最終輸出的結(jié)果進行定義。”
“有監(jiān)督的學(xué)習(xí)一開始就有人為的因素在里面,如果訓(xùn)練結(jié)果不盡人意,工程師可以進行算法調(diào)整,直至它的結(jié)果達到人們的要求以后,再投入生產(chǎn)使用。”童寧介紹說。
一個有監(jiān)督學(xué)習(xí)常用的例子是,從房地產(chǎn)中介商處拿到一些房屋原始數(shù)據(jù):年代、面積、位置、成交價等,交給機器去“學(xué)習(xí)”。產(chǎn)生的模型就可以對后來的購房者提供參考:比如輸入其預(yù)算多少錢,得出該客戶能夠在什么區(qū)位買到什么樣的房子。
童寧表示,有監(jiān)督學(xué)習(xí)的這種能力可以用于網(wǎng)絡(luò)攻防中對惡意程序、垃圾郵件的識別和對勒索病毒的防治,特別是在需要多維度識別的情況下,能夠大幅提高識別速度和效率。
無監(jiān)督學(xué)習(xí)所用的方法與有監(jiān)督學(xué)習(xí)有些不同。“機器直接根據(jù)數(shù)據(jù)自身的特征進行自動分類,但機器并不知曉所分類、聚合的特征是什么。人們再行標(biāo)注具體屬性。”童寧說,無監(jiān)督學(xué)習(xí)“聚類”的優(yōu)勢,可以輕易挑出“少數(shù)派”,幫人們監(jiān)控到一些人所不易察覺的異常行為。
“通過這有監(jiān)督和無監(jiān)督學(xué)習(xí)的兩個例子,可以發(fā)現(xiàn)機器學(xué)習(xí)關(guān)鍵是,首先必須要有持續(xù)性的、高質(zhì)量的數(shù)據(jù)。因為整個的網(wǎng)絡(luò)環(huán)境一直在變,機器需要學(xué)習(xí)的內(nèi)容也要隨之而變。”童寧半開玩笑說,“機器跟我們?nèi)祟愐粯?,需?lsquo;活到老,學(xué)到老’,從而保證它的學(xué)習(xí)能力。”
更重要的一點是,無論有監(jiān)督學(xué)習(xí)還是無監(jiān)督學(xué)習(xí),對特征的抽取和概括總結(jié),都是由網(wǎng)絡(luò)安全專家和領(lǐng)域?qū)<宜鶇^(qū)別出來的,因此,“必須要有解決問題的領(lǐng)域?qū)<?rdquo;。
“我們的客戶常常問:是不是有數(shù)據(jù)專家、網(wǎng)絡(luò)安全專家就夠了?答案是否定的。必須要有領(lǐng)域內(nèi)的專家,否則抽取的特征很難去把握。”童寧指出,只有三種元素(持續(xù)高質(zhì)量的安全數(shù)據(jù)、領(lǐng)域?qū)<?網(wǎng)絡(luò)安全專家、機器學(xué)習(xí)數(shù)據(jù)專家)協(xié)作,機器學(xué)習(xí)在網(wǎng)絡(luò)安全方面的應(yīng)用才能獲得更好的效果。
張佳彥也提出,在傳統(tǒng)機器學(xué)習(xí)所必不可缺的三大要素——數(shù)據(jù)、特征、算法之中,“最花時間的”就是網(wǎng)絡(luò)安全專家如何產(chǎn)生有效的特征:“這需要非常有經(jīng)驗的專家,還要經(jīng)過反復(fù)不斷的測試,才能得到良好的結(jié)果。”
機器學(xué)習(xí)不是“萬靈丹”
不過,在張佳彥看來,除了對安全專家的依賴,機器學(xué)習(xí)還存在一個軟肋:誤判率。
“對我來說機器學(xué)習(xí)就像‘原子彈’,它的威力無窮,但如果用得不好會傷敵一千,自損八百。”張佳彥指出:“訓(xùn)練出來的模型某種程度上有不可避免的誤判率,所以我認(rèn)為機器學(xué)習(xí)的重點,不僅在于可以把誤判率降低多少,更在于承認(rèn)它一定有誤判率的存在。”
他認(rèn)為,如何將誤判率對用戶造成的傷害和困擾降到最低,是當(dāng)前機器學(xué)習(xí)更重要的議題。
“機器學(xué)習(xí)在垃圾郵件分類、惡意程序查殺方面,已經(jīng)比較成熟了。有時分錯一些郵件相對來講還可以接受,但一旦查殺錯‘惡意程序’,后果就嚴(yán)重了。”童寧作為一線安全專家深知,機器學(xué)習(xí)即便再強大也不能對其押上所有賭注。
“我們強調(diào)機器學(xué)習(xí)技術(shù)也是強調(diào)它多維識別很強,但我們并沒有放棄第一代的黑白名單、第二代的行為監(jiān)控等技術(shù),機器學(xué)習(xí)技術(shù)再強大也只是輔助工具,這些手段綜合起來利用效果才更好。”童寧告訴《中國科學(xué)報》記者,“網(wǎng)絡(luò)攻防是永恒的主題,我們唯一能做的就是拿出各種武器,跟黑客戰(zhàn)斗到底。”
四川新華電腦學(xué)院專業(yè)職業(yè)規(guī)劃師為你提供更多幫助【在線咨詢】
下一篇: 2017全球十大新興技術(shù)