tft每日頭條

 > 生活

 > 微軟深度學習框架通用教程交流

微軟深度學習框架通用教程交流

生活 更新时间:2024-12-20 19:51:32

歡迎來到令人興奮的微軟Azure機器學習新世界! 不論你是一位專業的數據科學家還是有抱負的新手,都可以通過微軟發布的基于雲的平台來快速創建、分享、測試、訓練、失敗、修複、再培訓,并以便于使用的Web服務形式部署功能強大的機器學習實驗。所有的這些都基于最新的算法。利用這一平台,你可以通過在新數據集上不斷地“訓練”來微調你的實驗結果。

比爾·蓋茨曾說,“機器學習中的一個突破,其價值抵得上10個微軟”。新的Azure機器學習服務以一種真正的基于雲的差異化方式承擔起這一令人激動的挑戰,它利用一個強大的假設(一些大的數據集、有效的信用卡和浏覽器),讓今天的機器學習企業家們能學習如何從衆多大數據倉庫中獲利。

1.1 什麼是機器學習

機器學習可以被描述為一種利用經驗來改進的計算系統。它也可以被描述為一種将數據轉換為軟件的方法。無論使用什麼術語,結果仍然是相同的。數據科學家已經成功地開發了若幹創建軟件“模型”的方法,這些模型在用海量數據培訓後,用于預測某些模式、趨勢和結果。

預測分析學是Azure機器學習背後的一種基礎技術,它可以被簡單地定義為一種科學地利用過去預測未來的方式,以幫助得出預期的結果。

在某些情況下,機器學習和預測分析通常會特别有用,因為它們可以遠遠超過一般人開發的标準的規則引擎或編程邏輯。如果想使用實例或過去的曆史經驗數據對所需的輸出或預測進行優化,機器學習是很好用的手段。描述機器學習的方法之一是把它與現代計算機編程範式進行比較。

傳統的編程模式下,程序和數據通過計算機處理以産生所需的輸出,例如用程序來處理數據并産生一個報告(見圖1-1)。

微軟深度學習框架通用教程交流(你必須知道的一些事兒)1

圖1-1 傳統的編程範式

而用機器學習進行處理,處理範式便發生巨大的變化。數據和所需的輸出是由計算機逆向設計的,來産生一個新的程序,如圖1-2所示。

微軟深度學習框架通用教程交流(你必須知道的一些事兒)2

圖1-2 機器學習編程範例

這個新程序的作用是,它可以根據所提供的輸入數據有效地“預測”輸出,這種方法的主要優點是,所産生的“程序”是利用大量的學習數據和反饋數據訓練構建起來的,能夠基于提供數據預測期望的輸出。從某種意義上說,這相當于有能力創造一隻可以下金蛋的鵝!

一個關于預測分析的典型例子在Amazon網站上随處可見,你每搜索一件商品,頁面會向你呈現一個推薦商品目錄,這是因為“買過此類商品的顧客還買了目錄裡的商品”。這是利用預測分析和人類購買心理建立一個非常有效的營銷策略的典型案例。

人類社會本能的需求之一便是不落後,跟随潮流。結合這些深層的心理動機與正确的曆史交易數據以及優化的過濾算法,如何實現一個高效的電子商務銷售策略便顯而易見了。

人類自然本能之一就是害怕置身事外,特别是當其他人都在做的時候。這是社會網絡的潛在基礎,并且預測分析不會有比結合網絡預測分析人類本性更有效用和效率了。結合人類固有的欲望心理與正确的曆史交易數據,然後使用優化的過濾算法,便可以實現一種高效的電子商務促銷策略。

接下來分析一下這個高度有效的預測算法對數據的要求。基本要求是曆史訂單,通過這些訂單,系統可以查找與當前浏覽物品一起購買的其他物品。然後通過結合用戶的個人資料,如年齡、性别、婚姻狀況和郵政編碼等,對曆史數據進行過濾,這樣便可以為用戶推薦更有針對性的物品列表,甚至滿足其他要求。

如果你能夠根據他在過去購買的物品類别推斷出用戶的偏好和購買模式,事情會變得怎樣?如果有人購買了弓、箭和野營爐,那麼他可能是一位狩獵者。同樣,這樣的人極有可能喜歡戶外活動以及與之相關的野營設備、皮卡車,甚至是棉花糖。

這種聯合當前數據來推斷額外的數據屬性的模式才是數據科學真正起飛的所在,掌握有效利用這項技術的方法将為組織帶來巨大的财富。與機器相比,數據科學家們能夠做出更具價值的數據見解與推斷,并将其與機器學習過程相結合,來最大化收益。

這也為什麼在“快速失敗”或确認自定義預測算法的邏輯的過程中,機器學習具備可以快速地測試預言和理論的能力。幸運的是,這是一個Azure機器學習真正閃光的領域。在後續章節中,我們将陸續學習如何快速創建、共享、部署和測試Azure機器學習實驗,并迅速地部署組織中的預測分析系統。

從某種意義上說,Azure機器學習類似于培養孩子或訓練動物,當然它們不需要食物、水,也不需要休息。我們知道,持續地自适應改進是達爾文進化論的主要特征之一。與此類似,Azure機器學習是計算理論和機器學習能力進展一座重要的裡程碑。

機器學習可以與演化本身的許多概念做類比,尤其是在當有充足的時間和數據(現實世界中的經驗)的情況下,自然界的有機體如何通過遺傳和行為來适應和克服環境的變化這件事情上。

自然法則就是适者生存。

1.2 當下的機器學習風暴

由于以下行業趨勢,當下流行的預測分析系統正在以遠快于機器進化水平的速度發展。

  • 數據以指數級的速度增長。
  • 我們實實在在地處在價值連城的曆史交易數據的“大山”上,并且這些數據通常都被數字存儲,容易讀取。
  • 我們可以通過嵌入式系統和鍊接着各種設備的“物聯網”演化系統獲得日益豐富的實時數據。
  • 我們擁有了生成新的合成數據的能力,可以通過對現有曆史數據的推導和預測來生成現實的模拟數據。
  • 全面數字存儲價格低廉。
  • 如今,我們很容易從網絡上獲得大量免費的或低成本的、全球範圍内可用的數字存儲設備。
  • 從個人設備到私有雲和公有雲,我們有多種存儲機制來容納永無止境的數據流。
  • 普适計算能力。
  • 如今,雲計算服務無處不在,我們随時可以以具有競争力的價格選擇大量的雲服務和托管合作夥伴。
  • 易訪問。隻要擁有一張信用卡和一個浏覽器,你便可以開始以小時或分鐘計費的方式來訪問自己所需要的所有内容。
  • 數據分析的興起。在許多現實世界的商業應用案例中,預測分析可以帶來很好的收益,起到了推動經濟的良好作用。

因此我們可以得出,機器學習一個很有趣的方面就是它總是自适應的,并且總是從任何錯誤或者誤算中進行學習。因此,良好的反饋/校正循環系統對于微調預測模型是必不可少的。廉價的雲存儲設備的出現和不斷發展的普适計算使得從數據中快速和高效地挖掘價值變得更加簡單。

1.3 預測分析

當今,預測分析随處可見。當你意識到它在日常生活的正常消費中起了多麼大的作用時,你甚至會感到恐懼。預測分析系統已經深深地融入了人們生活的方方面面。從保護你的電子郵件、預測你可能喜歡的電影,預測你将支付的保險費,到預測你下一次抵押貸款申請時的貸款利率,這項技術的使用一定程度上會決定收益。

俗話說“差之毫厘,謬以千裡”。在當今這個時代下,任何機會都會轉瞬即逝。敢于進行分析的人才能創建商業模型并且收獲潛在的利益。這再次說明,數據分析預測能力将對我們的社會發揮越來越重要的作用,甚至會達到推動全新的商業模式形成和行業發展的作用,而這一切完全依賴于預測分析的力量和當下正以驚人速率産生的數據。

1.4 無限的機器學習燃料

随着數字時代的發展,當下大多數人時刻都在通過萬維網、社交媒體、趣味圖片創造着大量新的數字數據。據估計,目前全球數據增長情況是,每兩天全世界創造的數據相當于從人類文明之初到21世紀初所産生的數據總量。有人預測,到2020年,全球數字世界的規模将接近44萬億吉字節。

“物聯網”是當今最熱門的技術發展趨勢之一。它是基于“所有互聯設備都能通過互聯網進行通信”這一概念。毫無疑問,這種新技術革命的興起也将有助于推動現今大數據的增長,預計在未來十年内将會呈指數增長趨勢。在不久的将來,幾乎每一個昂貴的消費設備都将成為某種物聯網信息交換形式的候選,例如預防性維護、制造反饋以及使用細節等方方面面的用途。

物聯網技術是指數以十億計的具有唯一标識的日常設備,能夠自動地記錄、發送和接收數據。例如,行走過程中,智能手機中的傳感器可能會追蹤你的行走速度;一個高速公路收費站可能會使用多個高速攝像機來跟蹤交通态勢。就目前的估計,當今全世界僅有大約7%的設備進行了連接和通信。而這7%連接的設備上産生的數據量估計僅占當今全世界數據總量的2%。預計到2020年,這個數字将增長到全世界數據總量

的10%。

物聯網的迅猛發展勢必會影響有效數據的規模,或者說會影響那些可以被用來加以分析以産生有效結果或預測決斷的數據的規模。通過比較,2013年,整個數字世界中隻有22%的信息被認為是有用數據,而這部分有用數據中被用來分析的比例不超過5%。這就導緻了大量的數據仍然未被處理和充分利用。得益于來自物聯網數據的增長,據估計,到2020年,超過35%的數據将會被認為是有用數據。這是你可以使用商業機會挖到今天的數據“金礦”的地方,也是你在可預見的未來可以了解到商業趨勢将怎樣持續增長的地方。

物聯網設備和數據流的持續增長也會帶來一個額外的好處,那就是數據科學家還将具備獨有的能力來進一步結合、合并和提煉數據流,并使從數據中得到的商業更智能。單數據流的物聯網數據本身就是非常有價值的,但當與其他相關數據流相結合時,它便可以以指數級的速度變得強大起來。例如預報和調度電梯的預見性維護工作。電梯的傳感器設備定期地向雲端監控系統發送數據流便是極為有益的。當這一數據與其他數據(例如天氣信息、地震活動和本建築中安排即将到來的重大事件日期)相結合時,它将立刻大大提高你的預測分析能力,幫助你預測出需要的有效模式和相關的預見性維護工作。

目前,物聯網設備數量急劇增長會帶來諸多的好處,它将為與客戶互動、簡化業務周期和降低運營成本提供許多新的渠道。當然,物聯網現象也将給IT行業帶來許多新的挑戰,比如業界需要通過諸如加密和訪問控制這樣的措施來獲取、管理、存儲和保護這些新的數據流。在許多情況下,企業自身也應當承擔一部分額外提高數據保護級别的責任,這樣才能保障機密信息及個人身份信息安全。

與人類相比,機器學習的最大優勢在于:做科學預測時,它能夠考慮更多的變量。考慮到數據量每18個月就會翻一番這一事實,就知道,現在沒有比使用Azure機器學習這樣的令人興奮的新技術解決關鍵業務問題更合适的了。

物聯網對今天新一代的數據科學企業家來說是一個巨大的機會。新一代的數據科學家們知道如何采集數據、處理數據和在正确數據集上建模,以産生一個可以用來成功地預測預期結果的引擎。

1.5 日常生活中預測分析的例子

在我們今天的社會生活中,預測分析的例子簡直無處不在。

  • 垃圾郵件過濾器——該應用基于内容、标題、來源,甚至是用戶的行為(例如,總是删除此發件人的郵件)。
  • 抵押貸款申請——通常情況下,你的抵押貸款和信用是通過先進的預測分析算法引擎決定的。
  • 各種形式的模式識别——包括郵件郵遞時的光學字符識别(OCR),智能手機上的語音識别,甚至高級安全系統中的人臉識别。
  • 人壽保險——包括計算死亡率、預期壽命、保險費和給付。
  • 醫療保險——保險公司試圖基于患者曆史的醫療報銷和類似患者的背景信息,以确定未來的醫療費用。
  • 責任/财産保險——保險公司可以基于人口統計分析汽車和業主的保險風險。
  • 信用卡欺詐檢測——這個過程是基于使用情況和活動模式的。在過去的一年中,信用卡交易的人數已突破10億。借助智能手機的功能集成,通過近場通信(NFC)的非接觸式支付的數目也急劇增加。
  • 航班——航空公司根據以往的空中旅行模式和飛行數據計算費用、航班安排和收益。
  • 網頁搜索結果——預測分析可以幫助我們确定在頁面上呈現哪些廣告、推薦信息以及顯示内容的順序。
  • 預見性的維護——利用預測維護我們可以監控幾乎所有的内容:飛機、火車、電梯、汽車,甚至數據中心。
  • 保健——預測分析在确定患者治療效果和未來保健方面被廣泛地使用,這種應用是基于與該患者相匹配的類似患者的曆史數據。
1.6 機器學習的早期曆史

在探尋機器學習早期曆史的時候,我們發現一個有趣的現象,即它和“農曆”的概念有很多相似之處,這種現象可以追溯到19世紀早期。

農曆一直是農民、牧場主、捕獵者和漁民所依賴的關鍵因素。農曆的創造者把過去的天氣狀況、月相、雨水和土地旱澇情況等重要的曆史觀測數據給他們的“用戶”,用戶以此作為指導來掌握來年的播種、收割和捕獵的适宜時機。

讓我們快速回到現代,關于機器學習的威力、實用性和最大化地節約成本的一個簡單範例是來自美國郵政局。機器運用光學字符識别(OCR)功能,每小時能夠準确地識讀成幾十萬封的郵政信件上的地址。僅2013年,美國郵政局便處理了超過1584億封郵件,這意味着美國郵政局每天能夠用機器準确識讀上百萬封紙質信件上的地址和郵政編碼。可以想象,處理如此龐大數量的郵件,靠人力勞動是根本不能完成的。

在早期,郵件分揀處理完全靠全國數以千計的郵政工人手工完成。20世紀80年代後期至20世紀90年代早期,郵局開始引進早期的手寫識别算法和基于規則處理的技術來幫助“過濾”每天的數量龐大的郵件。

因為信封的格式、形狀和尺寸有所不同,實際上文字識别對于郵局來說是一個非常大的難題。不僅如此,書寫地址時所用的各式各樣的書寫方式和書寫工具——從鋼筆到蠟筆,更增大了識别的複雜度,你可以想象到郵局面臨的困難有多大。盡管技術上有很大進步,到1997年,全國僅10%的郵件能自動化分類處理,那些無法自動掃描識别的郵件就要傳送到手工分揀中心,靠人識讀和處理。

20世紀90年代後期,美國郵局開始把這個自動化問題作為機器學習問題處理,用字符識别的數據集和人工識讀的已知結果作為輸入數據集。不久,這種方法提供了豐富的訓練數據,幫助創建了第一個精确的OCR預測模型。他們通過增加字符降噪算法和随機輪換對模型微調來增加它的準确性。

如今,美國郵局是OCR技術的世界先驅,用它識讀的手寫郵件地址有将近98%的正确率,在機器打印的地址上能夠達到将近99.5%的準确率。這是了不起的成就,尤其是考慮到在1997年的時候它僅能自動識别10%。當發現所有寫着郵寄給“聖誕老人”的信件都能被分揀到位于阿拉斯加的手工分揀中心時,作者無比高興。在那裡,這些郵件由志願者回複。

以下是幾個有趣的示例,關于機器學習在美國一個古老、龐大的政府機構裡表現出神奇的影響力。

  • 523000000:每天處理的郵件數目。
  • 22000000:平均每小時處理的郵件數目。
  • 363300:平均每分鐘處理的郵件數目。
  • 6050:平均每秒鐘處理的郵件數目。

關于早期機器學習的另一個例子是讓計算機下象棋來擊敗人類對手。人工智能(AI)伊始,研究者經常用象棋作為一個基本的例子證明AI理論。象棋AI程序就是模拟象棋大師的推理解決問題。象棋大師在對弈的任意時刻,都是從龐大數量的可能的變化方案中挑選最佳的下一步。早期的計算機象棋AI目标非常明确:建造出一個機器能夠擊敗世界大師。1997年,由IBM研制的深藍象棋計算機實現了這一目标,并在錦标賽上成功地在比賽控制時間内擊敗了象棋大師加裡·卡斯帕羅夫。

Jeppardy遊戲展也為機器學習和AI的最新進展提供了精彩的一課。2011年2月,名為Waston的IBM計算機在著名的Jeopardy挑戰賽上成功擊敗了兩個人類對手(Ken Jennings和Brad Rutte)。為了赢得這場比賽,Waston不得不回答每一個具有細微差别的自然語言問題,包括雙關語、同義詞、同形同音異義詞、俚語以及技術術語。有趣的是,Waston在整場比賽中都是離線狀态的。

這意味着Wasson不能借助于任何外部,像必應和谷歌這樣的搜索引擎的力量,它必須依賴多年來日積月累的經驗信息。運用先進的機器學習技巧、數據分析和自然語言處理技術,Waston能夠先将問題分解,然後探尋和對比可能的答案,最後将可能的答案根據“準确置信度”進行排序,所有的這一切大約在3秒鐘内就可以完成。

微軟有着悠久的在産品中應用預測分析學和機器學習的曆史。下面是其中一些早期例子。

  • 1999年,微軟Outlook郵件服務包含了垃圾郵件過濾功能。
  • 2004年,Search結合機器學習作為微軟的搜索引擎技術。
  • 2005年,SQL Server 2005在大型數據庫裡嵌入“數據挖掘”處理能力。
  • 2008年,微軟必應地圖結合機器學習的交通預測服務。
  • 2010年,Kinect将觀察和翻譯用戶手勢的能力與過濾掉起居室背景噪聲的能力結合起來。
  • 2014年,Azure機器學習将多年的預測分析學的創新技術通過Azure雲平台提供給用戶。
  • 2014年,微軟發布了人工智能助理“Cortana”,介紹了一個基于流行的Halo video game 系列的數字助理,極大地促進了機器學習成為今天移動社會的完美數碼伴侶的進程。
  • 2014年,微軟預測實驗室在其網站上發布了一個令人震驚的真實的例子,也就是實時預測實驗。

機器學習的一個最顯著的特征便是學習過程永遠沒有結束的時刻,因為機器從來沒有學完的時候。每當計算錯誤的時候,一個修正的反饋就會輸入到系統中,如此同樣的錯誤将不會再犯。這意味着機器學習的任務從未真正“完成”過,你永遠都不會真正的“滿載而歸”,因為它是一個持續的叠代過程,它要維護反饋循環系統的正常運行,不斷地根據新的輸入數據集以及輸出結果的正負反饋完善模型。從嚴格意義上講,該模型沒有手寫的代碼,隻是通過訓練數據集和每個訓練實例數據的正、負輸出結果的反饋進行“純粹”的機器學習。

這是機器學習的真正價值,它的字面意思是機器從自己的錯誤中進行學習。丘吉爾曾經說過,“所有的人都會犯錯誤,但隻有智者會從錯誤中吸取教訓”,這無疑是一種高尚的品德并且值得每一個人去追求。不管怎樣,不斷地自我糾正這一概念已經被機器學習的理念完全吸收,并且已成為機器學習範式真正獨特的一個方面。也正因如此,機器學習可以成為幫助人類成功預測未來的有效工具之一,并在當今的技術領域獨樹一幟。

1.7 科幻小說變為現實

在科幻小說中,人類用虛幻的故事使人工智能達到了頂峰——機器具有真正的“學習”能力和自我意識。如早期的一部經典電影《2001太空漫遊》中,有一台HAL 9000計算機就有“超能力”。

在這部影片中,HAL 9000計算機負責駕駛發現者1号宇宙飛船,它具有很多高級的AI功能,如講話、語音識别、人臉識别和讀唇語。HAL9000還能理解情感、表達情感以及下棋。當HAL 9000做了一次不準确的預測時,人們對它産生了懷疑,随後才由船員重新控制飛船。

另一個很好的例子來自科幻電影《終結者》系列。在這部影片中,“天網”計算機系統最初是由美國軍方激活并控制國家的核軍火庫的。起初,“天網”以驚人的速度學習。一段時間後,它獲得了自我意識。當操作員們意識到“天網”計算機的超能力後,他們變得驚慌失措,并試圖關閉它。具有了自我意識的“天網”系統将操作員們的“努力”視為對自己的攻擊,并得出了所有人類都在試圖摧毀它的結論。為了抵禦人類的“攻擊”,天網系統自我操控發射了核導彈。

在流行科幻電影《少數派報告》中,專業的專案組警察通過預測犯罪嫌疑人在将來可能犯下哪些罪行來識别和逮捕犯罪嫌疑人,從而趕在犯罪嫌疑人犯下任何罪行之前對其實施懲罰。

當今社會,日常生活中的各類數據呈指數級增長,再加上存儲變得日益廉價,雲服務也提供了方便的計算訪問能力,這就使得預測分析變得越來越重要與普及。使用者如果能夠很好地加以利用,預測分析将會成為一個很好的工具甚至是武器。

1.8 總結

Azure機器學習是利用可完全托管的雲服務建立預測分析解決方案的關鍵一步。Azure機器學習通過發布一個具有雲優勢的、全面的機器學習服務來克服目前大多數企業在部署和使用機器學習時遇到的困難。客戶和合作夥伴現在可以建立數據驅動的應用程序,這些應用程序可以在短短的幾小時内預測和改變未來的結果,而這一個過程,以前需要花費幾周甚至是幾個月的時間。

Azure機器學習把包括新的分析工具和為Xbox、Bing這樣的Microsoft産品開發的強力算法等能力以及多年的機器學習經驗集于一身,形成一個簡單易用的雲服務。

對于客戶來說,這意味着他們幾乎不用承擔創建、開發和擴展機器學習解決方案的啟動成本。可視化的工作流程和模闆的使用讓普通機器學習任務簡單易用。有了它,用戶可以在幾分鐘内發布應用程序接口、提供Web服務以及與其他人合作,并能快速地把分析資産轉化為企業級生産雲服務。

本文摘自《Azure 機器學習》

微軟深度學習框架通用教程交流(你必須知道的一些事兒)3

《Azure 機器學習》

JEFF BARNES 著

本書講解了微軟 Azure 機器學習這種服務,開發人員可以使用建立預測分析模型 (使用各種數據源的數據集),然後輕松地部署這些模型作為雲 web 服務的提供者。本服務提供了豐富的功能,支持很多的端到端工作場景,可以構造預測模型,以便容易地訪問到常用數據源,進行數據搜索和可視化。

今日互動:你對本文的看法,并轉發即可獲得圖書1本

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved