tft每日頭條

 > 科技

 > 新手建議學大數據應用嗎

新手建議學大數據應用嗎

科技 更新时间:2025-02-22 05:53:56

  我們今天常常講到大數據思維,很多人就會想到大型互聯網公司使用用戶的數據做很多事情,既有好的事情,比如今日頭條給大家推送有用的資訊,也有壞的事情,比如一些電商公司利用個人信息進行價格歧視,甚至一些公司出賣大家的隐私。

  關于大數據思維的一些例子,在當下最常見,也是最成功的有四類應用。

  新手建議學大數據應用嗎(四類應用告訴你大數據到底能幹嘛)(1)

  第一類,解決人工智能問題。 世界上利用大數據解決的第一個智能型的問題是語音識别,接下來是機器翻譯。語音識别的曆史正好和電子計算機一樣長,可以追溯到1946年。但是一直做得非常不成功。

  到了60年代末,計算機已經進入到第三代了(基于集成電路的),語音識别才隻能做到識别十個數字加上幾十個單詞,而且錯誤率高達30%。這樣水平的系統是不可用的,因為如果每十個詞就錯三個,你就無法複原原來的意思了。

  因此,在60年代初,就有人認為語音識别和治愈癌症、登月、水變油一樣,近乎不可能。到了70年代,康奈爾大學著名的信息論專家賈裡尼克來到IBM,負責該公司的語音識别項目。賈裡尼克是一位天才,他從博士畢業到成為講席教授,教科書的作者,也就是十年時間。

  在賈裡尼克之前,人們覺得識别語音是一個智力活動,比如我們聽到一串語音信号,腦子會把它們先變成音節,然後組成字和詞,再聯系上下文理解它們的意思,最後排除同音字的歧義性,得到它的意思。

  為了做這件事,科學家們就試圖讓計算機學會構詞法,能夠分析語法,理解語義。但這件事證明是不可行的。賈裡尼克在到IBM之前并沒有做過語音識别,他也不懂得傳統的人工智能。

  事實上,直到死他都不認為他是人工智能專家。由于不受到傳統的人工智能思想的約束,他得以用信息論的思維方式來看待語音識别問題。他認為語音識别是一個通信問題。

  新手建議學大數據應用嗎(四類應用告訴你大數據到底能幹嘛)(2)

  賈裡尼克是這樣考慮問題的。當說話人講話時,他是用語言和文字将他的想法編碼,這就變成了一個信息論的問題。語言和文字無論是通過空氣傳播,還是電話線傳播,都是一個信息傳播問題,在通信中有一套對應的信道編碼理論。在聽話人,也就是接收方那裡,他再做解碼的工作,把空氣中的聲波變回到語言文字,再通過對語言文字的解碼,得到含義。

  于是,賈裡尼克就用通信的編解碼模型,以及有噪音的信道傳輸模型,構建了語音識别的模型。但是這些模型裡面有很多參數需要計算出來,這就要用到大量的數據,于是,賈裡尼克就把上述問題又變成了數據處理的問題了。

  在這樣的思想指導下,賈裡尼克裁掉了IBM全部的語言學家,并且對各種仿生學,比如研究人耳蝸的模型完全不感興趣,他隻注重收集數據,訓練各種統計模型。

  那麼這樣能否解決語音識别問題呢?在一開始,學術界确實有人懷疑,不過賈裡尼克很快用結果回答了大家。

  在短短幾年時間裡,他的團隊(都是數學家和數學很好的理論物理學家)就将語音識别的規模擴大到22000詞,錯誤率降低到10%左右。這是一個質的飛躍,從此數據驅動的方法在人工智能領域站住了腳。

  賈裡尼克思想的本質,是利用數據(信息)消除不确定性,這就是香農信息論的本質,也是大數據思維的科學基礎。這就是第一類應用,把人工智能問題變成數據問題帶給我們的啟示。

  新手建議學大數據應用嗎(四類應用告訴你大數據到底能幹嘛)(3)

  第二類應用,利用大數據進行精準服務。 我們不妨用一個例子來說明。

  如果我們想知道搜索“邁克爾·喬丹”的網頁結果,我們可以把包含着兩個關鍵詞的網頁先找到,然後根據相關性和網頁質量排序。

  但是,在美國有很多“邁克爾·喬丹”,到底用戶找的是誰呢?有人可能會說,當然是那個籃球球星了,其實美國還有一個非常有名的“邁克爾·喬丹”,他是當今世界上最著名的人工智能專家之一,美國三院院士(科學院、工程院和文理學院)。

  很多年前在Google,研究者想了不少辦法來解決這個問題,比如有人提出是否在10條結果中放5條籃球球星的,5條教授的。但是這種想法很快被大家否決了,因為無論是找籃球球星的人,還是找學者的,都會認為你的搜索做得不夠好。

  對這個問題唯一好的解決辦法就是理解用戶的意圖,進行個性化服務。但是這樣一來就需要非常非常多的數據,因為之前可以對所有的人進行統計,看看大家最希望得到的搜索結果是什麼。

  但是,如果對每一個人進行統計,數據量就不夠了,因為一個人搜索的數量再多,也無法和所有人相比。一旦數據量不夠,統計就變得毫無意義。

  新手建議學大數據應用嗎(四類應用告訴你大數據到底能幹嘛)(4)

  因此,這一方面需要盡可能多地收集數據,另一方面則需要對行為習慣和偏好類似的人進行聚類。

  今天,微軟的搜索效果沒有Google的好,不是技術不行,而是數據量不夠。對于那些常見的搜索,大家其實水平差不多,微軟差就差在了那些很少見到的長尾搜索關鍵詞上。

  但是不管怎樣,這兩家公司已經從重視方法研究,轉為重視信息收集和處理了。這是透視大數據思維的第二類應用,利用大數據進行精準服務,得出的一個趨勢。

  第三類應用,動态調整我們做事情的策略。 當今,容易一勞永逸解決的那些問題大多數已經被解決了,留給我們的是不确定性的問題,因此我們做事情的策略也就要變化了。

  早期的滴滴公司并不是一個技術水平很高的公司,雖然他們在公開場合并不承認這一點,很多行業裡的人将它作為這方面的反面典型。但是為什麼這樣一家很多人看不上的公司,能夠做大做強呢?除了運營得好之外,正确的指導思想和做事原則起到了關鍵性的作用。

  其實,滴滴公司遠不是第一家網約車公司,之前一些公司,過分強調司機和乘客之間的固定,比如A乘客坐B司機的車子比較滿意,他下次依然希望提前預訂B司機的服務。這件事在優步和滴滴都是不允許的,但是一些網約車公司是允許的。這兩種做法有什麼差别呢?

  新手建議學大數據應用嗎(四類應用告訴你大數據到底能幹嘛)(5)

  雖然沒有人都能舉出各自的利弊,但是,對于一個不斷變化的打車人群分布和車輛分布,利用數據做動态調整是效率最高的策略。當然,如果你沒有足夠多的數據,一共隻有200輛車,5000個人的數據,你是做不到這一點的。

  反過來,如果有了足夠多的數據,是否在理論上有保障,隻要調整的次數足夠多,就能收到最佳匹配呢?答案是肯定的

  第四類應用,利用大數據發現不知道的規律。 如今研制一款新藥需要20年時間,20億美元的投入,這是驚人的投入。能否減少這方面的研發成本,縮短研發周期呢?

  如果按照過去的做法工作,即使再努力,能提升的空間也有限。後來大家換了一個思路想問題,那就是讓處方藥和各種疾病重新匹配。

  比如斯坦福大學醫學院發現,過去一種治療心髒病的藥治療胃病效果很好,于是他們直接進入小白鼠試驗,然後進入了臨床試驗。由于這種藥的毒性已經試驗過了,因此臨床試驗的周期短了很多。這樣,找到一種新的治療方法平均隻需要3年時間,投資1億美元。

  當然,找到藥和病的配對,本身是一個大數據問題。這種做事的方法能夠成立,背後是有信息論理論依據的,即所謂的互信息理論

  新手建議學大數據應用嗎(四類應用告訴你大數據到底能幹嘛)(6)

  最後,小結一下,今天給舉了四類大數據思維應用在商業上的成功案例:

  第一類是解決人工智能問題,是利用數據(信息)消除不确定性,這是香農信息論的本質,也是大數據思維的科學基礎。第二類是利用大數據進行精準服務,從中你可以看出一個商業趨勢:公司從重研究方法到重數據收集的轉變。第三類是動态調整做事策略,足夠多的數據可以幫助我們動态匹配最佳結果。最後一類是利用大數據發現未知規律,這背後涉及互信息的理論,也是信息論的重點内容。 這四類大數據應用,都在傳達一個信息,那就是大數據的關鍵是思維方式的變化。。

  ,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved