tft每日頭條

 > 科技

 > 大數據的含義和新名詞解釋

大數據的含義和新名詞解釋

科技 更新时间:2025-02-05 11:52:56

  大數據的含義和新名詞解釋(36大數據相關術語500例解釋及中英文對照②)(1)

  本文由36大數據編輯“陌上花”收集整理,轉載必須标明來源36大數據和作者。

  接上篇:36大數據相關術語500例解釋及中英文對照①

  五十一:本地數據庫(LDB/Local Data Base)

  本地數據庫是指駐留于運行客戶應用程序的機器的數據庫。本地數據庫提供最快的響應時間。因為在客戶(應用程序和服務器之間沒有網絡轉輸。本地數據庫的例子有Borland的Paradox.Microsoft的Access和Oracle的Personal Oracle。

  本地數據庫位于本地磁盤或局域網上。如果有幾個用戶同時訪問數據庫.本地數據庫采取攘于文件的鎖定策略。因此,本地數據庫義叫基于文件的數據庫。典型的本地數據庫有Paradox、dBASE、FoxPro和ACCCSS。

  五十二:數據采集(Data Acquisition,DAQ)

  數據采集是指将被測對象的各種參量通過各種傳感器做适當轉換後,再經過信号調理、采樣、量化、編碼、傳輸等步驟傳遞到控制器的過程。

  各類數據采集系統的數據采集過程基本相同,一般都包括這樣幾個步驟:

  ①用傳感器感受各種物理量,并把它們轉換成電信号;

  ②通過A/D轉換,模拟量的數據轉變成數字量的數據;

  ③數據的記錄,打印輸出或存入磁盤文件。

  各種數據采集系統所用的數據采集程序有:

  ①生産廠商為該采集系統編制的專用程序,常用于大型專用系統;

  ②固化的采集程序,常用于小型專用系統;

  ③利用生産廠商提供的軟件工具,用戶自行編制的采集程序,主要用于組合式系統。

  五十三:數據模型(data model)

  數據模型是現實世界數據特征的抽象,用于描述一組數據的概念和定義。數據模型是數據庫中數據的存儲方式,是數據庫系統的基礎。在數據庫中,數據的物理結構又稱數據的存儲結構,就是數據元素在計算機存儲器中的表示及其配置;數據的邏輯結構則是指數據元素之間的邏輯關系,它是數據在用戶或程序員面前的表現形式,數據的存儲結構不一定與邏輯結構一緻。

  五十四:數據整理(Data Cleansing)

  數據整理是對調查、觀察、實驗等研究活動中所搜集到的資料進行檢驗、歸類編碼和數字編碼的過程。它是數據統計分析的基礎。

  在二十世紀90年代中晚期,為了揭示一些隐含數據性質、趨勢和模式,很多商家開始探讨把傳統的統計和人工智能分析技術應用到大型數據庫的可行性問題,這些探讨最終發展成為基于統計分析技術的正規數據整理工具。

  五十四:數據處理(Data Handling)

  數據處理是指對數據(包括數值的和非數值的)進行分析和加工的技術過程。也就是對數據的采集、存儲、檢索、加工、變換和傳輸,将數據轉換為信息的過程。數據處理離不開軟件的支持,數據處理軟件包括:用以書寫處理程序的各種程序設計語言及其編譯程序,管理數據的文件系統和數據庫系統,以及各種數據處理方法的應用軟件包。為了保證數據安全可靠,還有一整套數據安全保密的技術。包括對各種原始數據的分析、整理、計算、編輯等的加工和處理。比數據分析含義廣。

  五十五:範式(數據庫術語)

  範式是符合某一種級别的關系模式的集合。關系數據庫中的關系必須滿足一定的要求,滿足不同程度要求的為不同範式。

  範式(數據庫設計範式,數據庫的設計範式)是符合某一種級别的關系模式的集合。構造數據庫必須遵循一定的規則。在關系數據庫中,這種規則就是範式。關系數據庫中的關系必須滿足一定的要求,即滿足不同的範式。

  目前關系數據庫有六種範式:第一範式(1NF)、第二範式(2NF)、第三範式(3NF)、Boyce-Codd範式(BCNF)、第四範式(4NF)和第五範式(5NF)。

  五十六:數據壓縮(Data Compression)

  數據壓縮是以盡可能少的數碼來表示信源所發出的信号,減少容納給定的消息集合或數據采樣集合的信号空間。這裡講的信号空間,就是被壓縮的對象,是指某信号集合所占的時域、空域和頻域。信号空間的這幾種形式是相互關聯的,存儲空間的減少,意味着信号傳輸效率的提高,所占用帶寬的節省。隻要采取某種方法來減少某個信号空間,就能夠壓縮數據。

  數據壓縮是信息論中一個很重要的概念。從信息論的角度來看,信源編碼的一個最主要的目的,就是要解決數據的壓縮問題。這一點,反映在整個通信過程中。

  五十七:數據恢複(Data Recovery)

  數據恢複是指由于各種原因導緻數據損失時,把保留在介質上的數據重新還原。即使數據被删除或硬盤出現故障,在介質沒有嚴重受損的情況下,數據均有可能被無損恢複。

  格式化或誤删除引起的數據損失情況,大部分數據仍未損壞,隻要用軟件重新恢複連接環節,即可重讀數據。如果硬盤因硬件損壞而無法訪問時,隻要更換發生故障的零件,即可恢複數據。但在介質嚴重受損或數據被覆蓋時,數據将極難恢複。

  五十八:數據集成(Data Integration)

  數據集成就是将若幹個分散的數據源中的數據,邏輯地或物理地集成到一個統一的數據集合中。數據集成的核心任務是要将互相關聯的分布式異構數據源集成到一起,使用戶能夠以透明的方式訪問這些數據源。集成是指維護數據源整體上的數據一緻性、提高信息共享利用的效率;透明的方式是指用戶無需關心如何實現對異構數據源數據的訪問,隻關心以何種方式訪問何種數據。實現數據集成的系統稱作數據集成系統(見下圖),它為用戶提供統一的數據源訪問接口,執行用戶對數據源的訪問請求。

  五十九:數據遷移(Data Migration)

  數據遷移是數據系統整合中保證系統平滑升級和更新的關鍵部分。在信息化建設過程中,随着技術的發展,原有的信息系統不斷被功能更強大的新系統所取代。從兩層結構到三層結構,從Client/Server到Browser/Server。在新舊系統的切換過程中,必然要面臨一個數據遷移的問題。

  六十:數據元(Data Element)

  數據元即數據元素,是通過定義、标識、表示和允許值等一系列屬性描述的數據單元,在一定語境下,構建一個語義正确、獨立且無歧義的特定概念語義的信息單元。數據元可理解為數據的基本單元,将若幹具有相關性的數據元按一定次序組成一個整體結構,即數據模型。

  六十一:數據冗餘(Data Redundancy/Redundant Data)

  數據冗餘是指同一個數據在系統中多次重複出現。在文件系統中,由于文件之間沒有聯系,有時一個數據在多個文件中出現;而數據庫系統則克服了文件系統的這種缺陷,但仍然存在數據冗餘問題。消除數據冗餘的目的是為了避免更新時可能出現的問題,以便保持數據的一緻性。

  六十二:數據抽取

  數據抽取是從數據源中抽取數據的過程。數據抽取是指從源數據源系統抽取目的數據源系統需要的數據。實際應用中,數據源較多采用的是關系數據庫。

  六十三:網絡數據抽取 (Web data mining)

  網絡數據抽取(Web data mining),是指從網絡中取得大量的又利用價值的數字化信息。主要包括結構化數據抽取(Structured Data Extraction)、信息集成(Information integreation)和觀點挖掘(Opinion mining)等。

  結構化數據抽取(Structured Data Extraction)的目标是從Web頁面中抽取結構化數據。這些結構化數據往往存儲在後台數據庫中,由網頁按一定格式承載着展示給用戶。例如論壇列表頁面、Blog頁面、搜索引擎結果頁面等。

  信息集成(Information integration)是針對結構化數據而言的。其目标是将從不同網站中抽取出的數據統一化後集成入庫。其關鍵問題是如何從不同網站的數據表中識别出意義相同的數據并統一存儲。

  六十四:數據标準化(data standardization)

  數據标準化是指研究、制定和推廣應用統一的數據分類分級、記錄格式及轉換、編碼等技術标準的過程。

  六十五:數據備份(Data Backup)

  數據備份是把文件或數據庫從原來存儲的地方複制到其他地方的活動,其目的是為了在設備發生故障或發生其他威脅數據安全的災害時保護數據,将數據遭受破壞的程度減到最小。取回原先備份的文件的過程稱為恢複數據。

  1.完全備份(Full Backup)。這種備份策略的優點是當發生數據丢失的災難時.可以迅速恢複丢失的數據。不足之處是每天都對整個系統進行完全備份.造成備份的數據大量重複。對于業務繁忙、備份時間有限的用戶,選擇這種備份策略是不明智的。

  2.增量備份(Incremental Backup)。先進行一次完全備份,在接下來的時間裡隻對當天新的或被修改過的數據進行備份。這種備份策略的優點是節省了磁盤空間,縮短了備份時間;缺點是當災難發生時,數據的恢複比較麻煩.備份的可靠性也很差。

  3.差分備份(Differential Backup)。先進行一次系統完全備份,在接下來的幾天裡.再将當天所有與備份不同的數據(新的或修改過的)備份到磁盤上。差分備份策略在避免了以上兩種策略的缺陷的同時.又具有了其所有優點。首先,它無須每天都對系統做完全備份,因此所需的備份時間短,并節省了磁盤空間。其次,它的災難恢複也很方便.一旦發生問題,用戶隻需使用完全備份和發生問題前一天的備份就可以将系統恢複。

  六十七:貪心算法(Greedy algorithm)

  貪心算法(又稱貪婪算法)是指,在對問題求解時,總是做出在當前看來是最好的選擇。也就是說,不從整體最優上加以考慮,他所做出的僅是在某種意義上的局部最優解。

  貪心算法不是對所有問題都能得到整體最優解,關鍵是貪心策略的選擇,選擇的貪心策略必須具備無後效性,即某個狀态以前的過程不會影響以後的狀态,隻與當前狀态有關。

  六十八:分治法(Divide and Conquer)

  在計算機科學中,分治法是一種很重要的算法。字面上的解釋是“分而治之”,就是把一個複雜的問題分成兩個或更多的相同或相似的子問題,再把子問題分成更小的子問題……直到最後子問題可以簡單的直接求解,原問題的解即子問題的解的合并。這個技巧是很多高效算法的基礎,如排序算法(快速排序,歸并排序),傅立葉變換(快速傅立葉變換)。

  六十九:動态規劃(Dynamic programming)

  動态規劃(dynamic programming)是運籌學的一個分支,是求解決策過程(decision process)最優化的數學方法。20世紀50年代初美國數學家R.E.Bellman等人在研究多階段決策過程(multistep decision process)的優化問題時,提出了著名的最優化原理(principle of optimality),把多階段過程轉化為一系列單階段問題,利用各階段之間的關系,逐個求解,創立了解決這類過程優化問題的新方法——動态規劃。1957年出版了他的名著《Dynamic Programming》,這是該領域的第一本著作。

  七十:排序算法

  所謂排序,就是使一串記錄,按照其中的某個或某些關鍵字的大小,遞增或遞減的排列起來的操作。排序算法,就是如何使得記錄按照要求排列的方法。排序算法在很多領域得到相當地重視,尤其是在大量數據的處理方面。一個優秀的算法可以節省大量的資源。在各個領域中考慮到數據的各種限制和規範,要得到一個符合實際的優秀算法,得經過大量的推理和分析。

  七十一:叠代法(Iterative Method)

  叠代法也稱輾轉法,是一種不斷用變量的舊值遞推新值的過程,跟叠代法相對應的是直接法,即一次性解決問題。叠代法又分為精确叠代和近似叠代。“二分法”和“牛頓叠代法”屬于近似叠代法。叠代算法是用計算機解決問題的一種基本方法。它利用計算機運算速度快、适合做重複性操作的特點,讓計算機對一組指令(或一定步驟)進行重複執行,在每次執行這組指令(或這些步驟)時,都從變量的原值推出它的一個新值。

  七十二:分枝界限法(Branch and Bound Method)

  分枝定界法是一個用途十分廣泛的算法,運用這種算法的技巧性很強,不同類型的問題解法也各不相同。分支定界法的基本思想是對有約束條件的最優化問題的所有可行解(數目有限)空間進行搜索。該算法在具體執行時,把全部可行的解空間不斷分割為越來越小的子集(稱為分支),并為每個子集内的解的值計算一個下界或上界(稱為定界)。在每次分支後,對凡是界限超出已知可行解值那些子集不再做進一步分支。這樣,解的許多子集(即搜索樹上的許多結點)就可以不予考慮了,從而縮小了搜索範圍。這一過程一直進行到找出可行解為止,該可行解的值不大于任何子集的界限。因此這種算法一般可以求得最優解。

  七十三:割圓術(cyclotomic method)

  所謂“割圓術”,是用圓内接正多邊形的面積去無限逼近圓面積并以此求取圓周率的方法。

  七十四:推薦算法詳解

  1、基于關聯規則的推薦(Association Rule-based Recommendation)是以關聯規則為基礎,把已購商品作為規則頭,規則體為推薦對象。關聯規則挖掘可以發現不同商品在銷售過程中的相關性,在零售業中已經得到了成功的應用。管理規則就是在一個交易數據庫中統計購買了商品集X的交易中有多大比例的交易同時購買了商品集Y,其直觀的意義就是用戶在購買某些商品的時候有多大傾向去購買另外一些商品。比如購買牛奶的同時很多人會同時購買面包。

  2、基于效用的推薦(Utility-based Recommendation)是建立在對用戶使用項目的效用情況上計算的,其核心問題是怎麼樣為每一個用戶去創建一個效用函數,因此,用戶資料模型很大程度上是由系統所采用的效用函數決定的。基于效用推薦的好處是它能把非産品的屬性,如提供商的可靠性(Vendor Reliability)和産品的可得性(Product Availability)等考慮到效用計算中。

  3、基于知識的推薦(Knowledge-based Recommendation)在某種程度是可以看成是一種推理(Inference)技術,它不是建立在用戶需要和偏好基礎上推薦的。基于知識的方法因它們所用的功能知識不同而有明顯區别。效用知識(Functional Knowledge)是一種關于一個項目如何滿足某一特定用戶的知識,因此能解釋需要和推薦的關系,所以用戶資料可以是任何能支持推理的知識結構,它可以是用戶已經規範化的查詢,也可以是一個更詳細的用戶需要的表示。

  4、組合推薦(Hybrid Recommendation)

  由于各種推薦方法都有優缺點,所以在實際中,組合推薦(Hybrid Recommendation)經常被采用。研究和應用最多的是内容推薦和協同過濾推薦的組合。最簡單的做法就是分别用基于内容的方法和協同過濾推薦方法去産生一個推薦預測結果,然後用某方法組合其結果。盡管從理論上有很多種推薦組合方法,但在某一具體問題中并不見得都有效,組合推薦一個最重要原則就是通過組合後要能避免或彌補各自推薦技術的弱點。

  在組合方式上,有研究人員提出了七種組合思路:

  1)加權(Weight):加權多種推薦技術結果。

  2)變換(Switch):根據問題背景和實際情況或要求決定變換采用不同的推薦技術。

  3)混合(Mixed):同時采用多種推薦技術給出多種推薦結果為用戶提供參考。

  4)特征組合(Feature combination):組合來自不同推薦數據源的特征被另一種推薦算法所采用。

  5)層疊(Cascade):先用一種推薦技術産生一種粗糙的推薦結果,第二種推薦技術在此推薦結果的基礎上進一步作出更精确的推薦。

  6)特征擴充(Feature augmentation):一種技術産生附加的特征信息嵌入到另一種推薦技術的特征輸入中。

  7)元級别(Meta-level):用一種推薦方法産生的模型作為另一種推薦方法的輸入。

  七十五:鄰近算法(k-NearestNeighbor)

  鄰近算法,或者說K最近鄰(kNN,k-NearestNeighbor)分類算法是數據挖掘分類技術中最簡單的方法之一。所謂K最近鄰,就是k個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k個鄰居來代表。

  kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數屬于某一個類别,則該樣本也屬于這個類别,并具有這個類别上樣本的特性。該方法在确定分類決策上隻依據最鄰近的一個或者幾個樣本的類别來決定待分樣本所屬的類别。 kNN方法在類别決策時,隻與極少量的相鄰樣本有關。由于kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判别類域的方法來确定所屬類别的,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為适合。

  七十六:Prim

  普裡姆算法(Prim算法),圖論中的一種算法,可在加權連通圖裡搜索最小生成樹。意即由此算法搜索到的邊子集所構成的樹中,不但包括了連通圖裡的所有頂點(英語:Vertex (graph theory)),且其所有邊的權值之和亦為最小。該算法于1930年由捷克數學家沃伊捷赫·亞爾尼克(英語:Vojtěch Jarník)發現;并在1957年由美國計算機科學家羅伯特·普裡姆(英語:Robert C. Prim)獨立發現;1959年,艾茲格·迪科斯徹再次發現了該算法。因此,在某些場合,普裡姆算法又被稱為DJP算法、亞爾尼克算法或普裡姆-亞爾尼克算法。

  七十七:支持向量機(Support Vector Machine)

  在機器學習領域,支持向量機SVM(Support Vector Machine)是一個有監督的學習模型,通常用來進行模式識别、分類、以及回歸分析。

  SVM的主要思想可以概括為兩點:⑴它是針對線性可分情況進行分析,對于線性不可分的情況,通過使用非線性映射算法将低維輸入空間線性不可分的樣本轉化為高維特征空間使其線性可分,從而 使得高維特征空間采用線性算法對樣本的非線性特征進行線性分析成為可能;

  七十八:Floyd算法

  Floyd算法又稱為插點法,是一種用于尋找給定的加權圖中多源點之間最短路徑的算法。該算法名稱以創始人之一、1978年圖靈獎獲得者、斯坦福大學計算機科學系教授羅伯特·弗洛伊德命名。

  七十九:辛普森悖論(Simpson’s Paradox)

  辛普森悖論亦有人譯為辛普森詭論,為英國統計學家E.H.辛普森(E.H.Simpson)于1951年提出的悖論,即在某個條件下的兩組數據,分别讨論時都會滿足某種性質,可是一旦合并考慮,卻可能導緻相反的結論。

  當人們嘗試探究兩種變量是否具有相關性的時候,比如新生錄取率與性别,報酬與性别等,會分别對之進行分組研究。辛普森悖論是在這種研究中,在某些前提下有時會産生的一種現象。即在分組比較中都占優勢的一方,會在總評中反而是失勢的一方。該現象于20世紀初就有人讨論,但一直到1951年E.H.辛普森在他發表的論文中,該現象才算正式被描述解釋。後來就以他的名字命名該悖論。

  為了避免辛普森悖論的出現,就需要斟酌各分組的權重,并乘以一定的系數去消除以分組數據基數差異而造成的影響。同時必需了解清楚情況,是否存在潛在因素,綜合考慮。

  八十:熵

  熵(entropy)指的是體系的混亂的程度,它在控制論、概率論、數論、天體物理、生命科學等領域都有重要應用,在不同的學科中也有引申出的更為具體的定義,是各領域十分重要的參量。熵的概念由魯道夫·克勞修斯(Rudolf Clausius)于1850年提出,并應用在熱力學中。1948年,克勞德·艾爾伍德·香農(Claude Elwood Shannon)第一次将熵的概念引入信息論中。

  八十一:甘特圖

  甘特圖(Gantt chart)又叫橫道圖、條狀圖(Bar chart)。以提出者亨利·L·甘特先生的名字命名。

  甘特圖内在思想簡單,即以圖示的方式通過活動列表和時間刻度形象地表示出任何特定項目的活動順序與持續時間。基本是一條線條圖,橫軸表示時間,縱軸表示活動(項目),線條表示在整個期間上計劃和實際的活動完成情況。它直觀地表明任務計劃在什麼時候進行,及實際進展與計劃要求的對比。管理者由此可便利地弄清一項任務(項目)還剩下哪些工作要做,并可評估工作進度。

  八十二:帕累托圖

  帕累托圖(Pareto chart)是以意大利經濟學家V.Pareto的名字而命名的。

  帕累托圖又叫排列圖、主次圖,是按照發生頻率大小順序繪制的直方圖,表示有多少結果是由已确認類型或範疇的原因所造成。它是将出現的質量問題和質量改進項目按照重要程度依次排列而采用的一種圖表。可以用來分析質量問題,确定産生質量問題的主要因素。

  八十三:SWOT分析法

  SWOT分析法又稱為态勢分析法,它是由舊金山大學的管理學教授于20世紀80年代初提出來的,SWOT四個英文字母分别代表:優勢(Strength)、劣勢(Weakness)、機會(Opportunity)、威脅(Threat)。

  八十四:google pagerank

  PageRank,網頁排名,又稱網頁級别、Google左側排名或佩奇排名,是一種由[1] 根據網頁之間相互的超鍊接計算的技術,而作為網頁排名的要素之一,以Google公司創辦人拉裡·佩奇(Larry Page)之姓來命名。Google用它來體現網頁的相關性和重要性,在搜索引擎優化操作中是經常被用來評估網頁優化的成效因素之一。Google的創始人拉裡·佩奇和謝爾蓋·布林于1998年在斯坦福大學發明了這項技術。

  八十五:AdaBoost

  Adaboost是一種叠代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。

  八十六:樸素貝葉斯模型(Naive Bayesian Model,NBM)

  貝葉斯分類是一系列分類算法的總稱,這類算法均以貝葉斯定理為基礎,故統稱為貝葉斯分類。樸素貝葉斯算法(Naive Bayesian) 是其中應用最為廣泛的分類算法之一。

  樸素貝葉斯分類器基于一個簡單的假定:給定目标值時屬性之間相互條件獨立。

  通過以上定理和“樸素”的假定,我們知道:

  P( Category | Document) = P ( Document | Category ) * P( Category) / P(Document)。

  八十七:搜索算法

  搜索算法是利用計算機的高性能來有目的的窮舉一個問題解空間的部分或所有的可能情況,從而求出問題的解的一種方法。

  搜索算法實際上是根據初始條件和擴展規則構造一棵“解答樹”并尋找符合目标狀态的節點的過程。所有的搜索算法從最終的算法實現上來看,都可以劃分成兩個部分——控制結構(擴展節點的方式)和産生系統(擴展節點),而所有的算法優化和改進主要都是通過修改其控制結構來完成的。

  八十八:模式識别

  模式識别(英語:Pattern Recognition),就是通過計算機用數學技術方法來研究模式的自動處理和判讀。我們把環境與客體統稱為“模式”。随着計算機技術的發展,人類有可能研究複雜的信息處理過程。信息處理過程的一個重要形式是生命體對環境及客體的識别。

  八十九:信息檢索

  信息檢索(Information Retrieval)是指信息按一定的方式組織起來,并根據信息用戶的需要找出有關的信息的過程和技術。狹義的信息檢索就是信息檢索過程的後半部分,即從信息集合中找出所需要的信息的過程,也就是我們常說的信息查尋(Information Search 或Information Seek)。

  九十:爬蟲(a reptile)

  網絡爬蟲是一種自動獲取網頁内容的程序,是搜索引擎的重要組成部分。網絡爬蟲為搜索引擎從萬維網下載網頁。一般分為傳統爬蟲和聚焦爬蟲。

  九十一:防爬蟲:KS-WAF将爬蟲行為分為搜索引擎爬蟲及掃描程序爬蟲,可屏蔽特定的搜索引擎爬蟲節省帶寬和性能,也可屏蔽掃描程序爬蟲,避免網站被惡意抓取頁面。

  九十二:R(統計應用軟件)

  R是用于統計分析、繪圖的語言和操作環境。R是屬于GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用于統計計算和統計制圖的優秀工具。

  九十三:C (The C Programming Language)

  C 是在C語言的基礎上開發的一種通用編程語言,應用廣泛。C 支持多種編程範式 --面向對象編程、泛型編程和過程化編程。最新正式标準C 14于2014年8月18日公布。 其編程領域衆廣,常用于系統開發,引擎開發等應用領域,是至今為止最受廣大受用的最強大編程語言之一,支持類:類、封裝、重載等!

  九十四:java(計算機編程語言)

  Java是一種可以撰寫跨平台應用軟件的面向對象的程序設計語言。Java 技術具有卓越的通用性、高效性、平台移植性和安全性,廣泛應用于個人PC、數據中心、遊戲控制台、科學超級計算機、移動電話和互聯網,同時擁有全球最大的開發者專業社群。

  九十五:自然語言處理(NLP,natural language processing)

  自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究将涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有着密切的聯系,但又有重要的區别。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統,特别是其中的軟件系統。因而它是計算機科學的一部分。

  九十六:分詞(Participle)

  分詞就是具有動詞及形容詞二者特征的詞,尤指以-ing或-ed,-d,-t,-en或-n結尾的英語動詞性形容詞,具有形容詞功能,同時又表現各種動詞性特點,如時态、語态、帶狀語性修飾語的性能及帶賓詞的性能。分詞分為現在分詞和過去分詞兩種,是一種非謂語動詞形式。現在分詞和過去分詞主要差别在于:現在分詞表示“主動和進行”,過去分詞表示“被動和完成”(不及物動詞的過去分詞不表示被動,隻表示完成)。分詞可以有自己的狀語、賓語或邏輯主語等。

  九十七:DNA序列

  部分DNA序列或基因序列使用一串字母表示的真實的或者假設的攜帶基因信息的DNA分子的一級結構。

  九十八:大數據分析(Large data analysis)

  大數據分析是指對規模巨大的數據進行分析。大數據可以概括為4個V, 數據量大(Volume)、速度快(Velocity)、類型多(Variety)、真實性(Veracity)。大數據作為時下最火熱的IT行業的詞彙,随之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士争相追捧的利潤焦點。随着大數據時代的來臨,大數據分析也應運而生。

  九十九:數據科學家(Data scientist)

  數據科學家是指能采用科學方法、運用數據挖掘工具對複雜多量的數字、符号、文字、網址、音頻或視頻等信息進行數字化重現與認識,并能尋找新的數據洞察的工程師或專家(不同于統計學家或分析師)。一個優秀的數據科學家需要具備的素質有:懂數據采集、懂數學算法、懂數學軟件、懂數據分析、懂預測分析、懂市場應用、懂決策分析等。

  一百:并行處理(Parallel Processing)

  行處理是計算機系統中能同時執行兩個或更多個處理機的一種計算方法。處理機可同時工作于同一程序的不同方面。并行處理的主要目的是節省大型和複雜問題的解決時間。為使用并行處理,首先需要對程序進行并行化處理,也就是說将工作各部分分配到不同處理機中。而主要問題是并行是一個相互依靠性問題,而不能自動實現。此外,并行也不能保證加速。但是一個在 n 個處理機上執行的程序速度可能會是在單一處理機上執行的速度的 n 倍。

  持續收集整理中,敬請期待。

  End.

  ,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved