什么是英特爾? DAAL?
英特爾?數(shù)據(jù)分析加速庫(Intel? DAAL)是英特爾?架構(gòu)優(yōu)化的構(gòu)件庫,涵蓋了所有數(shù)據(jù)分析階段:從數(shù)據(jù)源獲取數(shù)據(jù)、預(yù)處理、轉(zhuǎn)換、數(shù)據(jù)挖掘、建模、驗(yàn)證和決策。有助于提升機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析能力,并幫助數(shù)據(jù)工程師縮短開發(fā)高性能應(yīng)用的時(shí)間。為了在一系列英特爾?處理器上實(shí)現(xiàn)最佳性能,英特爾? DAAL使用英特爾?數(shù)學(xué)內(nèi)核庫和英特爾?集成性能基元的優(yōu)化算法。

英特爾? DAAL支持端到端分析的概念,當(dāng)一些數(shù)據(jù)分析階段在邊緣設(shè)備上執(zhí)行時(shí)(接近數(shù)據(jù)生成和最終消費(fèi)的地方)。具體來說,英特爾? DAAL應(yīng)用編程接口(API)與特定的跨設(shè)備通信技術(shù)無關(guān),因此可以在不同的端到端分析框架中使用。? ? ?
英特爾? DAAL是加速數(shù)據(jù)分析應(yīng)用的常用構(gòu)件庫,它支持各種使用場(chǎng)景,包括在基于IA的移動(dòng)設(shè)備或傳感器上進(jìn)行分析,在高性能集群上運(yùn)行大規(guī)模分布式大數(shù)據(jù)分析。它支持各種使用場(chǎng)景,從在基于IA的移動(dòng)設(shè)備或傳感器上進(jìn)行分析,到在高性能集群上運(yùn)行大規(guī)模分布式大數(shù)據(jù)分析。
該庫的目標(biāo)客戶是那些關(guān)心數(shù)據(jù)分析軟件的性能和電源效率以及整體生產(chǎn)力的軟件開發(fā)人員。他們不需要花費(fèi)數(shù)天或數(shù)月的時(shí)間,通過實(shí)現(xiàn)和優(yōu)化常用的數(shù)據(jù)分析算法構(gòu)件。
英特爾? DAAL對(duì)許多數(shù)據(jù)分析應(yīng)用開發(fā)人員非常友好。它的API支持C++和Java*語言,允許軟件開發(fā)人員將DAAL與他們的C++和Java應(yīng)用程序和平臺(tái)無縫集成,即使在托管代碼環(huán)境中也能獲得出色的本地代碼性能。
與其他針對(duì)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域的庫不同,英特爾? DAAL優(yōu)化了整個(gè)工作流程,從SQL*和無SQL數(shù)據(jù)源的數(shù)據(jù)采集到數(shù)據(jù)轉(zhuǎn)換再到數(shù)據(jù)分析、訓(xùn)練和預(yù)測(cè)。
這個(gè)庫能解決什么問題?
英特爾? DAAL可用于知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘、預(yù)測(cè)分析、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析、人工智能、模式識(shí)別、神經(jīng)計(jì)算以及許多其他涉及大量數(shù)據(jù)和需要更快地完成分析和決策的問題。
這個(gè)庫可以用于哪些應(yīng)用領(lǐng)域?
現(xiàn)在每個(gè)應(yīng)用都會(huì)產(chǎn)生大量的數(shù)據(jù),包括文本、圖像、視頻、音頻、傳感器數(shù)據(jù)、客戶行為、財(cái)務(wù)數(shù)據(jù)等。 無論是預(yù)測(cè)客戶的購物行為,基于此推送廣告,還是將用戶極有可能購買的產(chǎn)品推送到用戶訪問的在線門戶,或是在藥物研發(fā)領(lǐng)域分析患者數(shù)據(jù)以找到更好的藥物,或是通過分析各種傳感器輸入的數(shù)據(jù)來降低功耗,或是在銀行預(yù)測(cè)消費(fèi)者償還貸款的概率,每一個(gè)需要生成、準(zhǔn)備、分析大量數(shù)據(jù)的領(lǐng)域都可以使用英特爾? DAAL。
有哪些算法可用?
英特爾? 數(shù)據(jù)分析加速庫 (Intel? DAAL) 的算法組件由實(shí)現(xiàn)數(shù)據(jù)分析(數(shù)據(jù)挖掘)和數(shù)據(jù)建模(訓(xùn)練和預(yù)測(cè))算法的類組成。英特爾? DAAL中提供了用于數(shù)據(jù)分析各個(gè)階段的各種算法。
數(shù)據(jù)挖掘和分析算法:
計(jì)算相關(guān)距離和余弦距離
PCA(相關(guān)性,SVD)
矩陣分解(SVD、QR、Cholesky)
計(jì)算統(tǒng)計(jì)矩
計(jì)算方差-協(xié)方差和相關(guān)矩陣。
計(jì)算數(shù)量級(jí)
單變量和多變量離群值檢測(cè)。
關(guān)聯(lián)規(guī)則挖掘
線性和RBF核函數(shù)
有監(jiān)督和無監(jiān)督的機(jī)器學(xué)習(xí)算法:
線性回歸
貝葉斯
AdaBoost、LogitBoost和BrownBoost分類器。
AVM分類器
K-Means聚類
高斯混合模型(GMM)的期望值最大化(EM)
支持分類器的驗(yàn)證指標(biāo),包括混淆矩陣、準(zhǔn)確率、精確度、召回率和Fscore。
批量/流媒體/分布式處理
英特爾? DAAL算法支持以下計(jì)算模式。
批量處理
在線處理
分布式處理
你可以在初始化算法時(shí)選擇計(jì)算模式。
批處理:所有英特爾? DAAL算法至少支持批處理計(jì)算模式。在批處理模式下,只使用特定算法類的計(jì)算方法。
在線處理 :?某些英特爾? DAAL 算法能夠以塊的形式處理數(shù)據(jù)集。在在線處理模式下,使用特定算法類的compute()和finalizeCompute()方法。這種計(jì)算模式假設(shè)數(shù)據(jù)以塊i=1,2,3,......nblocks的形式到達(dá)。每次有新的輸入時(shí),就調(diào)用compute()方法。當(dāng)最后一個(gè)數(shù)據(jù)塊到達(dá)時(shí),調(diào)用finalizeCompute()方法來產(chǎn)生最終結(jié)果。如果輸入數(shù)據(jù)以異步模式到達(dá),可以使用給定數(shù)據(jù)源的getStatus()方法來檢查是否有新的數(shù)據(jù)塊可以加載。
分布式處理:某些英特爾? DAAL算法可以處理分布在多個(gè)設(shè)備上的數(shù)據(jù)集。在分布式處理模式下,使用特定算法類的compute()和finalizeCompute()方法。這種計(jì)算模式假設(shè)數(shù)據(jù)集在計(jì)算節(jié)點(diǎn)上被分割成nblocks塊。