* 大數(shù)據(jù)量存儲(chǔ):分布式存儲(chǔ)
* 日志處理: Hadoop擅長(zhǎng)這個(gè)
* 海量計(jì)算: 并行計(jì)算
* ETL:數(shù)據(jù)抽取到oracle、mysql、DB2、mongdb及主流數(shù)據(jù)庫(kù)
* 使用HBase做數(shù)據(jù)分析: 用擴(kuò)展性應(yīng)對(duì)大量的寫操作—Facebook構(gòu)建了基于HBase的實(shí)時(shí)數(shù)據(jù)分析系統(tǒng)
* 機(jī)器學(xué)習(xí): 比如Apache Mahout項(xiàng)目
* 搜索引擎:hadoop + lucene實(shí)現(xiàn)
* 數(shù)據(jù)挖掘:目前比較流行的廣告推薦
* 大量地從文件中順序讀。HDFS對(duì)順序讀進(jìn)行了優(yōu)化,代價(jià)是對(duì)于隨機(jī)的訪問負(fù)載較高。
* 數(shù)據(jù)支持一次寫入,多次讀取。對(duì)于已經(jīng)形成的數(shù)據(jù)的更新不支持。
* 數(shù)據(jù)不進(jìn)行本地緩存(文件很大,且順序讀沒有局部性)
* 任何一臺(tái)服務(wù)器都有可能失效,需要通過大量的數(shù)據(jù)復(fù)制使得性能不會(huì)受到大的影響。
* 用戶細(xì)分特征建模
* 個(gè)性化廣告推薦
* 智能儀器推薦
from: http://www.aboutyun.com/thread-5726-1-1.html