1.某超市研究銷售紀(jì)錄數(shù)據(jù)后發(fā)現(xiàn),買啤酒的人很大概率也會(huì)購買尿布,這種屬于數(shù)據(jù)挖掘的哪類問題?
A.關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
B.聚類
C.分類
D.自然語言處理
2.以下兩種描述分別對(duì)應(yīng)哪兩種對(duì)分類算法的評(píng)價(jià)標(biāo)準(zhǔn)?
(a)警察抓小偷,描述警察抓的人中有多少個(gè)是小偷的標(biāo)準(zhǔn)。
(b)描述有多少比例的小偷給警察抓了的標(biāo)準(zhǔn)。
A.Precision,Recall
B.Recall,Precision
C.Precision,ROC
D.Recall,ROC
3.將原始數(shù)據(jù)進(jìn)行集成、變換、維度規(guī)約、數(shù)值規(guī)約是在以下哪個(gè)步驟的任務(wù)?
A.頻繁模式挖掘
B.分類和預(yù)測(cè)
C.數(shù)據(jù)預(yù)處理
D.數(shù)據(jù)流挖掘
4.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使帶同類標(biāo)簽的數(shù)據(jù)與帶其他標(biāo)簽的數(shù)據(jù)相分離?
A.分類
B.聚類
C.關(guān)聯(lián)分析
D.隱馬爾可夫鏈
5.什么是KDD?
A.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)
B.領(lǐng)域知識(shí)發(fā)現(xiàn)
C.文檔知識(shí)發(fā)現(xiàn)
D.動(dòng)態(tài)知識(shí)發(fā)現(xiàn)
6.使用交互式的和可視化的技術(shù),對(duì)數(shù)據(jù)進(jìn)行探索屬于數(shù)據(jù)挖掘的哪一類任務(wù)?
A.探索性數(shù)據(jù)分析
B.建模描述
C.預(yù)測(cè)建模
D.尋找模式和規(guī)則
7.為數(shù)據(jù)的總體分布建模;把多維空間劃分成組等問題屬于數(shù)據(jù)挖掘的哪一類任務(wù)?
A.探索性數(shù)據(jù)分析
B.建模描述
C.預(yù)測(cè)建模
D.尋找模式和規(guī)則
8.建立一個(gè)模型,通過這個(gè)模型根據(jù)已知的變量值來預(yù)測(cè)其他某個(gè)變量值屬于數(shù)據(jù)挖掘的哪一類任務(wù)?
A.根據(jù)內(nèi)容檢索
B.建模描述
C.預(yù)測(cè)建模
D.尋找模式和規(guī)則
9.用戶有一種感興趣的模式并且希望在數(shù)據(jù)集中找到相似的模式,屬于數(shù)據(jù)挖掘哪一類任務(wù)?
A.根據(jù)內(nèi)容檢索
B.建模描述
C.預(yù)測(cè)建模
D.尋找模式和規(guī)則
10.以下屬于可伸縮聚類算法的是。
A、CURE
B、DENCLUE
C、CLIQUE
D、OPOSSUM
11.下面哪種不屬于數(shù)據(jù)預(yù)處理的方法?
A 變量代換
B 離散化
C 聚集
D估計(jì)遺漏值
12.假設(shè)12個(gè)銷售價(jià)格記錄組已經(jīng)排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每種方法將它們劃分成四個(gè)箱。等頻(等深)劃分時(shí),15在第幾個(gè)箱子內(nèi)?
A 第一個(gè)
B 第二個(gè)
C 第三個(gè)
D 第四個(gè)
13.上題中,等寬劃分時(shí)(寬度為50),15又在哪個(gè)箱子里?
A 第一個(gè)
B 第二個(gè)
C 第三個(gè)
D 第四個(gè)
14.下面哪個(gè)不屬于數(shù)據(jù)的屬性類型:
A 標(biāo)稱
B 序數(shù)
C 區(qū)間
D 相異
15.在上題中,屬于定量的屬性類型是:
A 標(biāo)稱
B 序數(shù)
C 區(qū)間
D 相異
16.只有非零值才重要的二元屬性被稱作:
A 計(jì)數(shù)屬性
B 離散屬性
C 非對(duì)稱的二元屬性
D 對(duì)稱屬性
17.以下哪種方法不屬于特征選擇的標(biāo)準(zhǔn)方法:
A 嵌入
B 過濾
C 包裝
D 抽樣
18.下面不屬于創(chuàng)建新屬性的相關(guān)方法的是:
A 特征提取
B 特征修改
C 映射數(shù)據(jù)到新的空間
D 特征構(gòu)造
19.考慮值集{1、2、3、4、5、90},其截?cái)嗑担╬=20%)是
A 2
B 3
C 3.5
D 5
20.下面哪個(gè)屬于映射數(shù)據(jù)到新的空間的方法?
A 傅立葉變換
B 特征加權(quán)
C 漸進(jìn)抽樣
D 維歸約
21.熵是為消除不確定性所需要獲得的信息量,投擲均勻正六面體骰子的熵是:
A1 比特
B 2.6比特
C 3.2比特
D 3.8比特
22.假設(shè)屬性income的最大最小值分別是12000元和98000元。利用最大最小規(guī)范化的方法將屬性的值映射到0至1的范圍內(nèi)。對(duì)屬性income的73600元將被轉(zhuǎn)化為:
A 0.821
B 1.224
C 1.458
D 0.716
23.假定用于分析的數(shù)據(jù)包含屬性age。數(shù)據(jù)元組中age的值如下(按遞增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,問題:使用按箱平均值平滑方法對(duì)上述數(shù)據(jù)進(jìn)行平滑,箱的深度為3。第二個(gè)箱子值為:
A 18.3
B 22.6
C 26.8
D 27.9
24.考慮值集{12 24 33 24 55 68 26},其四分位數(shù)極差是:
A 31
B 24
C 55
D 3
25.一所大學(xué)內(nèi)的各年級(jí)人數(shù)分別為:一年級(jí)200人,二年級(jí)160人,三年級(jí)130人,四年級(jí)110人。則年級(jí)屬性的眾數(shù)是:
A 一年級(jí)
B 二年級(jí)
C 三年級(jí)
D 四年級(jí)
26.下列哪個(gè)不是專門用于可視化時(shí)間空間數(shù)據(jù)的技術(shù):
A 等高線圖
B 餅圖
C 曲面圖
D 矢量場(chǎng)圖
27.在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是:
A 有放回的簡(jiǎn)單隨機(jī)抽樣
B 無放回的簡(jiǎn)單隨機(jī)抽樣
C 分層抽樣
D 漸進(jìn)抽樣
28.數(shù)據(jù)倉庫是隨著時(shí)間變化的,下面的描述不正確的是
A.數(shù)據(jù)倉庫隨時(shí)間的變化不斷增加新的數(shù)據(jù)內(nèi)容;
B.捕捉到的新數(shù)據(jù)會(huì)覆蓋原來的快照;
C.數(shù)據(jù)倉庫隨事件變化不斷刪去舊的數(shù)據(jù)內(nèi)容;
D.數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會(huì)隨著時(shí)間的變化不斷地進(jìn)行重新綜合.
29.關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指:
A.基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉庫,數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息;
B.基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息;
C.基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息;
D.基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息
30.下面關(guān)于數(shù)據(jù)粒度的描述不正確的是:
A.粒度是指數(shù)據(jù)倉庫小數(shù)據(jù)單元的詳細(xì)程度和級(jí)別;
B.數(shù)據(jù)越詳細(xì),粒度就越小,級(jí)別也就越高;
C.數(shù)據(jù)綜合度越高,粒度也就越大,級(jí)別也就越高;
D.粒度的具體劃分將直接影響數(shù)據(jù)倉庫中的數(shù)據(jù)量以及查詢質(zhì)量.
31.有關(guān)數(shù)據(jù)倉庫的開發(fā)特點(diǎn),不正確的描述是:
A.數(shù)據(jù)倉庫開發(fā)要從數(shù)據(jù)出發(fā);
B.數(shù)據(jù)倉庫使用的需求在開發(fā)出去就要明確;
C.數(shù)據(jù)倉庫的開發(fā)是一個(gè)不斷循環(huán)的過程,是啟發(fā)式的開發(fā);
D.在數(shù)據(jù)倉庫環(huán)境中,并不存在操作型環(huán)境中所固定的和較確切的處理流,數(shù)據(jù)倉庫中數(shù)據(jù)分析和處理更靈活,且沒有固定的模式
32.在有關(guān)數(shù)據(jù)倉庫測(cè)試,下列說法不正確的是:
A.在完成數(shù)據(jù)倉庫的實(shí)施過程中,需要對(duì)數(shù)據(jù)倉庫進(jìn)行各種測(cè)試.測(cè)試工作中要包括單元測(cè)試和系統(tǒng)測(cè)試.
B.當(dāng)數(shù)據(jù)倉庫的每個(gè)單獨(dú)組件完成后,就需要對(duì)他們進(jìn)行單元測(cè)試.
C.系統(tǒng)的集成測(cè)試需要對(duì)數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測(cè)試和回歸測(cè)試.
D.在測(cè)試之前沒必要制定詳細(xì)的測(cè)試計(jì)劃.
33.OLAP技術(shù)的核心是:
A.在線性;
B.對(duì)用戶的快速響應(yīng);
C.互操作性.
D.多維分析;
34.關(guān)于OLAP的特性,下面正確的是:
(1)快速性(2)可分析性(3)多維性(4)信息性(5)共享性
A.(1)(2)(3)
B.(2)(3)(4)
C.(1)(2)(3)(4)
D.(1)(2)(3)(4)(5)
35.關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是:
A.OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OTAP應(yīng)用程序不同.
B.與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù).
C.OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高.
D.OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來自底層的數(shù)據(jù)庫系統(tǒng),兩者面對(duì)的用戶是相同的.
36.OLAM技術(shù)一般簡(jiǎn)稱為”數(shù)據(jù)聯(lián)機(jī)分析挖掘”,下面說法正確的是:
A.OLAP和OLAM都基于客戶機(jī)/服務(wù)器模式,只有后者有與用戶的交互性;
B.由于OLAM的立方體和用于OLAP的立方體有本質(zhì)的區(qū)別.
C.基于WEB的OLAM是WEB技術(shù)與OLAM技術(shù)的結(jié)合.
D.OLAM服務(wù)器通過用戶圖形借口接收用戶的分析指令,在元數(shù)據(jù)的知道下,對(duì)超級(jí)立方體作一定的操作.
37.關(guān)于OLAP和OLTP的說法,下列不正確的是:
A.OLAP事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高.
B.OLAP的最終數(shù)據(jù)來源與OLTP不一樣.
C.OLTP面對(duì)的是決策人員和高層管理人員.
D.OLTP以應(yīng)用為核心,是應(yīng)用驅(qū)動(dòng)的.
38.設(shè)X={1,2,3}是頻繁項(xiàng)集,則可由X產(chǎn)生____個(gè)關(guān)聯(lián)規(guī)則。
A、4
B、5
C、6
D、7
39.頻繁項(xiàng)集、頻繁閉項(xiàng)集、最大頻繁項(xiàng)集之間的關(guān)系是:
A、頻繁項(xiàng)集頻繁閉項(xiàng)集=最大頻繁項(xiàng)集
B、頻繁項(xiàng)集=頻繁閉項(xiàng)集最大頻繁項(xiàng)集
C、頻繁項(xiàng)集頻繁閉項(xiàng)集最大頻繁項(xiàng)集
D、頻繁項(xiàng)集=頻繁閉項(xiàng)集=最大頻繁項(xiàng)集
40.概念分層圖是____圖。
A、無向無環(huán)
B、有向無環(huán)
C、有向有環(huán)
D、無向有環(huán)
答案:
AACBA, ?ABCAA,
DBADC, ?CDBCA,
BDAAA, ?BDCDC,
ADDDC, ?DACCB