國(guó)科大--多媒體分析與理解--18/19/20/22年考試回憶

該課程是開卷考試,但不允許截屏或者保存考試試卷,這里只能根據(jù)回憶記錄考試內(nèi)容,大差不差,所有答案僅供參考。2022年的試卷憑回憶記錄,18/19/20年試卷來源于網(wǎng)絡(luò),但是答案做了進(jìn)一步的整理。

2018年考試試題

1. 論述什么是多媒體?多媒體分析與理解有哪些應(yīng)用領(lǐng)域和挑戰(zhàn)?

參考答案
(1). 多媒體是使用不同內(nèi)容形式組合的內(nèi)容,如文本、音頻、圖像、動(dòng)畫、視頻和交互式內(nèi)容?;蛘呋卮?,多媒體是指計(jì)算機(jī)處理的多種信息載體的統(tǒng)稱,包括文本、音頻、圖形、視頻和交互式內(nèi)容等形式。

(2). 多媒體分析與理解廣泛應(yīng)用于 安防、教育、通訊、娛樂等產(chǎn)業(yè)中。具體地,多媒體可以應(yīng)用在圖片檢索、內(nèi)容推薦、視覺監(jiān)控、視頻個(gè)性定制、社交媒體、視頻網(wǎng)站等領(lǐng)域。

(3). 面對(duì)的挑戰(zhàn)如下

  • 如何對(duì)不同媒體、不同模態(tài)的數(shù)據(jù)進(jìn)行表示;數(shù)據(jù)往往是海量的、高維的、非結(jié)構(gòu)化的,具有本身復(fù)雜性。
  • 如何理解多媒體數(shù)據(jù),并解決語義鴻溝等問題。
  • 如何挖掘多媒體數(shù)據(jù)之間的相互關(guān)聯(lián),即協(xié)同性與互補(bǔ)性。
  • 如何滿足用戶多樣化的信息需求,處理好用戶偏好與個(gè)性化。

2. 針對(duì)文本、音頻與圖像數(shù)據(jù)的特征表示方法,請(qǐng)分別列舉 2 種典型特征,并分析其優(yōu)缺點(diǎn)。

參考答案
(1). 文本

  • 詞頻(TF)表示法
    優(yōu)點(diǎn):用詞在文檔中的出現(xiàn)頻率可表示出一篇文檔中的側(cè)重點(diǎn),便于統(tǒng)計(jì)與分析。
    缺點(diǎn):文中多次出現(xiàn)的介詞、系動(dòng)詞等也會(huì)被統(tǒng)計(jì)出較高的權(quán)重。
  • 潛在語義分析法(LSA)
    優(yōu)點(diǎn):通過降維,有效解決了一詞多義與一義多詞的問題。
    缺點(diǎn):仍未解決文檔中間的有序性被破壞的問題。

(2). 音頻

  • 過零率
    優(yōu)點(diǎn):能側(cè)面反映信號(hào)在短時(shí)幀內(nèi)的平均頻率。
    缺點(diǎn):只關(guān)注了短時(shí)窗內(nèi)的幅值信息,頻域信息缺失。
  • 梅爾頻率倒譜系數(shù)
    優(yōu)點(diǎn):對(duì)特征進(jìn)行了去相關(guān)和壓縮。
    缺點(diǎn):對(duì)所有頻率段信息進(jìn)行同等處理,不能突出重要信息。

(3). 圖像

  • LBP
    優(yōu)點(diǎn):一定程度上消除了光照變化的問題,具有旋轉(zhuǎn)不變性,計(jì)算速度快。
    缺點(diǎn):光照不均時(shí)對(duì)應(yīng)的LBP算子會(huì)發(fā)生變化,同時(shí)LBP也丟失了方向信息。
  • SIFT
    優(yōu)點(diǎn):具有很好的尺度不變性和魯棒性。
    缺點(diǎn):實(shí)時(shí)性不高,具有時(shí)特征點(diǎn)較少,對(duì)邊緣光滑的目標(biāo)無法準(zhǔn)確提取特征點(diǎn)。

3. 卷積神經(jīng)網(wǎng)絡(luò)中一個(gè)典型層通常包含三種基本操作,請(qǐng)回答每種操作的基本含義或類型,所具備的基本特性或者優(yōu)缺點(diǎn)。

參考答案
典型層三種基本操作:卷積 ---> 非線性變換 ---> 池化

(1). 卷積操作:

  • 含義:卷積操作又稱濾波,卷積核函數(shù)又稱濾波器;在輸入圖像上的二維卷積,卷積輸出稱為 feature map。
  • 特征:通常會(huì)在同一個(gè)卷積層使用多個(gè)不同的卷積核以學(xué)習(xí)圖像的不同特征。當(dāng)卷積核輸入包含多個(gè)通道時(shí),可以把卷積核看成是3D的。

(2). 非線性變換:

  • 含義:先通過\phi(x)x空間的點(diǎn)轉(zhuǎn)換成z空間的點(diǎn),而在z空間上得到一個(gè)線性的假設(shè),再恢復(fù)到原來的x空間中得到一個(gè)二次的假設(shè)。
  • 特征:優(yōu)點(diǎn)是有很好的數(shù)學(xué)性質(zhì),缺點(diǎn)是很容易飽和、輸出不是0均值的會(huì)對(duì)梯度產(chǎn)生影響。

(3). 池化操作:

  • 含義:池化函數(shù)使用某一位置的相鄰位置的總體統(tǒng)計(jì)特征來代替網(wǎng)絡(luò)在該位置的輸出。常用的池化函數(shù)有最大池化、平均池化。
  • 特征:當(dāng)輸出作出少量平移時(shí),池化能夠幫助輸入的表示近似不變,即平移不變。減小參數(shù)規(guī)模,提高統(tǒng)計(jì)效率。在全連接層之前采用全局池化,可以保持全連接層節(jié)點(diǎn)數(shù)量不變,不受輸入圖像大小的影響。

4. 請(qǐng)說明圖像語義理解的基本研究?jī)?nèi)容,及其各項(xiàng)內(nèi)容的含義。請(qǐng)針對(duì)其中任一項(xiàng)內(nèi)容,從中選取 1 個(gè)典型算法或模型對(duì)其具體實(shí)現(xiàn)過程進(jìn)行詳細(xì)說明。

參考答案
(1). 圖像語義理解旨在研究圖像中存在何種物體、何種實(shí)例以及目標(biāo)之間的相互關(guān)系, 期望機(jī)器能像人一樣自動(dòng)“看懂”外部環(huán)境。本質(zhì)上是學(xué)習(xí)底層特征與高層語義之間的映射關(guān)系。

(2). 圖像語義理解基本任包括:

  • 圖像分類: 給每幅圖像預(yù)測(cè)一個(gè)類別。
  • 圖像標(biāo)注: 給每幅圖像預(yù)測(cè)多個(gè)語義標(biāo)簽。
  • 目標(biāo)檢測(cè): 給圖像中物體預(yù)測(cè)一個(gè)類別和一個(gè)緊致的定位目標(biāo)。
  • 語義分割: 給每個(gè)像素預(yù)測(cè)一個(gè)語義標(biāo)簽。
  • 圖像描述: 用自然語言描述圖像。

(3). 目標(biāo)檢測(cè)的一個(gè)經(jīng)典算法如下:
YOLO,其步驟如下:
??a. 將輸入圖像假想為一系列網(wǎng)格,并在每個(gè)網(wǎng)格中鋪設(shè)不同大小不同尺寸的 anchor。
??b. 然后將圖片送入特征網(wǎng)絡(luò)進(jìn)行特征提取。
??c. 對(duì)特征圖進(jìn)行解碼,包括預(yù)測(cè)anchor修正量、置信度和類別概率等等。
??d. 對(duì)預(yù)測(cè)的 bounding boxes 進(jìn)行過濾和 NMS 處理。


5. 詳細(xì)說明基于 SVD 和 RBM 推薦方法的基本原理, 并比較它們的優(yōu)劣。

參考答案
(1). SVD
對(duì)于所有用戶和所有商品打分,可以表示為一個(gè)稀疏矩陣R;基于SVD的推薦方法對(duì)矩陣R進(jìn)行分解,并且要求矩陣元素非負(fù),如下
R_{U\times I}=P_{U\times K}Q_{K\times I}然后用R中已知數(shù)據(jù)訓(xùn)練PQ,使得PQ相乘能最好地?cái)M合已知評(píng)分。具體地,預(yù)測(cè)用戶U對(duì)商品I的評(píng)分為。
\hat{r}_{ui}=p_{u}^{T}q_i則預(yù)測(cè)誤差為e_{ui}=r_{ui}-\hat{r}_{ui},總平方誤差為。
\mathrm{SSE}=\sum{e_{ui}^{2}}然后將\mathrm{SSE}作為損失對(duì)模型進(jìn)行訓(xùn)練即可。

(2). RBM
將某一用戶對(duì)某一商品的評(píng)分視作一個(gè) softmax 神經(jīng)元,softmax 神經(jīng)元是個(gè)長(zhǎng)度為 k 的向量,其只有一個(gè)分量為1,其余分量為0。而未評(píng)分的部分就可以用全0的 softmax 神經(jīng)元表示。這樣某個(gè)用戶的評(píng)分可以用矩陣 V 來表示,在給定可見單元的狀態(tài)下其激活概率為:
P\left( {{h_j} = 1\left| V \right.} \right) = \frac{1}{{1 + \exp \left( { - b_j - \sum\nolimits_{i = 1}^M {\sum\nolimits_{k = 1}^K {V_i^KW_{ij}^K} } } \right)}}同理,在給定隱單元狀態(tài)下 ,可見單元的激活率為:
P\left( {V_i^K = 1\left| h \right.} \right) = \frac{{\exp \left( {a_i^K + \sum\nolimits_{j = 1}^F {w_{ij}^K{h_j}} } \right)}}{{\sum\nolimits_{l = 1}^K {\exp \left( {a_i^l + \sum\nolimits_{j = 1}^F {{w_{ij}}{h_j}} } \right)} }}訓(xùn)練階段,輸入用戶打分過分的物品,依次計(jì)算輸入層和隱藏層的值,完成編碼過程;然后,根據(jù)隱層值計(jì)算輸入值,完成解碼過程。最后根據(jù)兩者差距對(duì) RBM 的權(quán)重進(jìn)行更新。
預(yù)測(cè)階段,將用戶u的所有評(píng)分作為 RBM 的 softmax 單元的輸入,然后計(jì)算隱藏層單元的激活概率,再計(jì)算可見層單元的概率,取所有概率的期望作為預(yù)測(cè)值。

(3). 比較:SVD計(jì)算過程雖更簡(jiǎn)單,但由于訓(xùn)練目標(biāo)單一,容易造成過擬合,而RBM則可以防止梯度爆炸和梯度消失,但求期望的過程會(huì)比較復(fù)雜,學(xué)習(xí)效率過慢。


6. 簡(jiǎn)單描述迭代量化哈希方法(Iterative Quantization,ITQ)的基本思想,并比較 ITQ 方法與局部敏感哈希(LSH)方法的優(yōu)劣。

參考答案
(1). 迭代量化哈希方法的基本思想為,先對(duì)數(shù)據(jù)集進(jìn)行PCA降維,然后尋找量化誤差最小的旋轉(zhuǎn)矩陣即可得到對(duì)應(yīng)該最優(yōu)旋轉(zhuǎn)矩陣下的特征向量的二進(jìn)制編碼。

(2). ITQ 方法與局部敏感哈希(LSH)方法的優(yōu)劣

  • ITQ
    • 優(yōu)點(diǎn):相比局部敏感哈希(LSH)方法多了一步操作,即數(shù)據(jù)降維后使用矩陣旋轉(zhuǎn)優(yōu)化,可以降低量化誤差。
    • 劣勢(shì):由于PCA不同維度的方差不平衡,旋轉(zhuǎn)PCA投影數(shù)據(jù)以盡量減少量化誤差時(shí)需不斷控制旋轉(zhuǎn)角度,即找出最優(yōu)的旋轉(zhuǎn)矩陣和與之對(duì)應(yīng)的編碼,相對(duì)麻煩。
  • LSH
    • 優(yōu)點(diǎn):通過hash function映射變換操作,將原始數(shù)據(jù)集合分成了多個(gè)子集合,而每個(gè)子集合中的數(shù)據(jù)間是相鄰的且該子集合中的元素個(gè)數(shù)較小,因此將一個(gè)在超大集合內(nèi)查找相鄰元素的問題轉(zhuǎn)化為了在一個(gè)很小的集合內(nèi)查找相鄰元素的問題,計(jì)算量下降了很多,改善近似檢索的計(jì)算表現(xiàn)。
    • 劣勢(shì):局部敏感哈希(LSH)方法并不能保證一定能夠查找到與query data point最相鄰的數(shù)據(jù)。

7. 運(yùn)動(dòng)目標(biāo)檢測(cè)的困難有哪些?并簡(jiǎn)述目前常用方法的優(yōu)缺點(diǎn)。

參考答案
(1). 困難包括:光照變化、動(dòng)態(tài)背景、偽裝目標(biāo)、相機(jī)抖動(dòng)、相機(jī)對(duì)焦不準(zhǔn)、間斷的物體運(yùn)動(dòng)、陰影影響等等。

(2). 目前常用方法包括如下:

  • 幀間差方法
    • 優(yōu)點(diǎn):算法簡(jiǎn)單、容易實(shí)現(xiàn)、檢測(cè)速度較快。而且一般相鄰兩幀的時(shí)間間隔比較短,因此對(duì)場(chǎng)景的光線變化不是特比敏感。
    • 缺點(diǎn):對(duì)噪聲非常敏感且檢測(cè)出的物體位置不精確,其次幀差法的檢測(cè)結(jié)果與目標(biāo)運(yùn)動(dòng)速度和相鄰兩幀間隔大小有關(guān)。目標(biāo)運(yùn)動(dòng)過快會(huì)被分成兩個(gè)目標(biāo),目運(yùn)動(dòng)過慢會(huì)被視作背景。
  • 背景差分法
    • 優(yōu)點(diǎn):算法比較簡(jiǎn)單;一定程度上克服了環(huán)境光線的影響。
    • 缺點(diǎn):不能用于運(yùn)動(dòng)的攝像頭;對(duì)背景圖像實(shí)時(shí)更新困難。
  • 統(tǒng)計(jì)平均法
    • 優(yōu)點(diǎn):選擇適當(dāng)?shù)膮?shù)能夠很好地修正背景圖像,從而得到一個(gè)較為真實(shí)的背景估計(jì)圖像。
    • 缺點(diǎn):對(duì)于頻繁出現(xiàn)的運(yùn)動(dòng)目標(biāo)或者在場(chǎng)景內(nèi)停留的時(shí)間較長(zhǎng),該模型不能夠很好的提取運(yùn)動(dòng)目標(biāo)。在復(fù)雜場(chǎng)景中會(huì)將一些偽目標(biāo)(如搖擺的樹枝等)檢測(cè)為運(yùn)動(dòng)目標(biāo)。這是由于在場(chǎng)景中樹枝的搖擺會(huì)引起像素值的變化。
  • 混合高斯模型
    • 優(yōu)點(diǎn):能適應(yīng)背景隨時(shí)間的緩慢變化,能描述背景中的如顯示器屏幕閃爍,樹枝晃動(dòng)等一些周期性擾動(dòng)等。
    • 缺點(diǎn):對(duì)于緩慢運(yùn)動(dòng)的目標(biāo)不能精確的檢測(cè)提取,不能夠很好的適應(yīng)陰影、噪聲造成的誤檢或漏檢,且不能適應(yīng)場(chǎng)景的突然變化。
  • 非參數(shù)核密度概率估計(jì)
    • 優(yōu)點(diǎn):可以漸進(jìn)收斂于任意形狀的概率密度,而且對(duì)動(dòng)態(tài)的場(chǎng)景還具有一定的適應(yīng)性。
    • 缺點(diǎn):運(yùn)算量非常大,很難實(shí)現(xiàn)對(duì)視頻圖像的實(shí)時(shí)檢測(cè)。對(duì)內(nèi)存要求比較高.
  • 基于碼本的運(yùn)動(dòng)目標(biāo)檢測(cè)
    • 優(yōu)點(diǎn):魯棒性強(qiáng),計(jì)算效率高,速度快,運(yùn)算量少,精確度高。
    • 缺點(diǎn):當(dāng)訓(xùn)練幀存在較大運(yùn)動(dòng)前景時(shí),碼本模型的建立會(huì)非常不準(zhǔn)確,更新參數(shù)的調(diào)整非常復(fù)雜,不能廣泛應(yīng)用于實(shí)際情況;由于對(duì)于視頻每個(gè)像素都要建立一個(gè)甚至多個(gè)碼本模型,訓(xùn)練模型比較耗時(shí),若需要背景重構(gòu),將大大降低運(yùn)算速度。
  • ViBe
    • 優(yōu)點(diǎn):思想簡(jiǎn)單,易于實(shí)現(xiàn)。(用有限樣本近似無限時(shí)間窗口)計(jì)算量小。運(yùn)算效率高。(樣本少;優(yōu)化了相似度匹配算法)樣本衰減策略。(隨機(jī)更新策略使得樣本生命周期指數(shù)衰減,不同于其他方法的先進(jìn)先出)
    • 缺點(diǎn):有鬼影、靜止目標(biāo)、陰影前景和運(yùn)動(dòng)目標(biāo)不完整等問題。
  • SubSense
    • 優(yōu)點(diǎn):使用了反饋機(jī)制,更好適應(yīng)不同場(chǎng)景,對(duì)噪聲更為魯棒。



2019年考試試題

1. 論述什么是多媒體? 多媒體分析與理解有哪些應(yīng)用領(lǐng)域和挑戰(zhàn)?(10 分)

參考答案
(1). 多媒體是使用不同內(nèi)容形式組合的內(nèi)容,如文本、音頻、圖像、動(dòng)畫、視頻和交互式內(nèi)容?;蛘呋卮?,多媒體是指計(jì)算機(jī)處理的多種信息載體的統(tǒng)稱,包括文本、音頻、圖形、視頻和交互式內(nèi)容等形式。

(2). 多媒體分析與理解廣泛應(yīng)用于安防、教育、通訊、娛樂等產(chǎn)業(yè)中。具體地,多媒體可以應(yīng)用在圖片檢索、內(nèi)容推薦、視覺監(jiān)控、視頻個(gè)性定制、社交媒體、視頻網(wǎng)站等領(lǐng)域。

(3). 面對(duì)的挑戰(zhàn)如下

  • 如何對(duì)不同媒體、不同模態(tài)的數(shù)據(jù)進(jìn)行表示;數(shù)據(jù)往往是海量的、高維的、非結(jié)構(gòu)化的,具有本身復(fù)雜性。
  • 如何理解多媒體數(shù)據(jù),并解決語義鴻溝等問題。
  • 如何挖掘多媒體數(shù)據(jù)之間的相互關(guān)聯(lián),即協(xié)同性與互補(bǔ)性。
  • 如何滿足用戶多樣化的信息需求,處理好用戶偏好與個(gè)性化。

2. 簡(jiǎn)述特征表示學(xué)習(xí)的必要性,及其主要解決方法與基本原理。(15 分)

參考答案
(1). 必要性
特征表示學(xué)習(xí)是指在機(jī)器學(xué)習(xí)中,對(duì)原始數(shù)據(jù)進(jìn)行處理,提取出有用的特征信息并將其轉(zhuǎn)換為模型可以處理的形式,以便對(duì)數(shù)據(jù)進(jìn)行分析和建模。 必要性如下:

  • 維數(shù)災(zāi)難:隨著特征維數(shù)的增加,特征空間體積呈指數(shù)增加,從而導(dǎo)致各方面成本增加;高維空間中樣本距離的度量意義減弱,致使模型性能下降;模型參數(shù)量會(huì)隨著數(shù)據(jù)維度上升而上升;維度過高容易引起模型過擬合。
  • 原始數(shù)據(jù)通常有很大的冗余和噪聲,不能直接用于建模;特征表示學(xué)習(xí)可以幫助去除冗余信息,提高數(shù)據(jù)的質(zhì)量和可用性。

(2). 主要解決方法

  • 特征降維:通過某種數(shù)學(xué)變換將樣本表示由高維空間映射到低維子空間,合適的數(shù)據(jù)變換依據(jù)有:樣本最大可分性、距離屬性保持等;主要方法:主成分分析、線性判別分析、流形學(xué)習(xí)等。
  • 特征選擇:從給定特征集合中選擇出最有效的特征子集,主要方法包括過濾法 Fliter,包裹法 Wrapper,嵌入法 Embedding。
  • 特征融合:數(shù)據(jù)對(duì)象的表征具有天然的多特征特性,實(shí)現(xiàn)對(duì)數(shù)據(jù)對(duì)象的分析理解需要融合多元化數(shù)據(jù)非常重要,包括特征層融合、決策層融合。

3. 簡(jiǎn)述反向誤差傳播算法的基本原理,并說明該算法在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中可能遇到的問題及其應(yīng)對(duì)措施。(15 分)

參考答案
(1). 反向傳播基本原理:用輸出層的誤差來估計(jì)前一層的誤差,然后再用這個(gè)誤差估計(jì)更前一層的誤差,依次將誤差反向傳播下去,從而獲得所有其它各層的誤差估計(jì);然后使用梯度下降法,結(jié)合逐層的誤差估計(jì),對(duì)網(wǎng)絡(luò)的所有權(quán)重進(jìn)行調(diào)節(jié)。

(2). 能遇到的典型問題及相應(yīng)的解決方法如下:

  • 模型產(chǎn)生過擬合,解決方案包括:
    a. 進(jìn)行數(shù)據(jù)增強(qiáng)、擴(kuò)充訓(xùn)練樣本。
    b. 提前在適當(dāng)?shù)臅r(shí)候提前停止訓(xùn)練。
    c. 采用 Dropout、Droppath 等技術(shù)。
    d. 加入正則比約束,如嶺回歸、Lasso 回歸。
  • 梯度消失與梯度爆炸,解決方案包括:
    a. 采用 Relu 等無飽和區(qū)激活函數(shù)。
    b. 便用 BatchNormalization 進(jìn)行歸一化,避免進(jìn)入飽和區(qū)。
    c. 設(shè)置梯度剪切閾值,防止梯度過大。
  • 局部極小值問題,解決方案如下:
    a. 使用合適的參數(shù)初始化方式;
    b. 自適應(yīng)學(xué)習(xí)率調(diào)解方案;
    c. 梯度下降過程中加入動(dòng)量,或使用其他性能更好的優(yōu)化器;

4. 簡(jiǎn)述圖像語義理解的基本含義及其面臨的主要挑戰(zhàn),選取1個(gè)用于圖像語義理解任務(wù)的典型算法或模型對(duì)其具體實(shí)現(xiàn)過程進(jìn)行詳細(xì)說明。(15 分)

參考答案
(1). 圖像語義理解旨在研究圖像中存在何種物體、何種實(shí)例以及目標(biāo)之間的相互關(guān)系, 期望機(jī)器能像人一樣自動(dòng)“看懂”外部環(huán)境。本質(zhì)上是學(xué)習(xí)底層特征與高層語義之間的映射關(guān)系。

(2). 圖像語義理解基本任包括:

  • 圖像分類: 給每幅圖像預(yù)測(cè)一個(gè)類別。
  • 圖像標(biāo)注: 給每幅圖像預(yù)測(cè)多個(gè)語義標(biāo)簽。
  • 目標(biāo)檢測(cè): 給圖像中物體預(yù)測(cè)一個(gè)類別和一個(gè)緊致的定位目標(biāo)。
  • 語義分割: 給每個(gè)像素預(yù)測(cè)一個(gè)語義標(biāo)簽。
  • 圖像描述: 用自然語言描述圖像。

(3). 目標(biāo)檢測(cè)的一個(gè)經(jīng)典算法如下:

  • YOLO,其步驟如下:
    a. 將輸入圖像假想為一系列網(wǎng)格,并在每個(gè)網(wǎng)格中鋪設(shè)不同大小不同尺寸的 anchor。
    b. 然后將圖片送入特征網(wǎng)絡(luò)進(jìn)行特征提取。
    c. 對(duì)特征圖進(jìn)行解碼,包括預(yù)測(cè)anchor修正量、置信度和類別概率等等。
    d. 對(duì)預(yù)測(cè)的 bounding boxes 進(jìn)行過濾和 NMS 處理。

(4). 存在問題:

  • 無法解決圖片中物體尺度的變化問題。
  • 解決辦法:增加檢測(cè)頭、使用FPN網(wǎng)絡(luò)等。

5. 在NetFlix比賽中,單模型性能最好前兩種算法是什么?分別闡述其基本原理及它們之間的優(yōu)劣。(15分)

參考答案
分別是基于SVD的推薦方法和基于RBM的推薦方法,其基本原理如下。
(1). SVD
對(duì)于所有用戶和所有商品打分,可以表示為一個(gè)稀疏矩陣R;基于SVD的推薦方法對(duì)矩陣R進(jìn)行分解,并且要求矩陣元素非負(fù),如下
R_{U\times I}=P_{U\times K}Q_{K\times I}然后用R中已知數(shù)據(jù)訓(xùn)練PQ,使得PQ相乘能最好地?cái)M合已知評(píng)分。具體地,預(yù)測(cè)用戶U對(duì)商品I的評(píng)分為。
\hat{r}_{ui}=p_{u}^{T}q_i則預(yù)測(cè)誤差為e_{ui}=r_{ui}-\hat{r}_{ui},總平方誤差為。
\mathrm{SSE}=\sum{e_{ui}^{2}}然后將\mathrm{SSE}作為損失對(duì)模型進(jìn)行訓(xùn)練即可。

(2). RBM
將某一用戶對(duì)某一商品的評(píng)分視作一個(gè) softmax 神經(jīng)元,softmax 神經(jīng)元是個(gè)長(zhǎng)度為 k 的向量,其只有一個(gè)分量為1,其余分量為0。而未評(píng)分的部分就可以用全0的 softmax 神經(jīng)元表示。這樣某個(gè)用戶的評(píng)分可以用矩陣 V 來表示,在給定可見單元的狀態(tài)下其激活概率為:
P\left( {{h_j} = 1\left| V \right.} \right) = \frac{1}{{1 + \exp \left( { - b_j - \sum\nolimits_{i = 1}^M {\sum\nolimits_{k = 1}^K {V_i^KW_{ij}^K} } } \right)}}同理,在給定隱單元狀態(tài)下 ,可見單元的激活率為:
P\left( {V_i^K = 1\left| h \right.} \right) = \frac{{\exp \left( {a_i^K + \sum\nolimits_{j = 1}^F {w_{ij}^K{h_j}} } \right)}}{{\sum\nolimits_{l = 1}^K {\exp \left( {a_i^l + \sum\nolimits_{j = 1}^F {{w_{ij}}{h_j}} } \right)} }}訓(xùn)練階段,輸入用戶打分過分的物品,依次計(jì)算輸入層和隱藏層的值,完成編碼過程;然后,根據(jù)隱層值計(jì)算輸入值,完成解碼過程。最后根據(jù)兩者差距對(duì) RBM 的權(quán)重進(jìn)行更新。
預(yù)測(cè)階段,將用戶u的所有評(píng)分作為 RBM 的 softmax 單元的輸入,然后計(jì)算隱藏層單元的激活概率,再計(jì)算可見層單元的概率,取所有概率的期望作為預(yù)測(cè)值。
(3). 比較:SVD計(jì)算過程雖更簡(jiǎn)單,但由于訓(xùn)練目標(biāo)單一,容易造成過擬合,而RBM則可以防止梯度爆炸和梯度消失,但求期望的過程會(huì)比較復(fù)雜,學(xué)習(xí)效率過慢。


6. 簡(jiǎn)單描述迭代量化哈希方法(Iterative Quantization,ITQ),并比較其與局部敏感哈希(LSH)方法的優(yōu)劣。(15分)

參考答案
(1). 迭代量化哈希方法的基本思想為,先對(duì)數(shù)據(jù)集進(jìn)行PCA降維,然后尋找量化誤差最小的旋轉(zhuǎn)矩陣即可得到對(duì)應(yīng)該最優(yōu)旋轉(zhuǎn)矩陣下的特征向量的二進(jìn)制編碼。

(2). ITQ 方法與局部敏感哈希(LSH)方法的優(yōu)劣

  • ITQ
    優(yōu)點(diǎn):相比局部敏感哈希(LSH)方法多了一步操作,即數(shù)據(jù)降維后使用矩陣旋轉(zhuǎn)優(yōu)化,可以降低量化誤差。
    劣勢(shì):由于PCA不同維度的方差不平衡,旋轉(zhuǎn)PCA投影數(shù)據(jù)以盡量減少量化誤差時(shí)需不斷控制旋轉(zhuǎn)角度,即找出最優(yōu)的旋轉(zhuǎn)矩陣和與之對(duì)應(yīng)的編碼,相對(duì)麻煩。
  • LSH
    優(yōu)點(diǎn):通過hash function映射變換操作,將原始數(shù)據(jù)集合分成了多個(gè)子集合,而每個(gè)子集合中的數(shù)據(jù)間是相鄰的且該子集合中的元素個(gè)數(shù)較小,因此將一個(gè)在超大集合內(nèi)查找相鄰元素的問題轉(zhuǎn)化為了在一個(gè)很小的集合內(nèi)查找相鄰元素的問題,計(jì)算量下降了很多,改善近似檢索的計(jì)算表現(xiàn)。
    劣勢(shì):局部敏感哈希(LSH)方法并不能保證一定能夠查找到與query data point最相鄰的數(shù)據(jù)。

7. 闡述 PageRank 的基本原理,并試著闡述還可能有哪些改進(jìn)的方式。(15 分)

參考答案
(1). Page Rank:
PageRank 基本思想:如果一個(gè)網(wǎng)頁被很多其它網(wǎng)頁所鏈接,說明它受到普遍的承認(rèn)和信賴,那么它的 PagePank 值越高、排名也越高;如果一個(gè)網(wǎng)頁的PageRank 值較高,則其所鍵接的網(wǎng)頁也比較重要,PageRank 值也較高。
PageRank基本公式為
r(p)=\alpha \sum_{q:\left( q,p \right) \in q}{\frac{r\left( q \right)}{w\left( q \right)}}+\left( 1-\alpha \right) \frac{1}{N}

  • r(p): 網(wǎng)頁q的 PageRank值
  • q: p的后向鏈接
  • w(q): q的前向鏈接數(shù)目
  • N: 網(wǎng)絡(luò)中網(wǎng)頁的總數(shù)

(2). 可能的改進(jìn)

  • 主題敏感的 PageRank(Topic-Sedsitive PageRank)
    在這個(gè)算法中,我們需要預(yù)先計(jì)算離線時(shí)頁面的重要性的分?jǐn)?shù);然后,我們?yōu)槊恳粋€(gè)頁面計(jì)算多種重要性分?jǐn)?shù),即關(guān)于不同的主題來計(jì)算這個(gè)頁面的重要性分?jǐn)?shù)。在查詢的時(shí)候,把這些重要性分?jǐn)?shù)與根據(jù)被查詢的主題的重要性分?jǐn)?shù)綜合在一起,就形成一個(gè)復(fù)合PageRank 分?jǐn)?shù)。采用這種方法能形成更加精確的排序值,而不是原始普通的排序值。
  • 二次方程推斷法(Quadratic Extra polation)
    這是一個(gè)可以加快 PageRank 的運(yùn)算速度的方法。它能通過周期性的削減當(dāng)前的矩陣乘冪迭代的非主要特征向量的方法,大大加快其收斂速度。使用這種方法計(jì)算 PageRank 值時(shí),當(dāng)計(jì)算一個(gè)包含 8000 萬個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)圖時(shí),與采用原來的 PageRank 方法相比,計(jì)算速度可以提高 20%-300%。
  • 分塊矩陣排序算法(BlockRank Algorithm)
    該算法是 PageRank 算法的另一個(gè)加速算法,它首先把網(wǎng)絡(luò)根據(jù)領(lǐng)域劃分成不同的區(qū)域,為每個(gè)區(qū)域計(jì)算它們的 局部 PageRank 值;估計(jì)它們的相對(duì)的重要性(每個(gè)區(qū)域的BlockRank值);用這個(gè)區(qū)域的Block-Rank.值來給每個(gè)區(qū)域 的Block-Rank賦予一定的權(quán)重。然后再把這些加權(quán)的局部的 PageRank 值近似地看作全局的 PageRank 向量,把這個(gè)向量 作為標(biāo)準(zhǔn)的 PageRank 算法的開始向量。這種方法可以減少計(jì)算的迭代次數(shù),可以把更多的時(shí)間用于收斂速度慢的區(qū)域 的計(jì)算,提高了局部 PageRank 計(jì)算的有效性。BlockRank 算法可以采取并行或分布的形式來進(jìn)行計(jì)算,節(jié)約運(yùn)算的時(shí)間。 此外,局部的 PageRank 計(jì)算結(jié)果在以后的計(jì)算中可以被再利用。



2020年考試試題

1. 論述什么是多媒體?多媒體分析與理解有哪些應(yīng)用領(lǐng)域和挑戰(zhàn)?

參考答案
(1). 多媒體是使用不同內(nèi)容形式組合的內(nèi)容,如文本、音頻、圖像、動(dòng)畫、視頻和交互式內(nèi)容?;蛘呋卮穑嗝襟w是指計(jì)算機(jī)處理的多種信息載體的統(tǒng)稱,包括文本、音頻、圖形、視頻和交互式內(nèi)容等形式。

(2). 多媒體分析與理解廣泛應(yīng)用于安防、教育、通訊、娛樂等產(chǎn)業(yè)中。具體地,多媒體可以應(yīng)用在圖片檢索、內(nèi)容推薦、視覺監(jiān)控、視頻個(gè)性定制、社交媒體、視頻網(wǎng)站等領(lǐng)域。

(3). 面對(duì)的挑戰(zhàn)如下

  • 如何對(duì)不同媒體、不同模態(tài)的數(shù)據(jù)進(jìn)行表示;數(shù)據(jù)往往是海量的、高維的、非結(jié)構(gòu)化的,具有本身復(fù)雜性。
  • 如何理解多媒體數(shù)據(jù),并解決語義鴻溝等問題。
  • 如何挖掘多媒體數(shù)據(jù)之間的相互關(guān)聯(lián),即協(xié)同性與互補(bǔ)性。
  • 如何滿足用戶多樣化的信息需求,處理好用戶偏好與個(gè)性化。

2. 多媒體內(nèi)容描述有哪幾類代表性的特征表示學(xué)習(xí)方法,對(duì)比說明其異同點(diǎn),并每類列舉2-3種典型算法。

參考答案
(1). 特征降維:通過某種數(shù)學(xué)變換將樣本表示由高維空間映射到低維子空間,合適的數(shù)據(jù)變換依據(jù)有:樣本最大可分性、距離屬性保持等;主要方法:主成分分析、線性判別分析、流形學(xué)習(xí)等。

  • PCA:通過主成分分析方法,將高維數(shù)據(jù)映射到低維空間,并期望在所投影維度上數(shù)據(jù)的方差最大,以此使用較少的數(shù)據(jù)維度,同時(shí)保留住較多的原數(shù)據(jù)點(diǎn)的特性。
  • LDA:主要針對(duì)兩類問題,將數(shù)據(jù)有原始維度投影到一維空間,可直接用于分類。降維投影后的樣本點(diǎn),同類樣本之間距離盡可能近,異類樣本之間距離盡可能遠(yuǎn)。
  • 流形學(xué)習(xí)(LLE、Isomap):從高維采樣數(shù)據(jù)中恢復(fù)低維流形結(jié)構(gòu),即找到高維空間中的低維流形,并求出相應(yīng)的嵌入映射,以實(shí)現(xiàn)維數(shù)約簡(jiǎn)或者數(shù)據(jù)可視化。

(2). 特征選擇:從給定特征集合中選擇出最有效的特征子集,主要方法包括過濾法 Fliter,包裹法 Wrapper,嵌入法 Embedding。

  • 過濾法:通過分析特征子集有效性來衡量其好壞,一般用作預(yù)處理,與模型學(xué)習(xí)無關(guān)。
  • 包裹法:實(shí)質(zhì)上是一個(gè)分類器,用選取的特征子集對(duì)樣本集進(jìn)行分類,模型性能作為衡量特征子集好壞的標(biāo)準(zhǔn)。
  • 嵌入法:在模型學(xué)習(xí)的同時(shí),學(xué)習(xí)出對(duì)提高模型性能最好的特征子集,如 L1/L2 正則化。

(3). 特征融合:數(shù)據(jù)對(duì)象的表征具有天然的多特征特性,實(shí)現(xiàn)對(duì)數(shù)據(jù)對(duì)象的分析理解需要融合多元化數(shù)據(jù)非常重要,包括特征層融合、決策層融合。

  • 前向融合:特征層融合,形成融合特征表示,然后進(jìn)行模型的學(xué)習(xí)。
  • 后向融合:決策層融合,不同特征分別進(jìn)行模型學(xué)習(xí)后融合,得到最后的融合分類結(jié)果。

3. 簡(jiǎn)述語言模型的基本概念與應(yīng)用領(lǐng)域,并給出3種典型的語言模型的基本解決思路。

參考答案
(1). 語言模型的基本概念
語言模型用于表示語言中詞語序列出現(xiàn)的概率。它通常用來預(yù)測(cè)一個(gè)語言序列中下一個(gè)詞語的可能性。自然語言中標(biāo)記(詞、字符、字節(jié))序列的概率分布,記為 ,語言模型用于衡量詞序列符合自然語言表達(dá)的程度。 語言模型在自然語言處理領(lǐng)域中有廣泛應(yīng)用,包括語音識(shí)別、機(jī)器翻譯、拼寫檢查和信息檢索等領(lǐng)域。例如,在語音識(shí)別中,可以利用語言模型來評(píng)估識(shí)別出的文本序列是否合理,以提高識(shí)別準(zhǔn)確率。

(2). 典型的語言模型

  • n-gram
  • Word2Vec
  • ELMO
  • GPT
  • BERT
    原理抄PPT就可以。

4. 在NetFlix比賽中,單模型性能最好前兩種算法是什么?分別闡述其基本原理及它們之間的優(yōu)劣。

參考答案
分別是基于SVD的推薦方法和基于RBM的推薦方法,其基本原理如下。
(1). SVD
對(duì)于所有用戶和所有商品打分,可以表示為一個(gè)稀疏矩陣R;基于SVD的推薦方法對(duì)矩陣R進(jìn)行分解,并且要求矩陣元素非負(fù),如下
R_{U\times I}=P_{U\times K}Q_{K\times I}然后用R中已知數(shù)據(jù)訓(xùn)練PQ,使得PQ相乘能最好地?cái)M合已知評(píng)分。具體地,預(yù)測(cè)用戶U對(duì)商品I的評(píng)分為。
\hat{r}_{ui}=p_{u}^{T}q_i則預(yù)測(cè)誤差為e_{ui}=r_{ui}-\hat{r}_{ui},總平方誤差為。
\mathrm{SSE}=\sum{e_{ui}^{2}}然后將\mathrm{SSE}作為損失對(duì)模型進(jìn)行訓(xùn)練即可。

(2). RBM
將某一用戶對(duì)某一商品的評(píng)分視作一個(gè) softmax 神經(jīng)元,softmax 神經(jīng)元是個(gè)長(zhǎng)度為 k 的向量,其只有一個(gè)分量為1,其余分量為0。而未評(píng)分的部分就可以用全0的 softmax 神經(jīng)元表示。這樣某個(gè)用戶的評(píng)分可以用矩陣 V 來表示,在給定可見單元的狀態(tài)下其激活概率為:
P\left( {{h_j} = 1\left| V \right.} \right) = \frac{1}{{1 + \exp \left( { - b_j - \sum\nolimits_{i = 1}^M {\sum\nolimits_{k = 1}^K {V_i^KW_{ij}^K} } } \right)}}同理,在給定隱單元狀態(tài)下 ,可見單元的激活率為:
P\left( {V_i^K = 1\left| h \right.} \right) = \frac{{\exp \left( {a_i^K + \sum\nolimits_{j = 1}^F {w_{ij}^K{h_j}} } \right)}}{{\sum\nolimits_{l = 1}^K {\exp \left( {a_i^l + \sum\nolimits_{j = 1}^F {{w_{ij}}{h_j}} } \right)} }}訓(xùn)練階段,輸入用戶打分過分的物品,依次計(jì)算輸入層和隱藏層的值,完成編碼過程;然后,根據(jù)隱層值計(jì)算輸入值,完成解碼過程。最后根據(jù)兩者差距對(duì) RBM 的權(quán)重進(jìn)行更新。
預(yù)測(cè)階段,將用戶u的所有評(píng)分作為 RBM 的 softmax 單元的輸入,然后計(jì)算隱藏層單元的激活概率,再計(jì)算可見層單元的概率,取所有概率的期望作為預(yù)測(cè)值。
(3). 比較:SVD計(jì)算過程雖更簡(jiǎn)單,但由于訓(xùn)練目標(biāo)單一,容易造成過擬合,而RBM則可以防止梯度爆炸和梯度消失,但求期望的過程會(huì)比較復(fù)雜,學(xué)習(xí)效率過慢。


5. 簡(jiǎn)單描述迭代量化哈希方法(Iterative Quantization, ITQ) 的基本思想,并比較ITQ方法與局部敏感哈希(LSH) 方法的優(yōu)劣。

參考答案
(1). 迭代量化哈希方法的基本思想為,先對(duì)數(shù)據(jù)集進(jìn)行PCA降維,然后尋找量化誤差最小的旋轉(zhuǎn)矩陣即可得到對(duì)應(yīng)該最優(yōu)旋轉(zhuǎn)矩陣下的特征向量的二進(jìn)制編碼。

(2). ITQ 方法與局部敏感哈希(LSH)方法的優(yōu)劣

  • ITQ
    優(yōu)點(diǎn):相比局部敏感哈希(LSH)方法多了一步操作,即數(shù)據(jù)降維后使用矩陣旋轉(zhuǎn)優(yōu)化,可以降低量化誤差。
    劣勢(shì):由于PCA不同維度的方差不平衡,旋轉(zhuǎn)PCA投影數(shù)據(jù)以盡量減少量化誤差時(shí)需不斷控制旋轉(zhuǎn)角度,即找出最優(yōu)的旋轉(zhuǎn)矩陣和與之對(duì)應(yīng)的編碼,相對(duì)麻煩。
  • LSH
    優(yōu)點(diǎn):通過hash function映射變換操作,將原始數(shù)據(jù)集合分成了多個(gè)子集合,而每個(gè)子集合中的數(shù)據(jù)間是相鄰的且該子集合中的元素個(gè)數(shù)較小,因此將一個(gè)在超大集合內(nèi)查找相鄰元素的問題轉(zhuǎn)化為了在一個(gè)很小的集合內(nèi)查找相鄰元素的問題,計(jì)算量下降了很多,改善近似檢索的計(jì)算表現(xiàn)。
    劣勢(shì):局部敏感哈希(LSH)方法并不能保證一定能夠查找到與query data point最相鄰的數(shù)據(jù)。

6.闡述PageRank的基本原理,并試著闡述還可能有哪些改進(jìn)的方式。

參考答案
(1). Page Rank:
PageRank 基本思想:如果一個(gè)網(wǎng)頁被很多其它網(wǎng)頁所鏈接,說明它受到普遍的承認(rèn)和信賴,那么它的 PagePank 值越高、排名也越高;如果一個(gè)網(wǎng)頁的PageRank 值較高,則其所鍵接的網(wǎng)頁也比較重要,PageRank 值也較高。
PageRank基本公式為
r(p)=\alpha \sum_{q:\left( q,p \right) \in q}{\frac{r\left( q \right)}{w\left( q \right)}}+\left( 1-\alpha \right) \frac{1}{N}

  • r(p): 網(wǎng)頁q的 PageRank值
  • q: p的后向鏈接
  • w(q): q的前向鏈接數(shù)目
  • N: 網(wǎng)絡(luò)中網(wǎng)頁的總數(shù)

(2). 可能的改進(jìn)

  • 主題敏感的 PageRank(Topic-Sedsitive PageRank)
    在這個(gè)算法中,我們需要預(yù)先計(jì)算離線時(shí)頁面的重要性的分?jǐn)?shù);然后,我們?yōu)槊恳粋€(gè)頁面計(jì)算多種重要性分?jǐn)?shù),即關(guān)于不同的主題來計(jì)算這個(gè)頁面的重要性分?jǐn)?shù)。在查詢的時(shí)候,把這些重要性分?jǐn)?shù)與根據(jù)被查詢的主題的重要性分?jǐn)?shù)綜合在一起,就形成一個(gè)復(fù)合PageRank 分?jǐn)?shù)。采用這種方法能形成更加精確的排序值,而不是原始普通的排序值。
  • 二次方程推斷法(Quadratic Extra polation)
    這是一個(gè)可以加快 PageRank 的運(yùn)算速度的方法。它能通過周期性的削減當(dāng)前的矩陣乘冪迭代的非主要特征向量的方法,大大加快其收斂速度。使用這種方法計(jì)算 PageRank 值時(shí),當(dāng)計(jì)算一個(gè)包含 8000 萬個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)圖時(shí),與采用原來的 PageRank 方法相比,計(jì)算速度可以提高 20%-300%。
  • 分塊矩陣排序算法(BlockRank Algorithm)
    該算法是 PageRank 算法的另一個(gè)加速算法,它首先把網(wǎng)絡(luò)根據(jù)領(lǐng)域劃分成不同的區(qū)域,為每個(gè)區(qū)域計(jì)算它們的 局部 PageRank 值;估計(jì)它們的相對(duì)的重要性(每個(gè)區(qū)域的BlockRank值);用這個(gè)區(qū)域的Block-Rank.值來給每個(gè)區(qū)域 的Block-Rank賦予一定的權(quán)重。然后再把這些加權(quán)的局部的 PageRank 值近似地看作全局的 PageRank 向量,把這個(gè)向量 作為標(biāo)準(zhǔn)的 PageRank 算法的開始向量。這種方法可以減少計(jì)算的迭代次數(shù),可以把更多的時(shí)間用于收斂速度慢的區(qū)域 的計(jì)算,提高了局部 PageRank 計(jì)算的有效性。BlockRank 算法可以采取并行或分布的形式來進(jìn)行計(jì)算,節(jié)約運(yùn)算的時(shí)間。 此外,局部的 PageRank 計(jì)算結(jié)果在以后的計(jì)算中可以被再利用。



2022年考試試題

1. 論述什么是多媒體?存在哪些應(yīng)用和挑戰(zhàn)?

參考答案
(1). 多媒體是使用不同內(nèi)容形式組合的內(nèi)容,如文本、音頻、圖像、動(dòng)畫、視頻和交互式內(nèi)容?;蛘呋卮?,多媒體是指計(jì)算機(jī)處理的多種信息載體的統(tǒng)稱,包括文本、音頻、圖形、視頻和交互式內(nèi)容等形式。

(2). 多媒體分析與理解廣泛應(yīng)用任安防、教育、通訊、娛樂等產(chǎn)業(yè)中。具體地,多媒體可以應(yīng)用在圖片檢索、內(nèi)容推薦、視覺監(jiān)控、視頻個(gè)性定制、社交媒體、視頻網(wǎng)站等領(lǐng)域。

(3). 面對(duì)的挑戰(zhàn)如下

  • 如何對(duì)不同媒體、不同模態(tài)的數(shù)據(jù)進(jìn)行表示;數(shù)據(jù)往往是海量的、高維的、非結(jié)構(gòu)化的,具有本身復(fù)雜性。
  • 如何理解多媒體數(shù)據(jù),并解決語義鴻溝等問題。
  • 如何挖掘多媒體數(shù)據(jù)之間的相互關(guān)聯(lián),即協(xié)同性與互補(bǔ)性。
  • 如何滿足用戶多樣化的信息需求,處理好用戶偏好與個(gè)性化。

2. 闡述反向傳播的基本原理和求解思路,分析BP算法中的兩種以上的典型問題,以及相應(yīng)的解決方法。

參考答案
(1). 反向傳播基本原理:用輸出層的誤差來估計(jì)前一層的誤差,然后再用這個(gè)誤差估計(jì)更前一層的誤差,依次將誤差反向傳播下去,從而獲得所有其它各層的誤差估計(jì);然后使用梯度下降法,結(jié)合逐層的誤差估計(jì),對(duì)網(wǎng)絡(luò)的所有權(quán)重進(jìn)行調(diào)節(jié)。

(2). 能遇到的典型問題及相應(yīng)的解決方法如下:

  • 模型產(chǎn)生過擬合,解決方案包括:
    a. 進(jìn)行數(shù)據(jù)增強(qiáng)、擴(kuò)充訓(xùn)練樣本。
    b. 提前在適當(dāng)?shù)臅r(shí)候提前停止訓(xùn)練。
    c. 采用 Dropout、Droppath 等技術(shù)。
    d. 加入正則比約束,如嶺回歸、Lasso 回歸。
  • 梯度消失與梯度爆炸,解決方案包括:
    a. 采用 Relu 等無飽和區(qū)激活函數(shù)。
    b. 便用 BatchNormalization 進(jìn)行歸一化,避免進(jìn)入飽和區(qū)。
    c. 設(shè)置梯度剪切閾值,防止梯度過大。

3. 簡(jiǎn)述預(yù)訓(xùn)練模型的核心思想與應(yīng)用場(chǎng)景,給出3種典型預(yù)訓(xùn)練任務(wù)(自監(jiān)督學(xué)習(xí)任務(wù))的基本思路。

參考答案
(1). 預(yù)訓(xùn)練模型旨在通過提前在大規(guī)摸數(shù)據(jù)上進(jìn)行訓(xùn)練,為下游任務(wù)提供更好的特征表達(dá)和基礎(chǔ)模型,然后將其用作初始化,在較小的有監(jiān)督學(xué)習(xí)數(shù)據(jù)集上進(jìn)行微調(diào),以便用于特定的任務(wù)。近年來,隨著自監(jiān)督學(xué)習(xí)技術(shù)的不斷發(fā)展,大模型能夠通過自監(jiān)督學(xué)習(xí)的相關(guān)技術(shù)在海量、大規(guī)模、無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,充分地學(xué)習(xí)數(shù)據(jù)中蘊(yùn)含的通用知識(shí),為下游任務(wù)提供通用的特征表達(dá)。

(2). 典型應(yīng)用場(chǎng)景舉例:

  • 語言預(yù)訓(xùn)練摸型。如 GPT、BERT、ERINE 等語言模型,極大地提升了 NLP 中相關(guān)下游件務(wù)的性能。
  • 視覺預(yù)訓(xùn)練模型。如在 Imagenet 1K、ImageNee21K 上預(yù)訓(xùn)練的視覺模型;或者是使用 Moco、SimCLR、MaskFeat、MAE、BeiT 等方法訓(xùn)練的視覺模型,均提升了 CV 中相關(guān)下游任務(wù)的性能。
  • 多模態(tài)預(yù)訓(xùn)練模型。如 CLIP、ViL-BERT,Oscar,ViLT 等模型均提升了多模態(tài)下游依務(wù)的性能。

(3). 一些自監(jiān)督任務(wù)的基本思路:

  • 語言掩碼學(xué)習(xí), MLM。通過預(yù)測(cè)輸入語句中被mask的單詞,學(xué)習(xí)語句間的上下文語義關(guān)系。
  • 上下文預(yù)測(cè), NSP。判斷兩個(gè)子句是否在原文中相鄰。
  • 對(duì)比學(xué)習(xí)。將相同類別或相同pair的數(shù)據(jù)拉近,不同類、不同pair數(shù)據(jù)拉遠(yuǎn)。
  • Image-Text Matching。判斷當(dāng)前輸入的圖像-文本對(duì)是否匹配。

4. 簡(jiǎn)述圖像語義理解領(lǐng)域的主要研究?jī)?nèi)容,選擇某類語義理解任務(wù)的典型方法,簡(jiǎn)述其基本過程,并分析其問題以及相關(guān)應(yīng)對(duì)解決方法。

參考答案
(1). 圖像語義理解旨在研究圖像中存在何種物體、何種實(shí)例以及目標(biāo)之間的相互關(guān)系, 期望機(jī)器能像人一樣自動(dòng)“看懂”外部環(huán)境。本質(zhì)上是學(xué)習(xí)底層特征與高層語義之間的映射關(guān)系。

(2). 圖像語義理解基本任包括:

  • 圖像分類: 給每幅圖像預(yù)測(cè)一個(gè)類別。
  • 圖像標(biāo)注: 給每幅圖像預(yù)測(cè)多個(gè)語義標(biāo)簽。
  • 目標(biāo)檢測(cè): 給圖像中物體預(yù)測(cè)一個(gè)類別和一個(gè)緊致的定位目標(biāo)。
  • 語義分割: 給每個(gè)像素預(yù)測(cè)一個(gè)語義標(biāo)簽。
  • 圖像描述: 用自然語言描述圖像。

(3). 目標(biāo)檢測(cè)的一個(gè)經(jīng)典算法如下:

  • YOLO,其步驟如下:
    a. 將輸入圖像假想為一系列網(wǎng)格,并在每個(gè)網(wǎng)格中鋪設(shè)不同大小不同尺寸的 anchor。
    b. 然后將圖片送入特征網(wǎng)絡(luò)進(jìn)行特征提取。
    c. 對(duì)特征圖進(jìn)行解碼,包括預(yù)測(cè)anchor修正量、置信度和類別概率等等。
    d. 對(duì)預(yù)測(cè)的 bounding boxes 進(jìn)行過濾和 NMS 處理。

(4). 存在問題:

  • 無法解決圖片中物體尺度的變化問題。
  • 解決辦法:增加檢測(cè)頭、使用FPN網(wǎng)絡(luò)等。

5. 簡(jiǎn)述SVD和SVD++協(xié)同推薦方法基本原理,列出基本公式;比較它們之間的優(yōu)劣,討論相關(guān)改進(jìn)。(15分)

參考答案
(1). SVD
對(duì)于所有用戶和所有商品打分,可以表示為一個(gè)稀疏矩陣R?;赟VD的推薦方法對(duì)矩陣R進(jìn)行分解,并且要求矩陣元素非負(fù),如下
R_{U\times I}=P_{U\times K}Q_{K\times I}然后用R中已知數(shù)據(jù)訓(xùn)練PQ,使得PQ相乘能最好地?cái)M合已知評(píng)分。具體地,預(yù)測(cè)用戶U對(duì)商品I的評(píng)分為:
\hat{r}_{ui}=p_{u}^{T}q_i則預(yù)測(cè)誤差為e_{ui}=r_{ui}-\hat{r}_{ui},總平方誤差為:
\mathrm{SSE}=\sum{e_{ui}^{2}}然后將SSE作為損失對(duì)模型進(jìn)行訓(xùn)練即可。

(2). SVD++
SVD++ 是一種改進(jìn)的 SVD 方法,主要在用戶和物品的隱式交互信息方面(如用戶的瀏覽歷史)來增強(qiáng)模型的預(yù)測(cè)能力,可以被表示為如下公式:

\hat{r}_{u,i} = \mu + b_u + b_i + q_i^T(p_u + |I_u|^{-\frac{1}{2}}\sum{j \in I_u}y_j)其中 I_u 表示用戶 u 所有交互過的物品的集合。SVD++ 與 SVD 的主要區(qū)別在于 SVD++ 引入了額外的用戶和物品隱式交互信息,這使得 SVD++ 更具泛化能力,可以在沒有評(píng)分信息的情況下進(jìn)行推薦。

(3). 優(yōu)劣

  • SVD 推薦算法較為筒潔,計(jì)算效率高,但訓(xùn)練目標(biāo)單一,容易造成過擬合;且不考慮用戶和物品之間的隱式交互信息,預(yù)測(cè)時(shí)不夠準(zhǔn)確。
  • SVD++ 更加靈活,考慮了用戶和物品之間的隱式交互信息,效果更好,使得模型的泛化能力更強(qiáng),可以在沒有評(píng)分信息的情況下進(jìn)行推薦。但計(jì)算更加復(fù)雜、學(xué)習(xí)效率較慢。

(4). 改進(jìn)

  • 在 SVD 推薦方法中偏置項(xiàng)和正則項(xiàng),提升模型的靈活性并防止過擬合。

6. 簡(jiǎn)述 PageRank 和 HITS 的基本原理,比較它們的優(yōu)缺點(diǎn),并試著闡述還可能有哪些改進(jìn)的方式。(15分)

參考答案
(1). Page Rank:
PageRank 基本思想:如果一個(gè)網(wǎng)頁被很多其它網(wǎng)頁所鏈接,說明它受到普遍的承認(rèn)和信賴,那么它的 PagePank 值越高、排名也越高;如果一個(gè)網(wǎng)頁的PageRank 值較高,則其所鍵接的網(wǎng)頁也比較重要,PageRank 值也較高。
PageRank基本公式為
r(p)=\alpha \sum_{q:\left( q,p \right) \in q}{\frac{r\left( q \right)}{w\left( q \right)}}+\left( 1-\alpha \right) \frac{1}{N}
r(p): 網(wǎng)頁q的 PageRank值
q: p的后向鏈接
w(q): q的前向鏈接數(shù)目
N: 網(wǎng)絡(luò)中網(wǎng)頁的總數(shù)

(2). HITS: Hyperlink Induced Topic Search
其基本原理為:一個(gè)好的 “Authority” 頁面會(huì)被很多好的 “Hub” 頁面指向;一個(gè)好的“Hub”頁面會(huì)指向很多好的 “Authority” 頁面。

(3). 優(yōu)劣

  • PageRanK:
    優(yōu): 與查詢無關(guān)的靜態(tài)算法、具有全局性,不宜作弊。
    缺: 與主題無關(guān),舊網(wǎng)頁比新網(wǎng)頁排名高。
  • HITS:
    優(yōu): 在線、具有局部性,在 NLP、社交網(wǎng)絡(luò)中取得很好效果。
    缺: 計(jì)算復(fù)雜,易作弊。

(4). 改進(jìn)
針對(duì) PageRank 主題無關(guān)這一缺點(diǎn),設(shè)置主題敏感的 PageRank 算法;預(yù)先計(jì)算離線時(shí)頁面的重要性分?jǐn)?shù);然后,為一個(gè)頁面計(jì)算多種重要性分?jǐn)?shù),即關(guān)于不同主題來計(jì)算這個(gè)頁面的重要性分?jǐn)?shù)。


7. 請(qǐng)簡(jiǎn)述三種以上可防止深度學(xué)習(xí)模型訓(xùn)練過程中數(shù)據(jù)泄露的方法,介紹方法的基本原理,并對(duì)其進(jìn)行分析和比較。

參考答案

  • 基于梯度壓縮的方法
    采用分層剪枝技術(shù),去掉絕對(duì)值較小的參數(shù)梯度,減少梯度中的冗余信息;或采用量化技術(shù)對(duì)梯度進(jìn)行量化,從而增加攻擊難度。
  • 基于差分隱私的方法
    即在本地訓(xùn)練過程中使用DPSGD。
  • 基于數(shù)據(jù)變換的方法
    通過數(shù)據(jù)增強(qiáng)的方法對(duì)原數(shù)據(jù)集進(jìn)行擴(kuò)充,從而影響模型的梯度,如AutoML;從而保護(hù)數(shù)據(jù)隱私并且不影響模型的收斂。
  • 基于密碼學(xué)的方法
    如基于同態(tài)加密的方法,對(duì)梯度和數(shù)據(jù)隱私進(jìn)行加密。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容