《動手學深度學習》參考答案(第二版)-第二章

《動手學深度學習》參考答案

??最近在學習《動手學深度學習》,結合百度和課后的大家的討論(侵刪),整理出這一份可能并不完全正確的參考答案(菜雞的做題記錄),因為個人水平有限,有錯誤的地方歡迎在 公眾號 聯(lián)系我,后面我對錯誤進行更正時候,會在文章末尾鳴謝,在這里先感謝大家了。
??在我的 公眾號 中會有 清晰的pdf版本 給到大家,pdf中 代碼 可以直接復制實踐 ,歡迎大家關注我的 公眾號:Hello Neural Networks ,發(fā)送神秘代碼:d2l2,即可獲得本章的pdf版本。(求大佬們關注下吧,公眾號關注者人丁稀少,嚶嚶嚶)
??求求關注下我的簡書、CSDN、知乎吧,后面會繼續(xù)更新答案的,然后還有最近讀的一些文章的里面一些創(chuàng)新點和自己的想法都會整理出來的。(求大佬們關注下吧,嚶嚶嚶)

2.預備知識

2.1 數(shù)據(jù)操作

1.運行本節(jié)中的代碼。將本節(jié)中的條件語句X == Y更改為X < YX > Y,然后看看你可以得到什么樣的張量。

import torch
X = torch.arange(12, dtype=torch.float32).reshape((3,4))
Y = torch.tensor([[2.0, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
X > Y
tensor([[False, False, False, False],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]])
X < Y
tensor([[ True, False,  True, False],
        [False, False, False, False],
        [False, False, False, False]])

2.用其他形狀(例如三維張量)替換廣播機制中按元素操作的兩個張量。結果是否與預期相同?

結論是相同的,都在廣播機制下進行了運算

import torch
a = torch.arange(3).reshape((1, 3, 1))
b = torch.arange(4).reshape((2, 1, 2))
a, b
(tensor([[[0],
          [1],
          [2]]]), 
 tensor([[[0, 1]],
         [[2, 3]]]))
a + b
tensor([[[0, 1],
         [1, 2],
         [2, 3]],

        [[2, 3],
         [3, 4],
         [4, 5]]])

(a + b).size()
torch.Size([2, 3, 2])

2.2 數(shù)據(jù)預處理

1.刪除缺失值最多的列。

key_dict = data.isna().sum().to_dict()
max_key = max(num_dict, key=num_dict.get)
del data[max_key]

2.將預處理后的數(shù)據(jù)集轉(zhuǎn)換為張量格式。

import torch
inputs, outputs = data.iloc[:, 0], data.iloc[:, 1]
X, Y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, Y
tensor([nan, 2., 4., nan], dtype=torch.float64),
tensor([127500, 106000, 178100, 140000])

2.3 線性代數(shù)

1.證明一個矩陣A的轉(zhuǎn)置的轉(zhuǎn)置是A,即(A?)?=A。
設B=A^T, C=B^T

那么根據(jù)轉(zhuǎn)置定義, b_{ji}=a_{ij}, c_{ij}=b_{ji}

即c_{ij}=a_{ij}, 即C=B^T=(A^T)^T=A, 得證(A^T)^T=A

2.給出兩個矩陣A和B,證明“它們轉(zhuǎn)置的和”等于“它們和的轉(zhuǎn)置”,即A?+B?=(A+B)?。
設C=A+B

由c_{ij}=a_{ij}+b_{ij}, 得c_{ji}=a_{ji}+b_{ji}

即C^T=A^T+B^T, 又C=A+B, 即(A+B)^T=A^T+B^T

3.給定任意方陣A,A+A?總是對稱的嗎?為什么?
設B=A+A^T, 則b_{ij}=a_{ij}+a_{ji}

則b_{ji}=a_{ji}+a_{ij}=a_{ij}+a_{ji}=b_{ij}, 即B為對稱陣, 即A+A^T為對稱陣

4.我們在本節(jié)中定義了形狀(2,3,4)的張量X。len(X)的輸出結果是什么?

len(x) = 2

5.對于任意形狀的張量X,len(X)是否總是對應于X特定軸的長度?這個軸是什么?

總是對應axis=0這個軸

6.運行A/A.sum(axis=1),看看會發(fā)生什么。你能分析原因嗎?

運行運行A/A.sum(axis=1)是會報錯的,是廣播機制的原因,但是我們可以順利運行A/A.sum(axis=1, keepdim=True),我們可以來做個實驗,實驗中我們可以看到沿著不同的軸進行計算會有不同結果且寫的方法不同,在axis≠0時一般需要加上keepdim=True

import torch
A = torch.ones((3, 4))
B = A/A.sum(axis=1, keepdim=True)
C = A/A.sum(axis=0)
B, C
tensor([[0.2500, 0.2500, 0.2500, 0.2500],
        [0.2500, 0.2500, 0.2500, 0.2500],
        [0.2500, 0.2500, 0.2500, 0.2500]]),
tensor([[0.3333, 0.3333, 0.3333, 0.3333],
        [0.3333, 0.3333, 0.3333, 0.3333],
        [0.3333, 0.3333, 0.3333, 0.3333]])

7.考慮一個具有形狀(2,3,4)的張量,在軸0、1、2上的求和輸出是什么形狀?

形狀分別為[3, 4],[2, 4],[2, 3]

實驗如下

import torch
A = torch.ones((2, 3, 4))
B = A.sum(axis=0)
C = A.sum(axis=1)
D = A.sum(axis=2)
B.size(), C.size(), D.size()
(torch.Size([3, 4]), torch.Size([2, 4]), torch.Size([2, 3]))

8.為linalg.norm函數(shù)提供3個或更多軸的張量,并觀察其輸出。對于任意形狀的張量這個函數(shù)計算得到什么?

先查看下api:

torch.linalg.norm(input, ord=None, dim=None, keepdim=False, *, out=None, dtype=None)
參數(shù) 說明
默認 二范數(shù)
ord=2 二范數(shù)
ord=1 一范數(shù)
ord=torch.inf 無窮范數(shù)

代碼實驗:

import torch
A = torch.ones((3,4))
torch.linalg.norm(A)
tensor(3.4641)

2.4 微積分

1.繪制函數(shù) y=f(x)=x3?1/x 和其在 x=1 處切線的圖像。

import numpy as np
from matplotlib import pyplot as plt

def get_function(x):
    return x**3 - 1/x

def get_tangent(function, x, point):
    h = 1e-4
    grad = (function(point+h) - function(point)) / h
    return grad*(x-point) + function(point)

x = np.arange(0.1,3.0,0.01)
y = get_function(x)
y_tangent = get_tangent(get_function, x=x, point=1)
plt.plot(x,y)
plt.plot(x,y_tangent)
plt.show()

2.求函數(shù) f(x)=3x12+5ex2 的梯度。
\frac{δf}{δx_1}=6x_1

\frac{δf}{δx_2}=5e^{x_2}

則\frac{δf}{δx}=(6x_1,5e^{x_2})

3.函數(shù) f(x)=||x||2 的梯度是什么?
設x=(x_1,x_2,...,x_n)

則f(x)=||x||_2=\sqrt{x_1^2+x_2^2+...+x_n^2}

則\frac{δf}{δx}=(\frac{\sqrt{\sum_{i=1}^{n}x_i^2}}{δx_1}, \frac{\sqrt{\sum_{i=1}^{n}x_i^2}}{δx_2},...,\frac{\sqrt{\sum_{i=1}^{n}x_i^2}}{δx_n})

則\frac{δf}{δx}=(\frac{1}{2}*2x_1*(\sum_{i=1}^{n}x_i^2)^{-\frac{1}{2}}, \frac{1}{2}*2x_2*(\sum_{i=1}^{n}x_i^2)^{-\frac{1}{2}}, ...,\frac{1}{2}*2x_n*(\sum_{i=1}^{n}x_i^2)^{-\frac{1}{2}})

則\frac{δf}{δx}=(\frac{x_1}{\sqrt{\sum_{i=1}^{n}x_i^2}},\frac{x_2}{\sqrt{\sum_{i=1}^{n}x_i^2}},...,\frac{x_n}{\sqrt{\sum_{i=1}^{n}x_i^2}})

則\frac{δf}{δx}=(\frac{x_1}{||x||_2},\frac{x_2}{||x||_2},...,\frac{x_n}{||x||_2})=\frac{x}{||x||_2}

4.你可以寫出函數(shù) u=f(x,y,z) ,其中 x=x(a,b) , y=y(a,b) , z=z(a,b) 的鏈式法則嗎?
\frac{δu}{δa}=\frac{δu}{δx}\frac{δx}{δa}+\frac{δu}{δy}\frac{δy}{δa}+\frac{δu}{δz}\frac{δz}{δa}

\frac{δu}{δb}=\frac{δu}{δx}\frac{δx}{δb}+\frac{δu}{δy}\frac{δy}{δb}+\frac{δu}{δz}\frac{δz}{δb}

2.5 自動微分

1.為什么計算二階導數(shù)比一階導數(shù)的開銷要更大?

二階導數(shù)是一階導數(shù)的導數(shù),計算二階導數(shù)需要用到一階導數(shù),所以開銷會比一階導數(shù)更大

2.在運行反向傳播函數(shù)之后,立即再次運行它,看看會發(fā)生什么。

會報錯,因為進行一次backward之后,計算圖中的中間變量在計算完后就會被釋放,之后無法進行二次backward了,如果想進行第二次backward,可以將retain_graph置為True,實驗如下

①retain_graph默認為False

import torch
x = torch.randn((2, 3), requires_grad=True)
y = torch.square(x) - 1
loss = y.mean()
loss.backward()
loss.backward()

報錯:

RuntimeError: Trying to backward through the graph a second time, but the saved intermediate results have already been freed. Specify retain_graph=True when calling .backward() or autograd.grad() the first time.

②retain_graph置為True

我們把兩次backward的grad給分別打印出來,可以看到第二次的backward其實把梯度再次回傳一遍疊加在了第一次backward上面

import torch
x = torch.randn((2, 3), requires_grad=True)
y = torch.square(x) - 1
loss = y.mean()
print(x)
loss.backward(retain_graph=True)
print(x.grad)
loss.backward()
print(x.grad)
tensor([[ 0.0294,  1.5586, -0.7047],
        [ 1.6767,  1.2802, -0.3465]], requires_grad=True)
tensor([[ 0.0098,  0.5195, -0.2349],
        [ 0.5589,  0.4267, -0.1155]])
tensor([[ 0.0196,  1.0391, -0.4698],
        [ 1.1178,  0.8535, -0.2310]])

3.在控制流的例子中,我們計算d關于a的導數(shù),如果我們將變量a更改為隨機向量或矩陣,會發(fā)生什么?

將變量a更改為隨機向量或矩陣,會報錯,實驗如下

import torch
def f(a):
    b = a * 2
    while b.norm() < 1000:
        b = b * 2
    if b.sum() > 0:
        c = b
    else:
        c = 100 * b
    return c
a = torch.randn((3), requires_grad=True)
d = f(a)
d.backward()
RuntimeError: grad can be implicitly created only for scalar outputs

原因可能是在執(zhí)行 loss.backward() 時沒帶參數(shù),即可能默認是與 loss.backward(torch.Tensor(1.0)) 相同的,可以嘗試如下的實驗

import torch
a = torch.randn((3), requires_grad=True)
d = a**2
print(a)
d.backward(torch.ones_like(d))
print(a.grad)
tensor([ 1.1194, -0.2641,  0.2242], requires_grad=True)
tensor([ 2.2388, -0.5282,  0.4484])

那么代回上面的實驗也是可行的

向量:

a = torch.randn((3), requires_grad=True)
d = f(a)
print(a)
d.backward(torch.ones_like(d))
print(a.grad)
tensor([ 0.7534, -1.3026, -1.2577], requires_grad=True)
tensor([51200., 51200., 51200.])

矩陣:

a = torch.randn((2, 3), requires_grad=True)
d = f(a)
print(a)
d.backward(torch.ones_like(d))
print(a.grad)
tensor([[-2.0677, -1.0871,  0.1289],
        [ 0.4897, -0.4152,  0.2643]], requires_grad=True)
tensor([[51200., 51200., 51200.],
        [51200., 51200., 51200.]])

4.重新設計一個求控制流梯度的例子,運行并分析結果。

設計的思路為,當參數(shù)order為1的時候求開二次方,當order為2的時候求平方。(簡單應用if控制)

import torch
def f(x, order):
    if order == 1:
        y = torch.sqrt(x)
    elif order == 2:
        y = torch.square(x)
    else:
        return x
    return y

x = torch.randn(size=(), requires_grad=True)
print(x)
y = f(x, order=1)
y.backward()
print(x.grad)
x.grad.zero_() # 清除梯度
y = f(x, order=2)
y.backward()
print(x.grad)
tensor(-1.2684, requires_grad=True)
tensor(nan)
tensor(-2.5369)

5.使 f(x)=sin(x) ,繪制 f(x) 和 df(x)/dx 的圖像,其中后者不使用 f′(x)=cos(x) 。

import numpy as np
from matplotlib import pyplot as plt

def get_function(x):
    return np.sin(x)

def get_derivative(function, x):
    h = 1e-4
    return (function(x+h) - function(x)) / h

x = np.arange(0.01,10.0,0.01)
y = get_function(x)
y_derivative = get_derivative(get_function, x)
plt.plot(x,y)
plt.plot(x,y_derivative)
plt.show()

2.6 概率

1.進行 m=500 組實驗,每組抽取 n=10 個樣本。改變 m 和 n ,觀察和分析實驗結果。

2.給定兩個概率為 P(A) 和 P(B) 的事件,計算 P(A∪B) 和 P(A∩B) 的上限和下限。(提示:使用友元圖來展示這些情況。)
max(P(A),P(B))\leqslant P(A\cup B)\leqslant P(A)+P(B)

0\leqslant P(A\cap B)\leqslant min(P(A),P(B))

3.給定兩個概率為 P(A) 和 P(B) 的事件,計算 P(A∪B) 和 P(A∩B) 的上限和下限。(提示:使用友元圖來展示這些情況。)
P(A,B,C)=P(C|A,B)P(A,B)=P(C|A,B)P(B|A)P(A)

由于C只依賴于B,則P(C|A,B)=P(C|B)

則P(A,B,C)=P(C|B)P(B|A)P(A)

4.在 2.6.2.6節(jié)中,第一個測試更準確。為什么不運行第一個測試兩次,而是同時運行第一個和第二個測試?

因為在測試艾滋病病毒時候,第一個測試和第二個測試可以看作具有不同的特性(可以認為是不同測試針對的靶點有異),再次使用第一個測試,如果沒有隨機因素的干擾或者測試流程的問題,結果應該是不會變的(因為針對的靶點是一樣的),這么看來同時使用第一個和第二個測試(針對的靶點有異)更具有說服力一點,這樣假設條件獨立更有可能,而重復第一個測試這兩次會有較強的相關關系

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容