sheng的学习笔记-【中】【吴恩达课后测验】Course 5 - 序列模型 - 第一周测验

发布于:2024-12-06 ⋅ 阅读:(132) ⋅ 点赞:(0)

课程5_第1周_测验题

目录

第一题

1.假设你的训练样本是句子(单词序列),下面哪个选项指的是第 i i i 个训练样本中的第 j j j 个词?

A. 【  】 x ( i ) < j > x^{(i)<j>} x(i)<j>

B. 【  】 x < i > ( j ) x^{<i>(j)} x<i>(j)

C. 【  】 x ( j ) < i > x^{(j)<i>} x(j)<i>

D. 【  】 x < j > ( i ) x^{<j>(i)} x<j>(i)

答案:

A.【 √ 】 x ( i ) < j > x^{(i)<j>} x(i)<j>

第二题

2.看一下这个循环神经网络,在下面的条件中,满足下图中的网络结构的参数是?

在这里插入图片描述

A. 【  】 T x = T y T_x=T_y Tx=Ty

B. 【  】 T x < T y T_x<T_y Tx<Ty

C. 【  】 T x > T y T_x>T_y Tx>Ty

D. 【  】 T x = 1 T_x=1 Tx=1

答案:

A.【 √ 】 T x = T y T_x=T_y Tx=Ty

第三题

3.这些任务中的哪一些会使用多对一的RNN体系结构?

在这里插入图片描述

A. 【  】语音识别(输入语音,输出文本)

B. 【  】情感分类(输入一段文字,输出0或1表示正面或者负面的情绪)

C. 【  】图像分类(输入一张图片,输出对应的标签)

D. 【  】人声性别识别(输入语音,输出说话人的性别)

答案:

B.【 √ 】情感分类(输入一段文字,输出0或1表示正面或者负面的情绪)

D.【 √ 】人声性别识别(输入语音,输出说话人的性别)

第四题

4.假设你现在正在训练下面这个RNN的语言模型,在 t t t 时,这个RNN在做什么?

在这里插入图片描述

A. 【  】计算 P ( y < 1 > , y < 2 > , … , y < t − 1 > ) P(y^{<1>},y^{<2>},…,y^{<t-1>}) P(y<1>,y<2>,,y<t1>)

B. 【  】计算 P ( y < t > ) P(y^{<t>}) P(y<t>)

C. 【  】计算 P ( y < t > ∣ y < 1 > , y < 2 > , … , y < t − 1 > ) P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t-1>}) P(y<t>y<1>,y<2>,,y<t1>)

D. 【  】计算 P ( y < t > ∣ y < 1 > , y < 2 > , … , y < t > ) P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t>}) P(y<t>y<1>,y<2>,,y<t>)

答案:

C.【 √ 】计算 P ( y < t > ∣ y < 1 > , y < 2 > , … , y < t − 1 > ) P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t-1>}) P(y<t>y<1>,y<2>,,y<t1>)

第五题

5.你已经完成了一个语言模型RNN的训练,并用它来对句子进行随机取样,如下图:

在这里插入图片描述

A. 【  】(1)使用RNN输出的概率,选择该时间步的最高概率单词作为 y ^ < t > \hat{y}^{<t>} y^<t>,(2)然后将训练集中的正确的单词传递到下一个时间步

B. 【  】(1)使用由RNN输出的概率将该时间步的所选单词进行随机采样作为 y ^ < t > \hat{y}^{<t>} y^<t>,(2)然后将训练集中的实际单词传递到下一个时间步

C. 【  】(1)使用由RNN输出的概率来选择该时间步的最高概率词作为 y ^ < t > \hat{y}^{<t>} y^<t>,(2)然后将该选择的词传递给下一个时间步

D. 【  】(1)使用RNN该时间步输出的概率对单词随机抽样的结果作为 y ^ < t > \hat{y}^{<t>} y^<t>,(2)然后将此选定单词传递给下一个时间步

答案:

D.【 √ 】(1)使用RNN该时间步输出的概率对单词随机抽样的结果作为 y ^ < t > \hat{y}^{<t>} y^<t>,(2)然后将此选定单词传递给下一个时间步

第六题

6.你正在训练一个RNN网络,你发现你的权重与激活值都是“NaN”,下列选项中,哪一个是导致这个问题的最有可能的原因?

A. 【  】梯度消失

B. 【  】梯度爆炸

C. 【  】ReLU函数作为激活函数g(.),在计算g(z)时,z的数值过大了

D. 【  】Sigmoid函数作为激活函数g(.),在计算g(z)时,z的数值过大了

答案:

B.【 √ 】梯度爆炸

第七题

7.假设你正在训练一个LSTM网络,你有一个10,000词的词汇表,并且使用一个激活值维度为100的LSTM块,在每一个时间步中, Γ u \Gamma _u Γu的维度是多少?

A. 【  】1

B. 【  】100

C. 【  】300

D. 【  】10000

答案:

B.【 √ 】100

第八题

8.下面有一些GRU的更新方程。爱丽丝建议通过移除 Γ u \Gamma _u Γu来简化GRU,即设置 Γ u = 1 \Gamma _u=1 Γu=1。贝蒂提出通过移除 Γ R \Gamma _R ΓR来简化GRU,即设置 Γ R = 1 \Gamma _R=1 ΓR=1。哪种模型更容易在梯度不消失问题的情况下训练,即使在很长的输入序列上也可以进行训练?

在这里插入图片描述

A. 【  】爱丽丝的模型(即移除 Γ u \Gamma _u Γu),因为对于一个时间步而言,如果 Γ r ≈ 0 \Gamma _r \approx 0 Γr0,梯度可以通过时间步反向传播而不会衰减。

B. 【  】爱丽丝的模型(即移除 Γ u \Gamma _u Γu),因为对于一个时间步而言,如果 Γ r ≈ 1 \Gamma _r \approx 1 Γr1,梯度可以通过时间步反向传播而不会衰减。

C. 【  】贝蒂的模型(即移除 Γ r \Gamma _r Γr),因为对于一个时间步而言,如果 Γ u ≈ 0 \Gamma _u \approx 0 Γu0,梯度可以通过时间步反向传播而不会衰减。

D. 【  】贝蒂的模型(即移除 Γ r \Gamma _r Γr),因为对于一个时间步而言,如果 Γ u ≈ 1 \Gamma _u \approx 1 Γu1,梯度可以通过时间步反向传播而不会衰减。

答案:

C.【 √ 】贝蒂的模型(即移除 Γ r \Gamma _r Γr),因为对于一个时间步而言,如果 Γ u ≈ 0 \Gamma _u \approx 0 Γu0,梯度可以通过时间步反向传播而不会衰减。

第九题

9.下面有一些GRU和LSTM的方程,从这些我们可以看到,在LSTM中的更新门和遗忘门在GRU中扮演类似 ___ 与 ___ 的角色,空白处应该填什么?

在这里插入图片描述

A. 【  】 Γ u \Gamma _u Γu 1 − Γ u 1-\Gamma _u 1Γu

B. 【  】 Γ u \Gamma _u Γu Γ r \Gamma _r Γr

C. 【  】 1 − Γ u 1-\Gamma _u 1Γu Γ u \Gamma _u Γu

D. 【  】 Γ r \Gamma _r Γr Γ u \Gamma _u Γu

答案:

A.【 √ 】 Γ u \Gamma _u Γu 1 − Γ u 1-\Gamma _u 1Γu

第十题

10.你有一只宠物狗,它的心情很大程度上取决于当前和过去几天的天气。你已经收集了过去365天的天气数据 x < 1 > , … , x < 365 > x^{<1>},…,x^{<365>} x<1>,,x<365>,这些数据是一个序列,你还收集了你的狗心情的数据 y < 1 > , … , y < 365 > y^{<1>},…,y^{<365>} y<1>,,y<365>,你想建立一个模型来从x到y进行映射,你应该使用单向RNN还是双向RNN来解决这个问题?

A. 【  】双向RNN,因为在 t t t日的情绪预测中可以考虑到更多的信息。

B. 【  】双向RNN,因为这允许反向传播计算中有更精确的梯度。

C. 【  】单向RNN,因为 y < t > y^{<t>} y<t>的值仅依赖于 x < 1 > , … , x < t > x^{<1>},…,x^{<t>} x<1>,,x<t>,而不依赖于$
x{<t+1>},…,x{<365>}$

D. 【  】单向RNN,因为 y < t > y^{<t>} y<t>的值只取决于 x < t > x^{<t>} x<t>,而不是其他天的天气。

答案:

C.【 √ 】单向RNN,因为 y < t > y^{<t>} y<t>的值仅依赖于 x < 1 > , … , x < t > x^{<1>},…,x^{<t>} x<1>,,x<t>,而不依赖于$
x{<t+1>},…,x{<365>}$