sheng的学习笔记-【中】【吴恩达课后测验】Course 5 - 序列模型

课程5_第1周_测验题

第一题

1.假设你的训练样本是句子(单词序列)，下面哪个选项指的是第 $i$ 个训练样本中的第 $j$ 个词?

A. 【】 $x^{(i)<j>}$

B. 【】 $x^{<i>(j)}$

C. 【】 $x^{(j)<i>}$

D. 【】 $x^{<j>(i)}$

答案：

A.【 √ 】 $x^{(i)<j>}$

第二题

2.看一下这个循环神经网络，在下面的条件中，满足下图中的网络结构的参数是?

在这里插入图片描述

A. 【】 $T_x=T_y$

B. 【】 $T_x<T_y$

C. 【】 $T_x>T_y$

D. 【】 $T_x=1$

答案：

A.【 √ 】 $T_x=T_y$

第三题

3.这些任务中的哪一些会使用多对一的RNN体系结构？

在这里插入图片描述

A. 【】语音识别（输入语音，输出文本）

B. 【】情感分类（输入一段文字，输出0或1表示正面或者负面的情绪）

C. 【】图像分类（输入一张图片，输出对应的标签）

D. 【】人声性别识别（输入语音，输出说话人的性别）

答案：

B.【 √ 】情感分类（输入一段文字，输出0或1表示正面或者负面的情绪）

D.【 √ 】人声性别识别（输入语音，输出说话人的性别）

第四题

4.假设你现在正在训练下面这个RNN的语言模型，在 $t$ 时，这个RNN在做什么？

在这里插入图片描述

A. 【】计算 $P(y^{<1>},y^{<2>},…,y^{<t-1>})$

B. 【】计算 $P(y^{<t>})$

C. 【】计算 $P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t-1>})$

D. 【】计算 $P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t>})$

答案：

C.【 √ 】计算 $P(y^{<t>}∣y^{<1>},y^{<2>},…,y^{<t-1>})$

第五题

5.你已经完成了一个语言模型RNN的训练，并用它来对句子进行随机取样，如下图：

在这里插入图片描述

A. 【】(1)使用RNN输出的概率，选择该时间步的最高概率单词作为 $\hat{y}^{<t>}$ ，(2)然后将训练集中的正确的单词传递到下一个时间步

B. 【】(1)使用由RNN输出的概率将该时间步的所选单词进行随机采样作为 $\hat{y}^{<t>}$ ，(2)然后将训练集中的实际单词传递到下一个时间步

C. 【】(1)使用由RNN输出的概率来选择该时间步的最高概率词作为 $\hat{y}^{<t>}$ ，(2)然后将该选择的词传递给下一个时间步

D. 【】(1)使用RNN该时间步输出的概率对单词随机抽样的结果作为 $\hat{y}^{<t>}$ ，(2)然后将此选定单词传递给下一个时间步

答案：

D.【 √ 】(1)使用RNN该时间步输出的概率对单词随机抽样的结果作为 $\hat{y}^{<t>}$ ，(2)然后将此选定单词传递给下一个时间步

第六题

6.你正在训练一个RNN网络，你发现你的权重与激活值都是“NaN”，下列选项中，哪一个是导致这个问题的最有可能的原因？

A. 【】梯度消失

B. 【】梯度爆炸

C. 【】ReLU函数作为激活函数g(.)，在计算g(z)时，z的数值过大了

D. 【】Sigmoid函数作为激活函数g(.)，在计算g(z)时，z的数值过大了

答案：

B.【 √ 】梯度爆炸

第七题

7.假设你正在训练一个LSTM网络，你有一个10,000词的词汇表，并且使用一个激活值维度为100的LSTM块，在每一个时间步中， $\Gamma _u$ 的维度是多少？

A. 【】1

B. 【】100

C. 【】300

D. 【】10000

答案：

B.【 √ 】100

第八题

8.下面有一些GRU的更新方程。爱丽丝建议通过移除 $\Gamma _u$ 来简化GRU，即设置 $\Gamma _u=1$ 。贝蒂提出通过移除 $\Gamma _R$ 来简化GRU，即设置 $\Gamma _R=1$ 。哪种模型更容易在梯度不消失问题的情况下训练，即使在很长的输入序列上也可以进行训练？

在这里插入图片描述

A. 【】爱丽丝的模型（即移除 $\Gamma _u$ ），因为对于一个时间步而言，如果 $\Gamma _r \approx 0$ ，梯度可以通过时间步反向传播而不会衰减。

B. 【】爱丽丝的模型（即移除 $\Gamma _u$ ），因为对于一个时间步而言，如果 $\Gamma _r \approx 1$ ，梯度可以通过时间步反向传播而不会衰减。

C. 【】贝蒂的模型（即移除 $\Gamma _r$ ），因为对于一个时间步而言，如果 $\Gamma _u \approx 0$ ，梯度可以通过时间步反向传播而不会衰减。

D. 【】贝蒂的模型（即移除 $\Gamma _r$ ），因为对于一个时间步而言，如果 $\Gamma _u \approx 1$ ，梯度可以通过时间步反向传播而不会衰减。

答案：

C.【 √ 】贝蒂的模型（即移除 $\Gamma _r$ ），因为对于一个时间步而言，如果 $\Gamma _u \approx 0$ ，梯度可以通过时间步反向传播而不会衰减。

第九题

9.下面有一些GRU和LSTM的方程，从这些我们可以看到，在LSTM中的更新门和遗忘门在GRU中扮演类似 ___ 与 ___ 的角色，空白处应该填什么？

在这里插入图片描述

A. 【】 $\Gamma _u$ 与 $1-\Gamma _u$

B. 【】 $\Gamma _u$ 与 $\Gamma _r$

C. 【】 $1-\Gamma _u$ 与 $\Gamma _u$

D. 【】 $\Gamma _r$ 与 $\Gamma _u$

答案：

A.【 √ 】 $\Gamma _u$ 与 $1-\Gamma _u$

第十题

10.你有一只宠物狗，它的心情很大程度上取决于当前和过去几天的天气。你已经收集了过去365天的天气数据 $x^{<1>},…,x^{<365>}$ ，这些数据是一个序列，你还收集了你的狗心情的数据 $y^{<1>},…,y^{<365>}$ ，你想建立一个模型来从x到y进行映射，你应该使用单向RNN还是双向RNN来解决这个问题？

A. 【】双向RNN，因为在 $t$ 日的情绪预测中可以考虑到更多的信息。

B. 【】双向RNN，因为这允许反向传播计算中有更精确的梯度。

C. 【】单向RNN，因为 $y^{<t>}$ 的值仅依赖于 $x^{<1>},…,x^{<t>}$ ，而不依赖于$
x^{{<t+1>},…,x}{<365>}$

D. 【】单向RNN，因为 $y^{<t>}$ 的值只取决于 $x^{<t>}$ ，而不是其他天的天气。

答案：

C.【 √ 】单向RNN，因为 $y^{<t>}$ 的值仅依赖于 $x^{<1>},…,x^{<t>}$ ，而不依赖于$
x^{{<t+1>},…,x}{<365>}$

sheng的学习笔记-【中】【吴恩达课后测验】Course 5 - 序列模型 - 第一周测验

课程5_第1周_测验题

第一题

第二题

第三题

第四题

第五题

第六题

第七题

第八题

第九题

第十题

网站公告

今日签到

热门文章

最新发布