Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

更新数据 #1

Merged
merged 23 commits into from
Mar 12, 2020
Merged
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
3 changes: 2 additions & 1 deletion Deep Learning/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -16,5 +16,6 @@
| 深度学习 | [15. 深度学习的优化方法](https://github.com/NLP-LOVE/ML-NLP/tree/master/Deep%20Learning/15.%20DL%20Optimizer) | [@mantchs](https://github.com/NLP-LOVE) | 448966528 |


> 欢迎大家加入!共同完善此项目!<a target="_blank" href="//shang.qq.com/wpa/qunwpa?idkey=863f915b9178560bd32ca07cd090a7d9e6f5f90fcff5667489697b1621cecdb3"><img border="0" src="http://pub.idqqimg.com/wpa/images/group.png" alt="NLP面试学习群" title="NLP面试学习群"></a>
> 欢迎大家加入!共同完善此项目!NLP学习QQ2群【207576902】<a target="_blank" href="http://shang.qq.com/wpa/qunwpa?idkey=1defd70810d9e67ca6ab3a30e1425a8a358139315a186dd2192d82a4c0ca1ce9"><img border="0" src="http://pub.idqqimg.com/wpa/images/group.png" alt="NLP学习群②" title="NLP学习群②"></a>


3 changes: 2 additions & 1 deletion Machine Learning/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -25,4 +25,5 @@



> 欢迎大家加入!共同完善此项目!<a target="_blank" href="//shang.qq.com/wpa/qunwpa?idkey=863f915b9178560bd32ca07cd090a7d9e6f5f90fcff5667489697b1621cecdb3"><img border="0" src="http://pub.idqqimg.com/wpa/images/group.png" alt="NLP面试学习群" title="NLP面试学习群"></a>
> 欢迎大家加入!共同完善此项目!NLP学习QQ2群【207576902】<a target="_blank" href="http://shang.qq.com/wpa/qunwpa?idkey=1defd70810d9e67ca6ab3a30e1425a8a358139315a186dd2192d82a4c0ca1ce9"><img border="0" src="http://pub.idqqimg.com/wpa/images/group.png" alt="NLP学习群②" title="NLP学习群②"></a>

2 changes: 1 addition & 1 deletion NLP/16.4 textRNN & textCNN/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -34,7 +34,7 @@

这里的文本可以一个句子,文档(短文本,若干句子)或篇章(长文本),因此每段文本的长度都不尽相同。在对文本进行分类时,我们一般会指定一个固定的输入序列/文本长度:该长度可以是最长文本/序列的长度,此时其他所有文本/序列都要进行填充以达到该长度;该长度也可以是训练集中所有文本/序列长度的均值,此时对于过长的文本/序列需要进行截断,过短的文本则进行填充。总之,要使得训练集中所有的文本/序列长度相同,该长度除之前提到的设置外,也可以是其他任意合理的数值。在测试时,也需要对测试集中的文本/序列做同样的处理。

假设训练集中所有文本/序列的长度统一为n,我们需要对文本进行分词,并使用词嵌入得到每个词固定维度的向量表示。对于每一个输入文本/序列,我们可以在RNN的每一个时间步长上输入文本中一个单词的向量表示,计算当前时间步长上的隐藏状态,然后用于当前时间步骤的输出以及传递给下一个时间步长并和下一个单词的词向量一起作为RNN单元输入,然后再计算下一个时间步长上RNN的隐藏状态,以此重复...直到处理完输入文本中的每一个单词,由于输入文本的长度为n,所以要经历n个时间步长。
首先我们需要对文本进行分词,然后指定一个序列长度n(大于n的截断,小于n的填充),并使用词嵌入得到每个词固定维度的向量表示。对于每一个输入文本/序列,我们可以在RNN的每一个时间步长上输入文本中一个单词的向量表示,计算当前时间步长上的隐藏状态,然后用于当前时间步骤的输出以及传递给下一个时间步长并和下一个单词的词向量一起作为RNN单元输入,然后再计算下一个时间步长上RNN的隐藏状态,以此重复...直到处理完输入文本中的每一个单词,由于输入文本的长度为n,所以要经历n个时间步长。

基于RNN的文本分类模型非常灵活,有多种多样的结构。接下来,我们主要介绍两种典型的结构。

Expand Down
6 changes: 3 additions & 3 deletions NLP/16.7 Transformer/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -56,7 +56,7 @@ transformer模型中缺少一种解释输入序列中单词顺序的方法,它

最后把这个Positional Encoding与embedding的值相加,作为输入送到下一层。

![](https://gitee.com/kkweishe/images/raw/master/ML/2019-9-26_9-25-43.png)
![](https://gitee.com/kkweishe/images/raw/master/ML/2019-9-26_14-45-31.png)



Expand All @@ -82,7 +82,7 @@ The animal didn't cross the street because it was too tired

4. 下一步就是把Value和softmax得到的值进行相乘,并相加,得到的结果即是self-attetion在当前节点的值。

![](https://gitee.com/kkweishe/images/raw/master/ML/2019-9-26_9-4-8.png)
![](https://gitee.com/kkweishe/images/raw/master/ML/2019-9-26_14-47-17.png)

在实际的应用场景,为了提高计算速度,我们采用的是矩阵的方式,直接计算出Query, Key, Value的矩阵,然后把embedding的值与三个矩阵直接相乘,把得到的新矩阵 Q 与 K 相乘,乘以一个常数,做softmax操作,最后乘上 V 矩阵。

Expand All @@ -98,7 +98,7 @@ The animal didn't cross the street because it was too tired

这篇论文更牛逼的地方是给self-attention加入了另外一个机制,被称为“multi-headed” attention,该机制理解起来很简单,**就是说不仅仅只初始化一组Q、K、V的矩阵,而是初始化多组,tranformer是使用了8组**,所以最后得到的结果是8个矩阵。

![](https://gitee.com/kkweishe/images/raw/master/ML/2019-9-26_9-13-0.png)
![](https://gitee.com/kkweishe/images/raw/master/ML/2019-9-26_14-49-14.png)

![](https://gitee.com/kkweishe/images/raw/master/ML/2019-9-26_9-13-50.png)

Expand Down
Loading