解析詞向量 5 網絡資源與句子向量
這篇文章講的是:
我們要使用word2vec,從零開始爬資料,預處理,訓練十分繁瑣。
因此推薦一開始先試一些預訓練好的詞向量:
https://github.com/liuhuanyong/ChineseEmbedding
https://github.com/Embedding/Chinese-Word-Vectors
https://github.com/Embedding/Chinese-Word-Vectors
https://github.com/Embedding/Chinese-Word-Vectors
我們有詞向量后,用以分析句子和文本,通常會拿句子的向量做文本分析。
很直觀的做法,是用一個神經網絡訓練一個語言模型,其實也有不少簡單直接的方法可以得到和語言模型差不多的結果。拿到詞向量不需要訓練就可以直接用,考慮到方便和效率,很建議一開始先試這些方法的效果。
來自於
《Baseline Needs More Love:On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms》
有三個方法:
- SWEM-aver 每一維取平均
- SWEM-max 每一維區最大值
- SWEM-concat 將1,2兩個方法concat起來
- SWEM-hier 用窗口捕捉上下文訊息,將windows size内的詞向量做average pooling,拿到每一塊Windows size的結果之後,做max pooling拿到最終的結果
以上方法的code和使用方法,放在在nlp2 project裏面,有興趣可以瞭解一下:
[https://github.com/voidful/nlp2#vectorize]
Reference:
Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms https://arxiv.org/pdf/1805.09843.pdf