將 word映射到一個新的空間中,并以多維的連續實數向量進行表示叫做“Word Represention” 或 “Word embedding”。
自從21世紀以來,人們逐漸從原始的詞向量稀疏表示法過渡到現在的低維空間中的密集表示。
用稀疏表示法在解決實際問題時經常會遇到維數災難,并且語義信息無法表示,無法揭示word之間的潛在聯系。
而采用低維空間表示法,不但解決了維數災難問題,并且挖掘了word之間的關聯屬性,從而提高了向量語義上的準確度。
word2vec 的學習任務
假設有這樣一句話:今天 下午 2點鐘 搜索 引擎 組 開 組會。
任務1:對于每一個word, 使用該word周圍的word 來預測當前word生成的概率。如使用“今天、下午、搜索、引擎、組”來生成“2點鐘”。
任務2:對于每一個word,使用該word本身來預測生成其他word的概率。如使用“2點鐘”來生成“今天、下午、搜索、引擎、組”中的每個word。
兩個任務共同的限制條件是:對于相同的輸入,輸出每個word的概率之和為1。
Word2vec的模型就是想通過機器學習的方法來達到提高上述任務準確率的一種方法。兩個任務分別對應兩個的模型(CBOW和skim-gram)。如果不做特殊說明,下文均使用CBOW即任務1所對應的模型來進行分析。
Skim-gram模型分析方法相同。
更多Word?相關技術文章,請訪問Word教程欄目進行學習!
? 版權聲明
文章版權歸作者所有,未經允許請勿轉載。
THE END