這篇文章主要為大家展示了python如何實現word2vec,內容簡而易懂,希望大家可以學習一下,學習完之后肯定會有收獲的,下面讓小編帶大家一起來看看吧。

一、前言
一開始看到word2vec環境的安裝還挺復雜的,安了半天Cygwin也沒太搞懂。后來突然發現,我為什么要去安c語言版本的呢,我應該去用python版本的,然后就發現了gensim,安裝個gensim的包就可以用word2vec了,不過gensim只實現了word2vec里面的skip-gram模型。若要用到其他模型,就需要去研究其他語言的word2vec了。
二、語料準備
有了gensim包之后,看了網上很多教程都是直接傳入一個txt文件,但是這個txt文件長啥樣,是什么樣的數據格式呢,很多博客都沒有說明,也沒有提供可以下載的txt文件作為例子。進一步理解之后發現這個txt是一個包含巨多文本的分好詞的文件。如下圖所示,是我自己訓練的一個語料,我選取了自己之前用爬蟲抓取的7000條新聞當做語料并進行分詞。注意,詞與詞之間一定要用空格:

這里分詞使用的是結巴分詞。
這部分代碼如下:
import jieba
f1 =open("fenci.txt")
f2 =open("fenci_result.txt", 'a')
lines =f1.readlines() # 讀取全部內容
for line in lines:
line.replace('\t', '').replace('\n', '').replace(' ','')
seg_list = jieba.cut(line, cut_all=False)
f2.write(" ".join(seg_list))
f1.close()
f2.close()另外有需要云服務器可以了解下創新互聯scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業上云的綜合解決方案,具有“安全穩定、簡單易用、服務可用性高、性價比高”等特點與優勢,專為企業上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
名稱欄目:python如何實現word2vec-創新互聯
轉載來源:http://www.yijiale78.com/article12/pgsdc.html
成都網站建設公司_創新互聯,為您提供App設計、手機網站建設、網站排名、企業網站制作、外貿網站建設、網站設計
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯