在詞向量的選擇方面,好像大部分研究人員用比較流行的Word2vec比較多,而忽略了GloVe這一個強力的詞向量,網(wǎng)上相關(guān)資料也比較少。有興趣研究其相關(guān)理論的同學(xué)可以自己查閱相關(guān)知識,本文只為大家介紹一下如何訓(xùn)練保存并調(diào)用GloVe詞向量。
官方給出的只有唯一一個C語言版本,相關(guān)鏈接如下:
GloVe詞向量的主頁及簡介:https://nlp.stanford.edu/projects/glove/
GloVe詞向量的gtihub地址:https://github.com/stanfordnlp/GloVe
拷貝項目到本地
git clone https://github.com/stanfordnlp/GloVe.git
基于這個github代碼,我們開始介紹:
準(zhǔn)備語料
首先準(zhǔn)備要訓(xùn)練的中文語料,我使用的是網(wǎng)上爬取的新聞?wù)Z料。
接著分詞,去掉停用詞,如下,保證每一行是一個句子就可以了:
特朗普 再度 炮轟 美聯(lián)儲 加息 致美股 大跌 但稱 不會 解雇 鮑威爾 中新社 華盛頓 10 月 11 日電 美國 總統(tǒng) 特朗普 11 日 白宮 表示 美股 調(diào)整 美聯(lián)儲 利率 引起 說 美聯(lián)儲 貨幣政策 太緊 不會 解雇 美聯(lián)儲 主席 鮑威爾 當(dāng)天 特朗普 白宮 記者 問及 美股 大跌 時 做出 上述 表態(tài) 10 日 美國紐約 三大 股指 大跌 道瓊斯 工業(yè) 指數(shù) 下挫 超過 800 點 11 日 美股 跌勢 繼續(xù) 特朗普 稱 美股 調(diào)整 美聯(lián)儲 利率 引起 特朗普 說 美聯(lián)儲 利率 上升 速度 遠(yuǎn)遠(yuǎn) 快于 包括 在內(nèi) 很多 預(yù)期 認(rèn)為 美聯(lián)儲 失控 特朗普 指責(zé) 美聯(lián)儲 貨幣政策 太緊 正在 犯錯 記者 問及 是否 會 解雇 美聯(lián)儲 主席 鮑威爾 時 特朗普 表示 不會 感到 失望 10 日美股 大跌 特朗普 說 美聯(lián)儲 瘋 早 今年 7 月 特朗普 公開 表示 喜歡 美聯(lián)儲 加息 近期 更是 接連 批評 美聯(lián)儲 美國 CNBC 電視臺 稱 特朗普 打破 20 多年 美國 總統(tǒng) 公開 評論 美聯(lián)儲 政策 慣例 擔(dān)憂 美聯(lián)儲 獨立性 對此 白宮 國家 經(jīng)濟 委會 主任 庫 德洛 11 日 媒體 表示 總統(tǒng) 看法 說 知道 美聯(lián)儲 獨立 特朗普 沒有 美聯(lián)儲 發(fā)號施令 1913 年 美聯(lián)儲 法 規(guī)定 美聯(lián)儲 官員 總統(tǒng) 理由 提前 解職 沒有 詳述 何種 理由 總統(tǒng) 解除 美聯(lián)儲 官員 職位 http bj news.163 com 18 1011 15 DTRJH0VC043897TC html 精英 路通 智慧停車 落戶 鹽城 高位 視頻 解決 停車難 全球 財經(jīng)網(wǎng)
平安產(chǎn)險 濰坊 中支 雙百 對村 扶貧 助力 鄉(xiāng)村 振興 平安產(chǎn)險 濰坊 中支 雙百 對村 扶貧 助力 鄉(xiāng)村 振興 2018 10 3016 38 來源 財經(jīng) 手機 新聞 半島網(wǎng) 半島都市報 深入 推進(jìn) 鄉(xiāng)村 振興 戰(zhàn)略 實施 發(fā)展壯大 村級 集體經(jīng)濟 壽光 市委 組織 開展 百個 部門 包百村 百家 企業(yè) 幫百村 行動 確定 結(jié)對 幫扶 集體經(jīng)濟 薄弱 村 增強 村 集體 造血 功能 促進(jìn) 富民 強村 建立 持續(xù) 增收 長效機制 壽光 市委 安排 平安產(chǎn)險 濰坊 中支 壽光 支公司 楊家 營村 結(jié)為 幫扶 對象 壽光 支公司 積極響應(yīng) 成立 經(jīng)理 李守江 組長 扶貧 小組 趕赴 楊家 營村 商討 扶貧 事宜 扶貧 小組 詳細(xì) 了解 村里 當(dāng)務(wù)之急 道路 硬化 亮化 蔬菜大棚 改造 專業(yè) 人員 詳細(xì) 預(yù)算 這三項 工程 總共 需要 8 萬元 資金 扶貧 小組 具體情況 簽報 上級 公司 得到 濰坊 中支 青島 分公司 大力支持 扶貧 資金 很快 得到 批復(fù) 扶貧 資金 到位 三項 扶貧 工程項目 得以 迅速 開工 三項 工程 開工 扶貧 小組 數(shù)次 村 查看 商討 確保 扶貧 資金 切實落實 扶貧 項目 如今 曾經(jīng) 塵土飛揚 土路 變成 光潔 柏油路 晚上 漆黑 村里 變得 亮堂堂 賴以為生 蔬菜大棚 得到 改造 懂 感恩 助 未來 平安 不斷 實際行動 踐行 回饋 社會 責(zé)任 理念 努力 扶貧 工作 做出 貢獻(xiàn) 編輯 張芳 雙 11 山盟海誓 相親 .. 大江 大河 王凱 扮土 .. 10 輛 汽車 130 萬 現(xiàn)金 歸還 原主 東港 公安分局 舉行 退贓 大會 11 1014 56 怪事 即墨 名門世家 小區(qū) 竟然 兩個 物業(yè) 搶 雷鋒 11 1010 34 近半 國家 地區(qū) 面臨 嬰兒 缺 11 1211 10 日照市 工商局 日照市 消協(xié) 開展 雙 11 法律法規(guī) 宣傳 活動 11 1014 51 日照 愛爾眼科醫(yī)院 授予 市 法治 志愿者 協(xié)會會員 單位 11 1018 10 牽手 同行 一路 幼 愛 日照市 幼兒教育 協(xié)會 2018 支教 活動 啟動 儀式 11 1112 55 第一次 拍賣 山東 楊春 商貿(mào)集團 有限公司 房地產(chǎn)項目 一宗 11 1114 21 日照市 第三 實驗 小學(xué) 名師 引領(lǐng) 促 專業(yè) 成長 11 1016 25 今晨 青島 保利 里 院里 小區(qū) 發(fā)生 煤氣 閃爆 事故 2 受傷 11 1111 22 日照 消協(xié) 2018 消費 警示 定金 訂金 法律 后果 大不同 11 1014 48 半島網(wǎng)
劉成 紀(jì) 近年來 莊子 美學(xué) 研究 述評 劉成 紀(jì) 近年來 莊子 美學(xué) 研究 述評 2014 12 0415 01 文章 來源 人民 美術(shù)網(wǎng) 整理 中國 美學(xué) 研究 中 莊子 一個 常解 常新 文本 建 否定 超越 本體論 建 懷疑 相對主義 認(rèn)識論 哲學(xué) 視野 開放性 語言 方式 暗示性 認(rèn)為 特點 注定 莊子 美學(xué) 可能 一語 道 可能 一言難盡 下面 2000 年 國內(nèi) 莊子 美學(xué) 研究 大致 狀況 作一 簡單 評述 . 基本 理論 研究 近年來 思想者 美學(xué)史 領(lǐng)域 淡出 一直 這一 學(xué)科 走向 成熟 標(biāo)志 令人遺憾 這種 學(xué)術(shù) 轉(zhuǎn)向 基礎(chǔ)理論 研究 少有 突破 缺少 創(chuàng)造性 理論 闡釋 出現(xiàn) 具體 莊子 美學(xué) 研究 以下 觀點 值得注意 樊美筠 哲學(xué) 道 審美 道 差異 界定 莊子 中國 美學(xué)史 地位 認(rèn)為 莊子 中國 傳統(tǒng) 美學(xué) 發(fā)生 深遠(yuǎn)影響 是因為 老子 哲學(xué) 道 轉(zhuǎn)而 視為 審美 道 樊美筠 莊子 審美 道 發(fā)現(xiàn)者 文史哲 2000 年 2 期 顏翔林 懷疑論 美學(xué) 視角 重新 審視 莊子 美學(xué) 知識 批判 莊子 哲學(xué) 構(gòu)成 一文 中 指出 懷疑論 視角 知識 反思 批判 莊子 哲學(xué) 重要 構(gòu)成 美學(xué) 發(fā)生 重要 前提 這種 懷疑 批判 莊子 哲學(xué) 呈現(xiàn)出 超越 知識論 生命 智慧 凸現(xiàn) 開拓 一條 通向 審美 藝術(shù) 創(chuàng)造 心靈 道路 遼寧大學(xué) 學(xué)報 2003 年 12 期 近年來 莊子 哲學(xué) 美學(xué) 進(jìn)行 劃界 傾向 不同 王向峰 老莊 道 美的 關(guān)系 進(jìn)行 新 闡釋 認(rèn)為 老莊 美學(xué) 哲學(xué)理論 延伸 美的 形態(tài) 道 形態(tài) 一致 道 美 體現(xiàn) 本質(zhì) 無形 或象 罔 外顯 自然 樸拙 表現(xiàn) 出 神妙 特性 道 美 美之美 王向峰 莊子 美的 形態(tài) 社會科學(xué) 輯刊 2000 年 2 期 除此以外 莊子 哲學(xué) 研究 文章 值得注意 容易 引發(fā) 莊子 美學(xué) 新 界定 反省 如蕭 漢明 莊子 性命 說 觀 物論 中 道 性 二重 觀 莊子 觀 物論 分為 以性 觀物 道觀 物 長期 觀物 以物 觀物 界定 中國 古典 美學(xué) 審美觀 方式 一種 豐富 江蘇 行政 學(xué)院 學(xué)報 2001 年 4 期 徐克 謙 莊子 哲學(xué) 中 真 一文 中 指出 真 字 現(xiàn)存 莊子 之前 古籍 中 幾乎 找 不到 真 哲學(xué) 概念 提出 莊子 一大 貢獻(xiàn) 顯然 隱含 一個 結(jié)論 存在 現(xiàn)代 意義 所說 美 莊子 其實 真 或者說 真 構(gòu)成 莊子 美論 內(nèi)在 南京大學(xué) 學(xué)報 2002 年 2 期 徐克 謙 道路 方法 莊子 道 中 指出 道 具有 形而上學(xué) 本體論 意義 始終 沒有 脫離 道路 方法 原初 意象 莊子 道 探索 一條 通往 精神 生命 安頓 道路 中國 哲學(xué)史 2000 年 4 期 道路 道 成 莊子 哲學(xué) 走向 美學(xué) 中介 橋梁 責(zé)任編輯 李亮 人民 美術(shù)網(wǎng) 資訊
周志 高 書法作品 欣賞 周志 高 先生 藝術(shù) 簡介 周志 高 1945 年 1 月 出生 江蘇 興化 中國書法家協(xié)會 第一 二屆 常務(wù)理事 第三 五 六屆 理事 中國書法家協(xié)會 資深 評委 1977 年 創(chuàng)辦 上海 書法 雜志 並任 執(zhí)行 主編 策劃 主辦 中國 書壇 五個 第一 重大 活動 被譽為 中國 當(dāng)代 書法 復(fù)興 奠基人 2003 年 任中國 書協(xié) 中國 書法 雜志 主編 現(xiàn)為 中國 書法 雜志 特約 編委 中國 書協(xié) 編輯出版 委員會 副 主任 中央文史館 書畫院 研究員 國家 社部 中國 人才 研討會 書畫 人才 專業(yè) 委員會 副會長 上海 文史 研究 館 館員 復(fù)旦大學(xué) 上海師范大學(xué) 兼職 教授 上海市 書協(xié) 主席 上海 中國 書 法院院長 上海市 文聯(lián) 副 主席 兼書 各體 尤精 行草 作品 參加 一至 十一屆 國展 數(shù)十次 海內(nèi)外 重大 書展 海內(nèi)外 數(shù)十家 博物館 美術(shù)館 紀(jì)念館 收藏 出版 專著 合著 廿 余種 多次 出訪 辦展 港 澳 臺 地區(qū) 亞 歐 美 澳州 十?dāng)?shù) 國 2013 年 6 月 應(yīng)邀 北京人民大會堂 八一 軍委 大樓 創(chuàng)作 丈二及 八尺 鄭板橋 詠 竹 詩二首 書法作品 2015 年 9 月 2 日晚 釣魚臺國賓館 習(xí)近平 主席 宴請 出席 中國 人民 抗日戰(zhàn)爭 暨 世界反法西斯戰(zhàn)爭 勝利 七十 周年 活動 國際 貴賓 請柬 節(jié)目單 節(jié)目 簡介 菜單 封面 字 均 出 手筆 出版 專著 合著 周志 高 書法 歷代 勤學(xué) 詩正草 字帖 草書 前 出師表 書法 創(chuàng)作 中國 歷代 書法 精品 百幅 賞析 書法 三十年 周志 高 書法集 中 英文版 中國 當(dāng)代 名家 作品 精選 周志 高 線裝書 廿 余種 人民 美術(shù)網(wǎng) 資訊
漢騰 X5 價格 最低 5.98 萬起 售 歡迎 上門 試駕 漢騰 X5 價格 最低 5.98 萬起 售 歡迎 上門 試駕 2018 年 11 月 07 日 12 02 來源 佛山 安迪鑫 類別 車商 新聞 打印 手機閱讀 促銷 時間 2018 年 11 月 07 日 2018 年 11 月 08 日買漢騰 佛山 安迪鑫 南莊 店 1 手續(xù) 簡單 需要 一張 身份證 駕駛證 貸款 買車 不限 戶籍 不限 車型 不看 征信 2 分期 便捷 分期 當(dāng)天 提車 手續(xù) 簡單 輕 3 專業(yè) 辦理 達(dá)標(biāo) 零首付 購車 外地 全國 牌 極速 提車 熱線 15011 666 2641.5 L112 馬力 L4 車型 指導(dǎo)價 本店 價 優(yōu)惠 金額 獲取 底價 2018 款 1.5 L 手動 風(fēng)尚 版 5.98 萬 5.48 萬 0.50 萬詢 底價 2018 款 1.5 L 手動 舒適版 6.58 萬 6.08 萬 0.50 萬詢 底價 2018 款 1.5 L 手動 精英 版 7.18 萬 6.68 萬 0.50 萬詢 底價 1.5 T156 馬力 L4 車型 指導(dǎo)價 本店 價 優(yōu)惠 金額 獲取 底價 2018 款 1.5 TC VT 精英 版 8.58 萬 8.08 萬 0.50 萬詢 底價 2018 款 1.5 TC VT 豪華版 9.28 萬 8.78 萬 0.50 萬詢 底價 2018 款 1.5 TC VT 炫動 旗艦版 10.68 萬 10.18 萬 0.50 萬詢 底價 2018 款 1.5 TC VT 賀歲版 10.63 萬 10.13 萬 0.50 萬詢 底價 2018 款 1.5 T 手動 精英 版 7.68 萬 7.18 萬 0.50 萬詢 底價 2018 款 1.5 T 手動 豪華版 8.38 萬 7.88 萬 0.50 萬詢 底價 更 優(yōu)惠 請 致電 經(jīng)銷商 咨詢電話 15011 666 264 漢騰 X5 生產(chǎn) 廠商 漢騰 汽車 級別 緊湊型 SUV 車身 尺寸 4501 1820 1648 軸距 2600mm 車體 結(jié)構(gòu) 承載 式 整備 質(zhì)量 kg 發(fā)動機 1.5 T156 馬力 L4 驅(qū)動 方式 前置 前驅(qū) 變速箱 無級 變速箱 C VT 最大 功率 115kW 最大 扭矩 215Nm 最高 車速 km h 工信部 油耗 7.4 km 整車 質(zhì)保 三年 6 萬公里 可選 顏色 車型 資料 信息 首付 低至 1800 元 包牌 提車 一張 身份證 即可 申請 辦理 貸款 當(dāng)天 審批 三天 提車 回家 電話 致電 更 驚喜 咨詢電話 15011 666 264 店面 地址 佛山市 禪城區(qū) 南莊鎮(zhèn) 吉利 大道 樵樂 路上 淇 村口 公交車站 旁 查看 地圖 想 獲取 漢騰 X5 最低價 請 填寫 以下 信息 會 信息 保密 經(jīng)銷商 第一 時間 為您服務(wù) 意向 車型 最近 30 天 已有 28 詢價 免責(zé) 聲明 車主 家 車商 通 信息內(nèi)容 系 經(jīng)銷商 自行 發(fā)布 真實性 準(zhǔn)確性 合法性 經(jīng)銷商 負(fù)責(zé) 車主 之家 提供 保證 承擔(dān) 法律責(zé)任 分享 分享 微信 X 微信 掃 一掃 分享 朋友圈 佛山 漢騰 X5 更 優(yōu)惠 更 可能 感興趣 車 更 車主 家
WeMo 智能 調(diào)光器 Apple Home Kit 連接 手機 中國 新聞 今年 早些時候 WeMoMini 智能開關(guān) 第一款 使用 Apple 軟件 Home Kit 身份驗證 方法 直接 Apple Home Kit 連接 智能家居 工具 意味著 需要 Apple 內(nèi)置 MFi 芯片組 不再 需要 配備 MFi WeMoBridge 插件 集線器 配件 現(xiàn)在 WeMo 智能燈 開關(guān) 正 緊隨其后 WeMoMin 智能開關(guān) 內(nèi)部 沒有 MFi 芯片 不再 重要 現(xiàn)在 巧妙 新 軟件 方法 直接 Apple Home Kit 連接 WeMo 智能 調(diào)光器 Home Kit 兼容性 意味著 設(shè)備 添加 OS 設(shè)備 Apple 主頁 應(yīng)用程序 中 控制 使用 制造商 提供 Home Kit 兼容 工具 進(jìn)行 智能控制 使用 Siri 命令 控制 Home Kit 兼容 工具 WeMo 智能 調(diào)光器 燈 開關(guān) 打開 關(guān)閉 調(diào)光 WeMo 智能 調(diào)光器 控制 燈光 合并 設(shè)備 場景 中 使用 自定義 語音 命令 激活 想 觀看 電影 時 說 Siri Showtime 自動 調(diào)暗 燈光 智能 調(diào)整 色調(diào) 手機 中國 新聞 中心
陜鋼 集團 召開 安全 專題 會 陜鋼 集團 6 月 29 日 7 月 11 日 龍鋼 公司 漢鋼 公司 召開 安全 專題 會 傳達(dá) 貫徹 全國 冶金 有色 行業(yè) 安全監(jiān)管 工作 會議 全省 工貿(mào) 行業(yè) 安全監(jiān)管 工作 視頻會議 精神 安排 部署 下半年 安全 生產(chǎn) 重點 工作 集團公司 總工程師 韋武 強 參加 會議 集團 安環(huán) 能源部 部長 樊定民 主持會議 韋武 強 指出 上半年 集團公司 安全 生產(chǎn) 形勢 總體 穩(wěn)定 安全 基礎(chǔ) 依然 薄弱 員工 三違 整治 外協(xié) 安全監(jiān)管 設(shè)備 設(shè)施 運行 方面 存在 不足 短板 必須 深入研究 認(rèn)真對待 強調(diào) 當(dāng)前 高溫 暑期 及主 汛期 各類 安全 生產(chǎn) 事故 多發(fā)期 高發(fā)期 下半年 國家 應(yīng)急管理 部將 鋼鐵企業(yè) 重大 生產(chǎn) 安全 事故隱患 排查 治理 專項 行動 加大 明查暗訪 力度 組織 開展 省際 交叉 核驗 集中 曝光 一批 違法 鋼鐵企業(yè) 安全 生產(chǎn) 形勢 依然 嚴(yán)峻 單位 認(rèn)清 目前 安全 生產(chǎn) 大勢 認(rèn)真 貫徹落實 習(xí)近平 總書記 安全 生產(chǎn) 重要 思想 進(jìn)一步 增強 安全 工作 認(rèn)識 時刻 保護(hù) 職工 生命安全 工作 底線 時刻 緊繃 安全 弦 安全 工作 只能 加強 不能 削弱 堅決 態(tài)度 全力 做好 安全 生產(chǎn) 工作 要求 單位 認(rèn)真 開展 四類 危險 作業(yè) 安全 專項 整治 活動 有效 遏制 各類 重大事故 發(fā)生 二要 進(jìn)一步 做好 暑期 汛期 安全 生產(chǎn) 工作 確保 人員 設(shè)備 安全 度夏 三要 繼續(xù) 開展 鋼鐵企業(yè) 重大 生產(chǎn) 安全 事故隱患 排查 治理 專項 行動 安全 專項 攻堅 行動 認(rèn)真 及時 整改 安全 事故隱患 確保 專項 行動 各項 工作 落到實處 四要 切實加強 安全 雙重 預(yù)防 體系 建設(shè) 確保 完成 雙重 預(yù)防 體系 建設(shè) 任務(wù) 有效 運行 事故 預(yù)防 工作 取得 明顯 成效 五要 加強 消防安全 管理工作 提升 企業(yè) 消防 管理水平 六要 深刻 汲取 事故 教訓(xùn) 扭轉(zhuǎn) 目前 安全 被動局面 七要 加強 安全生產(chǎn)標(biāo)準(zhǔn)化 工作 強化 安全 標(biāo)準(zhǔn)化 檢查 考評 做實 做 細(xì) 安全 標(biāo)準(zhǔn)化 工作 會議 開展 百日 安全 活動 發(fā)揮 黨政工 團 齊抓共管 作用 營造 安全 氛圍 加強 防汛 防暑 工作 開展 安全 專項 整治 推進(jìn) 安全 雙重 預(yù)防 體系 建設(shè) 強化 安全 專項 攻堅 行動 方面 下半年 安全 重點 工作 進(jìn)行 安排 部署 會上 解讀 學(xué)習(xí) 冶金 企業(yè) 有色金屬 企業(yè) 安全 生產(chǎn) 規(guī)定 工貿(mào) 行業(yè) 重大 安全 事故隱患 判定 標(biāo)準(zhǔn) 2017 版 國家 安監(jiān) 總局 開展 鋼鐵企業(yè) 重大 生產(chǎn) 安全 事故隱患 排查 治理 專項 行動 通知 近期 4 冶金 企業(yè) 生產(chǎn) 安全事故 基本 情況 通報 國家 應(yīng)急管理 部 明查暗訪 河南 江西省 鋼鐵行業(yè) 專項 行動 工作 情況 通報 集團 機關(guān) 部門 負(fù)責(zé)人 子公司 黨政 主要 領(lǐng)導(dǎo) 單位 領(lǐng)導(dǎo) 部門 負(fù)責(zé)人 分廠 事業(yè)部 黨政 負(fù)責(zé)人 安全 主管 領(lǐng)導(dǎo) 安全 科長 作業(yè) 長 班組長 代表 參加 會議 陜鋼 集團
中央 國家機關(guān) 書畫 十人展 人民 美術(shù)館 開幕 貫徹 文藝 工作 座談會 精神 文藝 人民 服務(wù) 社會 服務(wù) 創(chuàng)作 導(dǎo)向 2015 年 1 月 31 日 中央 國家機關(guān) 書法家 協(xié)會 美術(shù)家 協(xié)會 共同 主辦 人民 美術(shù)網(wǎng) 北京 紅博館 協(xié)辦 尚書 迎大美之春 中央 國家機關(guān) 書畫 十人展 人民 美術(shù)館 開幕 展期 2 月 10 日 結(jié)束 人民 美術(shù)網(wǎng) 資訊
訓(xùn)練模型
接下來,如果你在終端中運行./build/glove
會給出你運行項目的完整參數(shù)代碼和例子
Example usage:
./glove -input-file cooccurrence.shuf.bin -vocab-file vocab.txt -save-file vectors -gradsq-file gradsq -verbose 2 -vector-size 100 -threads 16 -alpha 0.75 -x-max 100.0 -eta 0.05 -binary 2 -model 2
如果覺得參數(shù)太多且不知其含義,那還有更簡單的方法,打開demo.sh,修改其默認(rèn)語料和相關(guān)參數(shù)
#!/bin/bash
set -e
# Makes programs, downloads sample data, trains a GloVe model, and then evaluates it.
# One optional argument can specify the language used for eval script: matlab, octave or [default] python
make
#if [ ! -e text8 ]; then
# if hash wget 2>/dev/null; then
# wget http://mattmahoney.net/dc/text8.zip
# else
# curl -O http://mattmahoney.net/dc/text8.zip
# fi
# unzip text8.zip
# rm text8.zip
#fi
CORPUS=/media/brx/2d79a6a5-f419-aa4c-b391-314a73033208/Data/vector/textdbAllsegTCU.txt
VOCAB_FILE=vocab.txt
COOCCURRENCE_FILE=cooccurrence.bin
COOCCURRENCE_SHUF_FILE=cooccurrence.shuf.bin
BUILDDIR=build
SAVE_FILE=vectors
VERBOSE=2
MEMORY=4.0
VOCAB_MIN_COUNT=5
VECTOR_SIZE=50
MAX_ITER=15
WINDOW_SIZE=15
BINARY=2
NUM_THREADS=8
X_MAX=10
echo
echo "$ $BUILDDIR/vocab_count -min-count $VOCAB_MIN_COUNT -verbose $VERBOSE < $CORPUS > $VOCAB_FILE"
$BUILDDIR/vocab_count -min-count $VOCAB_MIN_COUNT -verbose $VERBOSE < $CORPUS > $VOCAB_FILE
echo "$ $BUILDDIR/cooccur -memory $MEMORY -vocab-file $VOCAB_FILE -verbose $VERBOSE -window-size $WINDOW_SIZE < $CORPUS > $COOCCURRENCE_FILE"
$BUILDDIR/cooccur -memory $MEMORY -vocab-file $VOCAB_FILE -verbose $VERBOSE -window-size $WINDOW_SIZE < $CORPUS > $COOCCURRENCE_FILE
echo "$ $BUILDDIR/shuffle -memory $MEMORY -verbose $VERBOSE < $COOCCURRENCE_FILE > $COOCCURRENCE_SHUF_FILE"
$BUILDDIR/shuffle -memory $MEMORY -verbose $VERBOSE < $COOCCURRENCE_FILE > $COOCCURRENCE_SHUF_FILE
echo "$ $BUILDDIR/glove -save-file $SAVE_FILE -threads $NUM_THREADS -input-file $COOCCURRENCE_SHUF_FILE -x-max $X_MAX -iter $MAX_ITER -vector-size $VECTOR_SIZE -binary $BINARY -vocab-file $VOCAB_FILE -verbose $VERBOSE"
$BUILDDIR/glove -save-file $SAVE_FILE -threads $NUM_THREADS -input-file $COOCCURRENCE_SHUF_FILE -x-max $X_MAX -iter $MAX_ITER -vector-size $VECTOR_SIZE -binary $BINARY -vocab-file $VOCAB_FILE -verbose $VERBOSE
if [ "$CORPUS" = 'text8' ]; then
if [ "$1" = 'matlab' ]; then
matlab -nodisplay -nodesktop -nojvm -nosplash < ./eval/matlab/read_and_evaluate.m 1>&2
elif [ "$1" = 'octave' ]; then
octave < ./eval/octave/read_and_evaluate_octave.m 1>&2
else
echo "$ python eval/python/evaluate.py"
python eval/python/evaluate.py
fi
fi
將默認(rèn)的text8部分代碼注釋掉,之后將CORPUS改為自己語料的路徑位置,其余參數(shù)可以根據(jù)自己的情況進(jìn)行修改或保持默認(rèn)不變。
之后就可以開始訓(xùn)練了,終端中輸入:
make
./demo.sh
導(dǎo)入模型
訓(xùn)練完成后會得到txt格式的向量文件vectors.txt,相比于word2vec訓(xùn)練出的詞向量,GloVe的詞向量少了第一行的vacob_size vector_size,第一個數(shù)指明一共有多少個向量,第二個數(shù)指明每個向量有多少維,可以自行加上變?yōu)閣ord2vec的可調(diào)用形式
from gensim.models import Word2Vec
model = Word2Vec.load_word2vec_format(‘vectors.txt’, binary=False)
如果不知道如何添加或者相關(guān)維數(shù),也可以使用gensim進(jìn)行轉(zhuǎn)化:
from gensim.test.utils import datapath, get_tmpfile
from gensim.models import KeyedVectors
# 輸入文件
glove_file = datapath('vectors.txt')
# 輸出文件
tmp_file = get_tmpfile("test_word2vec.txt")
# call glove2word2vec script
# default way (through CLI): python -m gensim.scripts.glove2word2vec --input <glove_file> --output <w2v_file>
# 開始轉(zhuǎn)換
from gensim.scripts.glove2word2vec import glove2word2vec
glove2word2vec(glove_file, tmp_file)
# 加載轉(zhuǎn)化后的文件
model = KeyedVectors.load_word2vec_format(tmp_file)
print(model['月'])
如果能打印出相關(guān)的詞向量,恭喜你,訓(xùn)練和導(dǎo)入的方式是成功了,你獲得了自己語料的GloVe詞向量