Anki系列-GRE詞書轉(zhuǎn)換腳本

使用說明

簡介

在之前的《Anki系列-用Anki準(zhǔn)備GRE》中,我承諾提供轉(zhuǎn)換用的腳本文件。舊版本的腳本使用起來很麻煩,所以重寫了一份,精簡代碼結(jié)構(gòu),并且將全文以markdown的方式分享到簡書,方便感興趣的人與我討論。

這個(gè)notebook展示了處理kindle版《GRE核心詞匯考法精析》、《GRE核心詞匯助記與精練》、《GRE高分必備短語搭配》的過程。目的是生成可以導(dǎo)入Anki的txt文檔?!禛RE核心詞匯考法精析》、《GRE核心詞匯助記與精練》生成的導(dǎo)入文件對應(yīng)的Note結(jié)構(gòu)為GreWord,《GRE高分必備短語搭配》生成的則對應(yīng)PhraseGRE。

首先你要從Amazon.cn購買者三本書的電子版(12、3)。你并不需要擁有一臺Kindle才能購買上述電子書。只需要在電腦上下載Kindle的客戶端,安裝后登陸你的Amazon賬號即可。然后,你需要利用Calibre將書籍轉(zhuǎn)換為txt格式以便讓python處理。轉(zhuǎn)換過程中,需要在“TXT Output”那里將Formatting設(shè)置為markdown,以便提取原書中的一些格式信息;“Line ending style”選擇unix;“Output Encoding”選擇'utf-8'。

轉(zhuǎn)換后,默認(rèn)文檔名分別為

"GREHe Xin Ci Hui Kao Fa Jing Xi  (Xin Dong Fang Da Yu Ying Yu Xue Xi Cong Shu ) - Chen Qi.txt"
"GREHe Xin Ci Hui Zhu Ji Yu Jing - Cao Tian Cheng.txt"
"GREGao Fen Bi Bei Duan Yu Da Pe - Yan Yu Zhen ,Gao Yu ,Chen Qi.txt"

假定你沒有修改文件名,并且按照相對路徑將這3個(gè)txt放到了與該notebook相同路徑的"base_data"文件夾中。如果你安裝了jupyter notebook,可以打開并運(yùn)行這個(gè).ipynb文件。它會自動在當(dāng)前目錄下生成三個(gè)_base_d文件,對應(yīng)三個(gè)txt源文件,可以被AnkiImport腳本調(diào)用。另外還會生成三個(gè)py腳本文件,可以獨(dú)立使用,功能都是讀入txt源文件并轉(zhuǎn)換,生成對應(yīng)的_base_d文件。這些腳本文件以及AnkiImport腳本會在《Anki系列-用Anki準(zhǔn)備GRE》的更新版本中提供,敬請期待。

本notebook后續(xù)會用三個(gè)章節(jié)分別處理這三個(gè)源文檔。
第一步當(dāng)然是將源文檔的內(nèi)容讀入為字符串。
每個(gè)章節(jié),代碼的最終目的都是將讀入的字符串以單詞釋義為單位,轉(zhuǎn)換為python中的字典結(jié)構(gòu)。這之間需要將字符串一步步切分(split),剔除掉不必要的信息。切分的規(guī)則通過觀察txt文檔并尋找規(guī)律得來。

完整文章請見explore_all_in_one.md

相關(guān)文件都已在Github共享
https://github.com/empenguinxh/Anki-CreateImportFile

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Anki系列-用Anki準(zhǔn)備GRE 背景 其實(shí)我從2010年就開始接觸Anki了。但那個(gè)時(shí)候,由于自身非常懶惰,對...
    北魏企鵝閱讀 32,906評論 32 137
  • 我為何使用Anki 最近在準(zhǔn)備GRE考試,試用了市面上大部分的軟件,效果都不甚理想。個(gè)人認(rèn)為,學(xué)習(xí),無論是背單詞還...
    北魏企鵝閱讀 24,352評論 10 84
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,616評論 19 139
  • 基礎(chǔ)命令 主要的命令和快捷鍵 Linux系統(tǒng)命令由三部分組成:cmd + [options]+[operation...
    485b1aca799e閱讀 1,221評論 0 0
  • 去年讀過馬伯庸著的《古董局中局》,因其情節(jié)緊湊,加之涉及很多古董方面的知識,讀來覺得有趣,所以小說的篇幅雖然較長,...
    zxllawyer閱讀 3,323評論 0 3

友情鏈接更多精彩內(nèi)容