使用說明
簡介
在之前的《Anki系列-用Anki準(zhǔn)備GRE》中,我承諾提供轉(zhuǎn)換用的腳本文件。舊版本的腳本使用起來很麻煩,所以重寫了一份,精簡代碼結(jié)構(gòu),并且將全文以markdown的方式分享到簡書,方便感興趣的人與我討論。
這個(gè)notebook展示了處理kindle版《GRE核心詞匯考法精析》、《GRE核心詞匯助記與精練》、《GRE高分必備短語搭配》的過程。目的是生成可以導(dǎo)入Anki的txt文檔?!禛RE核心詞匯考法精析》、《GRE核心詞匯助記與精練》生成的導(dǎo)入文件對應(yīng)的Note結(jié)構(gòu)為GreWord,《GRE高分必備短語搭配》生成的則對應(yīng)PhraseGRE。
首先你要從Amazon.cn購買者三本書的電子版(1、2、3)。你并不需要擁有一臺Kindle才能購買上述電子書。只需要在電腦上下載Kindle的客戶端,安裝后登陸你的Amazon賬號即可。然后,你需要利用Calibre將書籍轉(zhuǎn)換為txt格式以便讓python處理。轉(zhuǎn)換過程中,需要在“TXT Output”那里將Formatting設(shè)置為markdown,以便提取原書中的一些格式信息;“Line ending style”選擇unix;“Output Encoding”選擇'utf-8'。
轉(zhuǎn)換后,默認(rèn)文檔名分別為
"GREHe Xin Ci Hui Kao Fa Jing Xi (Xin Dong Fang Da Yu Ying Yu Xue Xi Cong Shu ) - Chen Qi.txt"
"GREHe Xin Ci Hui Zhu Ji Yu Jing - Cao Tian Cheng.txt"
"GREGao Fen Bi Bei Duan Yu Da Pe - Yan Yu Zhen ,Gao Yu ,Chen Qi.txt"
假定你沒有修改文件名,并且按照相對路徑將這3個(gè)txt放到了與該notebook相同路徑的"base_data"文件夾中。如果你安裝了jupyter notebook,可以打開并運(yùn)行這個(gè).ipynb文件。它會自動在當(dāng)前目錄下生成三個(gè)_base_d文件,對應(yīng)三個(gè)txt源文件,可以被AnkiImport腳本調(diào)用。另外還會生成三個(gè)py腳本文件,可以獨(dú)立使用,功能都是讀入txt源文件并轉(zhuǎn)換,生成對應(yīng)的_base_d文件。這些腳本文件以及AnkiImport腳本會在《Anki系列-用Anki準(zhǔn)備GRE》的更新版本中提供,敬請期待。
本notebook后續(xù)會用三個(gè)章節(jié)分別處理這三個(gè)源文檔。
第一步當(dāng)然是將源文檔的內(nèi)容讀入為字符串。
每個(gè)章節(jié),代碼的最終目的都是將讀入的字符串以單詞釋義為單位,轉(zhuǎn)換為python中的字典結(jié)構(gòu)。這之間需要將字符串一步步切分(split),剔除掉不必要的信息。切分的規(guī)則通過觀察txt文檔并尋找規(guī)律得來。
完整文章請見explore_all_in_one.md
相關(guān)文件都已在Github共享
https://github.com/empenguinxh/Anki-CreateImportFile