Anaconda--筆記

介紹兩個(gè)對(duì)于數(shù)據(jù)分析師最為重要的工具,即 Anaconda 和 Jupyter notebook。

Anaconda 是一個(gè)包含數(shù)據(jù)科學(xué)常用包的 Python 發(fā)行版本。它基于 conda ——一個(gè)包和環(huán)境管理器——衍生而來(lái)。你將使用 conda 創(chuàng)建環(huán)境,以便分隔使用不同 Python 版本和不同程序包的項(xiàng)目。你還將使用它在環(huán)境中安裝、卸載和更新包。通過(guò)使用 Anaconda,處理數(shù)據(jù)的過(guò)程將更加愉快。

Jupyter notebook 是一種 Web 文檔,能讓你將文本、圖像和代碼全部組合到一個(gè)文檔中。它事實(shí)上已經(jīng)成為數(shù)據(jù)分析的標(biāo)準(zhǔn)環(huán)境。Jupyter notebook 源自 2011 年的 IPython 項(xiàng)目,之后迅速流行起來(lái)。在本課程的第二節(jié)課中,你將使用 Jupyter notebook 進(jìn)行分析工作。

首先學(xué)習(xí) Anaconda。

Anaconda

歡迎學(xué)習(xí)本課程,如何使用 Anaconda 來(lái)管理 Python 所用的包和環(huán)境。Anaconda 能讓你在數(shù)據(jù)科學(xué)的工作中輕松安裝經(jīng)常使用的程序包。你還將使用它創(chuàng)建虛擬環(huán)境,以便更輕松地處理多個(gè)項(xiàng)目。Anaconda 簡(jiǎn)化了工作流程,并且解決了多個(gè)包和 Python 版本之間遇到的大量問(wèn)題。

Anaconda 實(shí)際上是一個(gè)軟件發(fā)行版,它附帶了 conda、Python 和 150 多個(gè)科學(xué)包及其依賴(lài)項(xiàng)。應(yīng)用程序 conda 是包和環(huán)境管理器。Anaconda 的下載文件比較大(約 500 MB),因?yàn)樗綆Я?Python 中最常用的數(shù)據(jù)科學(xué)包。如果只需要某些包,或者需要節(jié)省帶寬或存儲(chǔ)空間,也可以使用 Miniconda 這個(gè)較小的發(fā)行版(僅包含 conda 和 Python)。但你仍可以使用 conda 來(lái)安裝任何可用的包,只是它自身沒(méi)有附帶這些包而已。

管理包

安裝了 Anaconda 之后,管理包是相當(dāng)簡(jiǎn)單的。要安裝包,請(qǐng)?jiān)诮K端中鍵入 conda install package_name。例如,要安裝 numpy,請(qǐng)鍵入 conda install numpy。
視頻地址
https://s3.cn-north-1.amazonaws.com.cn/u-img/conda_install.mp4

你還可以同時(shí)安裝多個(gè)包。類(lèi)似 conda install numpy scipy pandas 的命令會(huì)同時(shí)安裝所有這些包。還可以通過(guò)添加版本號(hào)(例如 conda install numpy=1.10)來(lái)指定所需的包版本。

Conda 還會(huì)自動(dòng)為你安裝依賴(lài)項(xiàng)。例如,scipy 依賴(lài)于 numpy,因?yàn)樗褂貌⑿枰?numpy。如果你只安裝 scipy (conda install scipy),則 conda 還會(huì)安裝 numpy(如果尚未安裝的話)。

大多數(shù)命令都是很直觀的。要卸載包,請(qǐng)使用 conda remove package_name。要更新包,請(qǐng)使用 conda update package_name。如果想更新環(huán)境中的所有包(這樣做常常很有用),請(qǐng)使用 conda update --all。最后,要列出已安裝的包,請(qǐng)使用前面提過(guò)的 conda list

如果不知道要找的包的確切名稱(chēng),可以嘗試使用 conda search search_term 進(jìn)行搜索。例如,我知道我想安裝 Beautiful Soup,但我不清楚確切的包名稱(chēng)。因此,我嘗試執(zhí)行 conda search beautifulsoup。

管理環(huán)境

如前所述,你可以使用 conda 創(chuàng)建環(huán)境以隔離項(xiàng)目。要?jiǎng)?chuàng)建環(huán)境,請(qǐng)?jiān)诮K端中使用 conda create -n env_name list of packages。在這里,-n env_name 設(shè)置環(huán)境的名稱(chēng)(-n 是指名稱(chēng)),而 list of packages 是要安裝在環(huán)境中的包的列表。例如,要?jiǎng)?chuàng)建名為 my_env 的環(huán)境并在其中安裝 numpy,請(qǐng)鍵入 conda create -n my_env numpy。

創(chuàng)建環(huán)境時(shí),可以指定要安裝在環(huán)境中的 Python 版本。這在你同時(shí)使用 Python 2.x 和 Python 3.x 中的代碼時(shí)很有用。要?jiǎng)?chuàng)建具有特定 Python 版本的環(huán)境,請(qǐng)鍵入類(lèi)似于 conda create -n py3 python=3conda create -n py2 python=2 的命令。實(shí)際上,我在我的個(gè)人計(jì)算機(jī)上創(chuàng)建了這兩個(gè)環(huán)境。我將它們用作與任何特定項(xiàng)目均無(wú)關(guān)的通用環(huán)境,以處理普通的工作(可輕松使用每個(gè) Python 版本)。這些命令將分別安裝 Python 3 和 Python 2 的最新版本。要安裝特定版本(例如 Python 3.3),請(qǐng)使用 conda create -n py python=3.3

進(jìn)入環(huán)境

創(chuàng)建了環(huán)境后,在 OSX/Linux 上使用 source activate my_env 進(jìn)入環(huán)境。在 Windows 上,請(qǐng)使用 activate my_env。

進(jìn)入環(huán)境后,你會(huì)在終端提示符中看到環(huán)境名稱(chēng),它類(lèi)似于 (my_env) ~ $。環(huán)境中只安裝了幾個(gè)默認(rèn)的包,以及你在創(chuàng)建它時(shí)安裝的包。你可以使用 conda list 檢查這一點(diǎn)。在環(huán)境中安裝包的命令與前面一樣:conda install package_name。不過(guò),這次你安裝的特定包僅在你進(jìn)入環(huán)境后才可用。要離開(kāi)環(huán)境,請(qǐng)鍵入 source deactivate(在 OSX/Linux 上)。在 Windows 上,請(qǐng)使用 deactivate。

保存和加載環(huán)境

共享環(huán)境這項(xiàng)功能確實(shí)很有用,它能讓其他人安裝你的代碼中使用的所有包,并確保這些包的版本正確。你可以使用 conda env export > environment.yaml 將包保存為 YAML。命令的第一部分 conda env export 用于輸出環(huán)境中的所有包的名稱(chēng)(包括 Python 版本)。

上圖中,你可以看到環(huán)境的名稱(chēng)和所有依賴(lài)項(xiàng)及其版本。導(dǎo)出命令的第二部分 > environment.yaml 將導(dǎo)出的文本寫(xiě)入到 YAML 文件 environment.yaml 中?,F(xiàn)在可以共享此文件,而且其他人能夠用于創(chuàng)建和你項(xiàng)目相同的環(huán)境。

要通過(guò)環(huán)境文件創(chuàng)建環(huán)境,請(qǐng)使用 conda env create -f environment.yaml。這會(huì)創(chuàng)建一個(gè)新環(huán)境,而且它具有同樣的在 environment.yaml 中列出的庫(kù)。

列出環(huán)境

如果忘記了環(huán)境的名稱(chēng)(我有時(shí)會(huì)這樣),可以使用 conda env list 列出你創(chuàng)建的所有環(huán)境。你會(huì)看到環(huán)境的列表,而且你當(dāng)前所在環(huán)境的旁邊會(huì)有一個(gè)星號(hào)。默認(rèn)的環(huán)境(即當(dāng)你不在選定環(huán)境中時(shí)使用的環(huán)境)名為 root。

刪除環(huán)境

如果你不再使用某些環(huán)境,可以使用 conda env remove -n env_name 刪除指定的環(huán)境(在這里名為 env_name)。

最佳做法

使用環(huán)境

對(duì)我有很大幫助的一點(diǎn)是,我的 Python 2 和 Python 3 具有獨(dú)立的環(huán)境。我使用了 conda create -n py2 python=2conda create -n py3 python=3 創(chuàng)建兩個(gè)獨(dú)立的環(huán)境,即 py2py3。現(xiàn)在,我的每個(gè) Python 版本都有一個(gè)通用環(huán)境。在所有這些環(huán)境中,我都安裝了大多數(shù)常用的標(biāo)準(zhǔn)數(shù)據(jù)科學(xué)包(numpy、scipy、pandas 等)。

我還發(fā)現(xiàn),為我從事的每個(gè)項(xiàng)目創(chuàng)建環(huán)境很有用。這對(duì)于與數(shù)據(jù)不相關(guān)的項(xiàng)目(例如使用 Flask 開(kāi)發(fā)的 Web 應(yīng)用)也很有用。例如,我為我的個(gè)人博客(使用 Pelican)創(chuàng)建了一個(gè)環(huán)境。

共享環(huán)境

在 GitHub 上共享代碼時(shí),最好同樣創(chuàng)建環(huán)境文件并將其包括在代碼庫(kù)中。這能讓其他人更輕松地安裝你的代碼的所有依賴(lài)項(xiàng)。對(duì)于不使用 conda 的用戶(hù),我通常還會(huì)使用 pip freeze在此處了解詳情)將一個(gè) pip requirements.txt 文件導(dǎo)出并包括在其中。

了解更多信息

要詳細(xì)了解 conda 以及它如何融入到 Python 生態(tài)系統(tǒng)中,請(qǐng)查看這篇由 Jake Vanderplas 撰寫(xiě)的文章:Conda myths and misconceptions(有關(guān) conda 的迷思和誤解)。此外,如果你有多余精力,也可以參考這篇 conda 文檔。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容