搞清楚 Python 的迭代器、可迭代對象、生成器

很多伙伴對 Python 的迭代器、可迭代對象、生成器這幾個概念有點搞不清楚,我來說說我的理解,希望對需要的朋友有所幫助。

1 迭代器協(xié)議

迭代器協(xié)議是核心,搞懂了這個,上面的幾個概念也就很好理解了。

所謂迭代器協(xié)議,就是要求一個迭代器必須要實現(xiàn)如下兩個方法

iterator.__iter__()
Return the iterator object itself.
iterator.__next__()
Return the next item from the container.

也就是說,一個對象只要支持上面兩個方法,就是迭代器。__iter__() 需要返回迭代器本身,而 __next__() 需要返回下一個元素。

2 可迭代對象

知道了迭代器的概念,那可迭代對象又是啥呢?

這個更簡單,只要對象實現(xiàn)了 __iter__() 方法,并且返回的是一個迭代器,那么這個對象就是可迭代對象。

比如我們常見的列表就是可迭代對象

>>> l = [1, 3, 5]
>>> iter(l)
<list_iterator object at 0x101a1d9e8>

使用 iter() 會調(diào)用對應(yīng)的 __iter__() 方法,這里返回的是一個列表迭代器,所以說列表就是一個可迭代對象。

3 手寫一個迭代器

迭代器的實現(xiàn)有不同的方式,相信大家首先能想到的就是自定義類,我們就從這個說起。

便于說明,我們手寫一個迭代器,用于生成奇數(shù)序列。

按照迭代器協(xié)議,我們實現(xiàn)上述的兩個方法。

class Odd:
    def __init__(self, start=1):
        self.cur = start

    def __iter__(self):
        return self

    def __next__(self):
        ret_val = self.cur
        self.cur += 2
        return ret_val

終端里,我們實例化一個 Odd 類得到一個對象 odd

>>> odd = Odd()
>>> odd
<__main__.Odd object at 0x101a1d9b0>

使用 iter() 方法會調(diào)用類里的 __iter__ 方法,得到它本身

>>> iter(odd)
<__main__.Odd object at 0x101a1d9b0>

使用 next() 方法會調(diào)用對應(yīng)的 __next__() 方法,得到下一個元素

>>> next(odd)
1
>>> next(odd)
3
>>> next(odd)
5

其實,odd 對象就是一個迭代器了。

我們可以用 for 來遍歷它

odd = Odd()
for v in odd:
    print(v)

細(xì)心的伙伴可能會發(fā)現(xiàn),這個其實會無限的打印下去,那怎么解決呢?

我們拿一個列表做做實驗,先得到它的迭代器對象

>>> l = [1, 3, 5]
>>> li = iter(l)
>>> li
<list_iterator object at 0x101a1da90>

然后手動獲取下一個元素,直到?jīng)]有下一個元素為止,看下會發(fā)生什么

>>> next(li)
1
>>> next(li)
3
>>> next(li)
5
>>> next(li)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
StopIteration

原來列表迭代器會在沒有下一個元素的時候拋出 StopIteration 異常,估計 for 語句就是根據(jù)這個異常來確定是否結(jié)束。

我們修改一下原來的代碼,能生成指定范圍內(nèi)的奇數(shù)

class Odd:
    def __init__(self, start=1, end=10):
        self.cur = start
        self.end = end

    def __iter__(self):
        return self

    def __next__(self):
        if self.cur > self.end:
            raise StopIteration
        ret_val = self.cur
        self.cur += 2
        return ret_val

我們使用 for 試一下

>>> odd = Odd(1, 10)
>>> for v in odd:
...     print(v)
...
1
3
5
7
9

果然,和預(yù)期一致。

我們用 while 循環(huán)模擬 for 的執(zhí)行過程

目標(biāo)代碼

for v in iterable:
    print(v)

翻譯后的代碼

iterator = iter(iterable)
while True:
    try:
        v = next(iterator)
        print(v)
    except StopIteration:
        break

事實上 Python 的 for 語句原理也就是這樣,可以將 for 理解為一個語法糖。

4 創(chuàng)建迭代器的其它方式

生成器其實也是迭代器,所以可以使用生成器的創(chuàng)建方式創(chuàng)建迭代器。

4.1 生成器函數(shù)

和普通函數(shù)的 return 返回不同,生成器函數(shù)使用 yield。

>>> def odd_func(start=1, end=10):
...     for val in range(start, end + 1):
...         if val % 2 == 1:
...             yield val
...
>>> of = odd_func(1, 5)
>>> of
<generator object odd_func at 0x101a14200>
>>> iter(of)
<generator object odd_func at 0x101a14200>
>>> next(of)
1
>>> next(of)
3
>>> next(of)
5
>>> next(of)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
StopIteration

4.2 生成器表達(dá)式

>>> g = (v for v in range(1, 5 + 1) if v % 2 == 1)
>>> g
<generator object <genexpr> at 0x101a142b0>
>>> iter(g)
<generator object <genexpr> at 0x101a142b0>
>>> next(g)
1
>>> next(g)
3
>>> next(g)
5
>>> next(g)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
StopIteration

4.3 怎么選擇

到現(xiàn)在為止,我們知道了創(chuàng)建迭代器的 3 種方式,那么該如何選擇?

不用說也知道,最簡單的就是生成器表達(dá)式,如果表達(dá)式能滿足需求,那么就是它;如果需要添加比較復(fù)雜的邏輯就選生成器函數(shù);如果前兩者沒法滿足需求,那就自定義類實現(xiàn)吧??傊?,選擇最簡單的方式就行。

5 迭代器的特點

5.1 惰性

迭代器并不是把所有的元素提前計算出來,而是在需要的時候才計算返回。

5.2 支持無限個元素

比如上面我們建立的第一個 Odd 類,它的實例 odd 表示大于 start 的所有奇數(shù),而列表等容器沒法容納無限個元素的。

5.3 省空間

比如存 10000 個元素

>>> from sys import getsizeof
>>> a = [1] * 10000
>>> getsizeof(a)
80064

列表占用 80K 左右。

而迭代器呢?

>>> from itertools import repeat
>>> b = repeat(1, times=10000)
>>> getsizeof(b)
56

只占用了 56 個字節(jié)。

也正因為迭代器惰性的特點,才有了這個優(yōu)勢。

6 一些需要注意的細(xì)節(jié)

6.1 迭代器同時也是可迭代對象

因為迭代器的 __iter__() 方法返回了它自身,而正好它本身就是個迭代器,所以說迭代器也是可迭代對象。

6.2 迭代器遍歷完一次就不能從頭開始了

看一個奇怪的例子

>>> l = [1, 3, 5]
>>> li = iter(l)
>>> li
<list_iterator object at 0x101a1da90>
>>> 3 in li
True
>>> 3 in li
False

因為 li 是列表迭代器,第一次查找 3 的時候,找到了,所以返回 True,但是由于第一次迭代,已經(jīng)跳過了 3 那個元素,第二次就找不到了,所以會出現(xiàn) False。

因此,記得迭代器是「一次性」的。

當(dāng)然,列表是可迭代對象,不管查找?guī)状味际钦5?。(不好理解的話,想想上?for 語句的執(zhí)行原理,每次都會從可迭代對象那通過 iter() 方法取到新的迭代器)

>>> 3 in l
True
>>> 3 in l
True

7 小節(jié)

  • 實現(xiàn)了迭代器協(xié)議的對象都是迭代器
  • 實現(xiàn)了 __iter__() 方法并返回迭代器的對象是可迭代對象
  • 生成器也是一種迭代器
  • 創(chuàng)建迭代器有三種方式,生成器表達(dá)式、生成器函數(shù)、自定義類,看情況選擇最簡單的就好
  • 迭代器同時也是可迭代對象
  • 迭代器是「一次性」的

前面 3 小項是重點,這 3 點理解了,其它的也都能領(lǐng)會。搞清楚標(biāo)題的那幾個名詞的概念的自然也沒有問題。

8 參考

本文首發(fā)于公眾號「小小后端」,關(guān)注并回復(fù)「HMPython2018」領(lǐng)取 18 年很贊的 Python 學(xué)習(xí)教程。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容