【Python入門】31.常用內(nèi)置模塊之 XML & 抓取Yahoo天氣預(yù)報信息

摘要:XML的介紹;如何用SAX解析XML文本;XML文本生成;通過解析Yahoo的XML格式文本獲取其天氣預(yù)報信息。


*寫在前面:為了更好的學(xué)習(xí)python,博主記錄下自己的學(xué)習(xí)路程。本學(xué)習(xí)筆記基于廖雪峰的Python教程,如有侵權(quán),請告知刪除。歡迎與博主一起學(xué)習(xí)Pythonヽ( ̄▽ ̄)? *


目錄

常用內(nèi)置模塊
XML
SAX解析XML
XML生成
【練習(xí)】獲取Yahoo天氣預(yù)報信息

常用內(nèi)置模塊

XML

XML可擴(kuò)展標(biāo)記語言(eXtensible Markup Language)。它是傳輸和存儲數(shù)據(jù)常用的工具,在信息存儲和描述領(lǐng)域十分流行。

操作XML的常用方法有:DOM和SAX。DOM占用內(nèi)存大,解析慢,但可以遍歷任意節(jié)點(diǎn);SAX,占用內(nèi)存小,解析快,但需要自己處理事件。

正常情況下,優(yōu)先考慮SAX,因?yàn)镈OM實(shí)在太占內(nèi)存?!窝┓?/p>

下面介紹如何用SAX解析XML。

SAX解析XML

SAX(simple API for XML) 用事件驅(qū)動模型,也就是在解析XML的過程中觸發(fā)每個事件,同時調(diào)用用戶定義的回調(diào)函數(shù)來處理XML文件。SAX有兩大部分:解析器和事件處理器。

解析器:負(fù)責(zé)讀取XML文件,然后向事件處理器發(fā)送事件。
事件處理器:負(fù)責(zé)對每個事件做出回應(yīng),處理傳遞的數(shù)據(jù)。

在Python中,使用SAX解析XML十分簡單。一般而言,定義好start_element,end_elementchar_data三個事件即可。

比如當(dāng)解析器讀取到一個XML的節(jié)點(diǎn):

<a href="/">python</a>

會產(chǎn)生三個事件:

start_element,在讀取開始標(biāo)簽<a href="/">時調(diào)用;
char_data,在讀取數(shù)據(jù)內(nèi)容python時調(diào)用;
end_element,在讀取結(jié)束標(biāo)簽</a>時調(diào)用:

在對應(yīng)的事件中,定義好我們想要的處理方式,然后通過ParserCreate()生成解析器,使用parser.Parse解析文本即可。看具體代碼(以下代碼除注釋轉(zhuǎn)自廖雪峰官網(wǎng))

from xml.parsers.expat import ParserCreate                    # 引入解析器模塊

class DefaultSaxHandler(object):                              # 定義一個事件處理器的類
    def start_element(self, name, attrs):                     # 定義開始標(biāo)簽事件
        print('sax:start_element: %s, attrs: %s' % (name, str(attrs)))

    def end_element(self, name):                              # 定義結(jié)束標(biāo)簽事件
        print('sax:end_element: %s' % name)

    def char_data(self, text):                                # 定義數(shù)據(jù)內(nèi)容處理事件
        print('sax:char_data: %s' % text)
                                                              # xml文本
xml = r'''<?xml version="1.0"?>                              
<ol>
    <li><a href="/python">Python</a></li>
    <li><a href="/ruby">Ruby</a></li>
</ol>
'''

handler = DefaultSaxHandler()                                 # 創(chuàng)建一個事件處理器的實(shí)例
parser = ParserCreate()                                       # 創(chuàng)建一個解析器
parser.StartElementHandler = handler.start_element            # 給予開始標(biāo)簽的處理方式
parser.EndElementHandler = handler.end_element                # 給予結(jié)束標(biāo)簽的處理方式
parser.CharacterDataHandler = handler.char_data               # 給予數(shù)據(jù)內(nèi)容的處理方式
parser.Parse(xml)                                             # 解析xml文本

運(yùn)行結(jié)果:

sax:start_element: ol, attrs: {} 
sax:char_data:  

sax:char_data:      
sax:start_element: li, attrs: {} 
sax:start_element: a, attrs: {'href': '/python'} 
sax:char_data: Python 
sax:end_element: a 
sax:end_element: li 
sax:char_data:  

sax:char_data:      
sax:start_element: li, attrs: {} 
sax:start_element: a, attrs: {'href': '/ruby'} 
sax:char_data: Ruby 
sax:end_element: a 
sax:end_element: li 
sax:char_data:  

sax:end_element: ol 

這樣就成功解析一個XML文本啦( ̄▽ ̄)/

XML生成

除了解析XML,我們還想要生成XML要怎么做?

用最簡單的方法,append拼接。

L = []
L.append(r'<?xml version="1.0"?>')
L.append(r'<root>')
L.append(('some & data').encode)
L.append(r'</root>')
return ''.join(L)

如果要生成復(fù)雜的XML呢?建議你不要用XML,改成JSON。——廖雪峰

【練習(xí)】獲取Yahoo天氣預(yù)報信息

(練習(xí)源自廖雪峰官網(wǎng))

請利用SAX編寫程序解析Yahoo的XML格式的天氣預(yù)報,獲取天氣預(yù)報:

https://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20weather.forecast%20where%20woeid%20%3D%202151330&format=xml
參數(shù)woeid是城市代碼,要查詢某個城市代碼,可以在weather.yahoo.com搜索城市,瀏覽器地址欄的URL就包含城市代碼。)

# -*- coding:utf-8 -*-

from xml.parsers.expat import ParserCreate            # 引入xml解析模塊
from urllib import request                            # 引入URL請求模塊

class WeatherSaxHandler(object):                      # 定義一個天氣事件處理器

    weather = {'city':1, 'forecast':[]}               # 初始化城市city和預(yù)報信息forecast

    def start_element(self, name, attrs):             # 定義開始標(biāo)簽處理事件

        if name == 'yweather:location':               # 獲取location信息
            self.weather['city'] = attrs['city']

        elif name =='yweather:forecast':              # 獲取forecast信息
            self.weather['forecast'].append({
                'date':attrs['date'], 
                'high':attrs['high'], 
                'low':attrs['low']
            })

def parseXml(xml_str):                                # 定義xml解析器

    handler = WeatherSaxHandler()
    parser = ParserCreate()
    parser.StartElementHandler = handler.start_element
    parser.Parse(xml_str)                             # 解析xml文本

    print('City: ' + handler.weather['city'])         # 打印city信息
    print('Weather: ')
    for x in handler.weather['forecast']:             # 打印天氣信息
        print(x)
        
    return handler.weather
    

# 測試:
URL = 'https://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20weather.forecast%20where%20woeid%20%3D%202151330&format=xml'

with request.urlopen(URL, timeout=4) as f:
    data = f.read()

result = parseXml(data.decode('utf-8'))
assert result['city'] == 'Beijing'

運(yùn)行結(jié)果:

City: Beijing 
Weather:  
{'date': '30 Aug 2018', 'high': '80', 'low': '69'} 
{'date': '31 Aug 2018', 'high': '84', 'low': '66'} 
{'date': '01 Sep 2018', 'high': '83', 'low': '69'} 
{'date': '02 Sep 2018', 'high': '80', 'low': '69'} 
{'date': '03 Sep 2018', 'high': '89', 'low': '67'} 
{'date': '04 Sep 2018', 'high': '88', 'low': '71'} 
{'date': '05 Sep 2018', 'high': '87', 'low': '69'} 
{'date': '06 Sep 2018', 'high': '83', 'low': '67'} 
{'date': '07 Sep 2018', 'high': '81', 'low': '64'} 
{'date': '08 Sep 2018', 'high': '80', 'low': '64'} 

如果我們知道Yahoo天氣預(yù)報的城市代碼,修改器URL的值,就能通過這個來獲取Yahoo天氣預(yù)報信息了( ̄▽ ̄)/


以上就是本節(jié)的全部內(nèi)容,感謝你的閱讀。

下一節(jié)內(nèi)容:常用內(nèi)置模塊之 HTMLparser

有任何問題與想法,歡迎評論與吐槽。

和博主一起學(xué)習(xí)Python吧( ̄▽ ̄)~*

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容