數(shù)據(jù)采集-喜馬拉雅

喜馬拉雅

  • 以喜馬拉雅節(jié)目分類為入口,分析網站結構
    首先爬取喜馬拉雅的所有分類的鏈接和類別名
左側分類列表.png
  • 獲取每個分類的頁面后獲取每個分類下面的所有節(jié)目的的相關內容
每個類別下面的所有節(jié)目.png

每個類別的節(jié)目都是用分頁形式來展示,所有構建頁碼,通過獲取每個分類下最多分多少頁,來構建每個分頁面的的url鏈接,再通過鏈接地址獲取相應分頁的頁面


分頁頁面url示例.png
  • 獲取每個節(jié)目中的信息,例如音頻id
節(jié)目頁面.png
一個節(jié)目中的每期音頻的id.png

對比.png

未完。。。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容