好久沒(méi)更新Python相關(guān)的內(nèi)容了,這個(gè)專(zhuān)題主要說(shuō)的是Python在爬蟲(chóng)方面的應(yīng)用,包括爬取和處理部分 上節(jié)我們說(shuō)了如何獲取動(dòng)態(tài)網(wǎng)頁(yè)中的jquery內(nèi)容 [Python爬蟲(chóng)]使用Python爬取靜態(tài)網(wǎng)頁(yè)-斗魚(yú)直播 [Python爬蟲(chóng)]使用Python爬取動(dòng)態(tài)網(wǎng)頁(yè)-豆瓣電影(JSON) 這節(jié)說(shuō)如何利用selenium模擬瀏覽器動(dòng)作 開(kāi)發(fā)環(huán)境操作系統(tǒng):windows 10 Python版本 :3.6 爬取網(wǎng)頁(yè)模塊:selenium,PhantomJS 分析網(wǎng)頁(yè)模塊:BeautifulSoup4 關(guān)于Seleniumselenium 是一個(gè)Web自動(dòng)測(cè)試的工具,可以用來(lái)操作一些瀏覽器Driver,例如Chrome,F(xiàn)irefox等,也可以使用一些headless的driver,例如PhantomJS 具體請(qǐng)參加官網(wǎng):
關(guān)于PhantomJSPhantomJS是一個(gè)無(wú)頭(headless)的WebKit javascript API 我們可以用它模擬瀏覽器的操作,也可以用來(lái)截圖 具體參加官網(wǎng): http:/// 模塊安裝lxml為解析網(wǎng)頁(yè)所必需
Driver 下載這里我們下載Chrome driver和 Phantomjs 其他的driver見(jiàn)官網(wǎng) http://selenium-python./installation.html#drivers Chrome下載下載完成后可以放到系統(tǒng)環(huán)境變量中,如: C:\Windows\System32
PhatomJS下載下載后同樣放到系統(tǒng)環(huán)境變量中 下載完成解壓后只需要將exe文件放到目錄下
網(wǎng)頁(yè)分析我們以幽游白書(shū)為例 http://ac.qq.com/ComicView/index/id/543606/cid/1 打開(kāi)后發(fā)現(xiàn)漫畫(huà)并沒(méi)有全部加載需要向下翻頁(yè)才可以加載完畢 之后通過(guò)開(kāi)發(fā)者工具分析圖片的地址 這里我們通過(guò)bs4 來(lái)提取出所有img地址 之后通過(guò)Python將其保存成圖片 程序原理代碼介紹1. import相關(guān)的模塊
2. 調(diào)用Chrome或者PhantomJS
3. 獲取網(wǎng)頁(yè)源代碼
4. 獲取標(biāo)題和圖片地址之后存入字典 5. 新建目錄并下載圖片 這里首先判斷是否有該漫畫(huà)的目錄,如果沒(méi)有則新建,之后下載圖片,圖片的名稱(chēng)為列表的索引號(hào) 執(zhí)行結(jié)果注意事項(xiàng):
源碼位置 |
|
來(lái)自: 宅必備 > 《待分類(lèi)》