Python爬蟲

imelee 2018-02-02

展開全文

本篇分享將實現(xiàn)在新浪微盤上下載周杰倫的歌曲，一共190首，下載的網(wǎng)頁網(wǎng)址為http://vdisk.weibo.com/s/arjVBmagFKiLy，頁面如下：
　　新浪微盤周杰倫歌曲
　　先定一個小目標：下載本頁面中的所有190首歌曲！怎么樣，有沒有一點心動的感覺呢？哈哈，當然講解爬蟲前，需要一些準備工作：

安裝Anaconda以及Selenium模塊；
安裝Chrome瀏覽器驅動
一些基礎的Python編程知識；
一顆好奇的心.

　　首先在Anaconda官網(wǎng)上下載適合自己電腦的Anaconda版本。下載完后打開Anaconda Prompt,輸入pip install selenium安裝selenium模塊。
　　
　　耐心等待安裝，安裝完后再輸入conda list selenium,如出現(xiàn)以下信息，則表示安裝成功。
　　
　　接下來安裝Chrome瀏覽器驅動，可以在http://npm./mirrors/chromedriver/2.31/ 上下載，Windows系統(tǒng)選擇chromedriver_win32.zip 文件。這是一個壓縮包，解壓后存到一個目錄中，然后把該目錄添加到環(huán)境變量。
　　在Spyder上運行Python程序源代碼（或者在碼云網(wǎng)站上下載Python源代碼Chrome_song_download_with_Class.py），源代碼如下：

import os
import re
import bs4
import time
import datetime
import urllib.request  
from bs4 import BeautifulSoup  
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.action_chains import ActionChains


class download_songs(object):
    def __init__(self,url,save_file_name):
        self.url = url
        self.save_file_name = save_file_name

    def get_song_names(self):
        html = urllib.request.urlopen(self.url)  
        content = html.read()  
        html.close()
        print("已獲得該頁面!")
        soup = BeautifulSoup(content, "lxml")
        print("頁面解析完畢！進入歌曲下載...")        
        song_lst = soup.find_all('a', class_="short_name")
        print("一共找到%d首歌曲！\n"% len(song_lst))
        song_names = [song.string for song in song_lst]

        return song_names

    def get_songs(self):
        #設置Chrome瀏覽器，并啟動
        chrome_options = webdriver.ChromeOptions()
        # 不加載圖片(提升加載速度)；設置默認保存文件徑路
        prefs = {"profile.managed_default_content_settings.images":2,                 "download.default_directory": '%s' %self.save_file_name}
        chrome_options.add_experimental_option("prefs",prefs)
        browser = webdriver.Chrome(chrome_options=chrome_options) #啟動瀏覽器
        print("瀏覽器已啟動")
        song_names = self.get_song_names()
        browser.maximize_window() #窗口最大化
        browser.set_page_load_timeout(30) # 最大等待時間為30s

        #當加載時間超過30秒后，自動停止加載該頁面
        try:
            browser.get(self.url)
        except TimeoutException:
            browser.execute_script('window.stop()')

        #遍歷所有的tags,下載歌曲
        for i in range(len(song_names)):
            #當開始的12首歌下載完后，需要下拉網(wǎng)頁內嵌的滾動條
            if i >= 12:
                #找到網(wǎng)頁內嵌的滾動條
                Drag = browser.find_element_by_class_name("jspDrag")
                #獲取滾動槽的高度
                groove = browser.find_element_by_class_name("jspTrack")
                height_of_groove = int(re.sub("\D","",str(groove.get_attribute("style"))))
                #利用鼠標模擬拖動來下拉該滾動條
                move_of_y = i * height_of_groove/len(song_names) #每次下拉的滾動條的高度
                ActionChains(browser).drag_and_drop_by_offset(Drag, 0, move_of_y).perform() 

            elem_lst = browser.find_elements_by_class_name("short_name") #所有歌的tags
            elem= elem_lst[i]
            elem.click()  #點擊該tag,切換到該歌曲的下載頁面
            time.sleep(5)
            button = browser.find_element_by_id("download_big_btn") #按下下載按鈕
            print("已找到第%d首歌: %s"%(i+1, song_names[i]))
            button.click()
            print("%s 正在下載中..."%song_names[i])
            file_exit_flg = len(os.listdir(r"%s"%self.save_file_name))
            time.sleep(8)
            #歌曲是否存在處理，如果存在，輸出“下載成功”，否則等待15秒，再次判斷后決定是否刷新頁面

            if len(os.listdir(r"%s"%self.save_file_name)) == file_exit_flg +1:
                print("%s 下載成功！\n"%song_names[i])
            else:
                exit_flag = 0 #退出標志，嘗試下載5次，5次下載仍未成功后輸出“下載失敗!”
                while True:
                    time.sleep(8)

                    if len(os.listdir(r"%s"%self.save_file_name)) == file_exit_flg +1:
                        print("%s 下載成功！\n"%song_names[i])
                        break
                    print("%s 下載未成功，再次嘗試下載！"%song_names[i])
                    browser.refresh() #等待15秒后，文件還未下載，則刷新網(wǎng)頁
                    time.sleep(5)
                    print("已刷新網(wǎng)頁！")

                    #刷新網(wǎng)頁后執(zhí)行剛才的操作
                    button = browser.find_element_by_id("download_big_btn")
                    button.click()
                    print("%s 正在下載中..."%song_names[i])
                    file_exit_flg = len(os.listdir(r"%s"%self.save_file_name))
                    time.sleep(8)
                    exit_flag += 1
                    if exit_flag == 2:
                        print("%s 下載失??！\n"%song_names[i])
                        break

            browser.back() # 網(wǎng)頁后退
            time.sleep(8)

        browser.close() #操作結束，關閉Chrome瀏覽器
        print("\n本頁面操作已經(jīng)結束!請前往下載位置(%s)查看下載文件.  Y(^O^)Y "% self.save_file_name)



def main():
    d1 = datetime.datetime.now()
    #下載歌曲的網(wǎng)頁網(wǎng)址
    url = 'http://vdisk.weibo.com/s/arjVBmagFKiLy'
    #保存文件的目錄
    save_file_name = "F:\music\music_of_周杰倫"
    for_test = download_songs(url,save_file_name)
    try:
        for_test.get_songs()
    except TimeoutException:
        sum_of_files = len(os.listdir(save_file_name))
        print("下載超時啦?。?！此次操作共下載了%d首歌(可能有重復或未下載完的)，到此就結束了哦 ^o^" % sum_of_files)
    d2 = datetime.datetime.now()
    print("開始時間：",d1)
    print("結束時間：",d2)
    print("一共用時：",d2-d1)

main()1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127

　　筆者利用空余時間，在自己的電腦上運行后的結果如下：
　　
　　190首歌曲下載花了102.5分鐘，平均每首歌32.2s,運行結果還是相當可以的,how exiting!!!
　　該程序適合下載新浪微盤上分享的歌曲，類似于本例，這樣的網(wǎng)址還是很多的，可以在碼云網(wǎng)站上下載新浪微盤網(wǎng)址文檔.txt.歡迎大家進行測試，可以單個測試，也可以寫成字典dict測試。