導航:首頁 > 中國訊息 > 如何爬取中國天氣網

如何爬取中國天氣網

發布時間：2022-09-05 11:54:19

① 有沒有哪兒能爬到歷史天氣的小時數據啊

去找當地的氣象部門。你需要什麼時候的天氣記錄都齊全。

② 如何獲取網頁天氣信息



<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_cncn.js">
</script>

中國其他各省(區)天氣的代碼只需將上述代碼中的cncn換成下列字元串:
廣東:gudp福建:fujp浙江:zhjp江蘇:jsup安徽:anhp山東:shdp
海南:hanp廣西:guxa貴州:guzp雲南:yunp四川:sicp陝西:saxp
河南:henp河北:hebp山西:shxp內蒙古:nema遼寧:linp吉林:jilp
黑龍江:hljp湖北:hubp湖南:hunp江西:jixp甘肅:gasp寧夏:nixa
青海:qihp西藏:xiza新疆:xija


德國天氣

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_dldl.js">
</script>


美國天氣

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_naus.js"></script>


加拿大天氣

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_naka.js">
</script>


亞洲天氣

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_asie.js">
</script>


歐洲天氣

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_euro.js">
</script>


日本天氣

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_japn.js">
</script>


韓國天氣

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_skor.js">
</script>


朝鮮天氣

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_nkor.js">
</script>


將上述代碼中的
<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_cncn.js">
</script>
放在一個空白文本文件中，文件名改成*.html即可。IE查看該文件試試！！

③ 【易語言】利用中國天氣網，獲取天氣預報，7天的，要自動識別的。

④ Python爬蟲看看哪個城市最熱

哪個城市最熱？

現如今，我大天朝舉國上下都處於一種高溫的狀態。那麼這里我們也來蹭一蹭熱度，來寫個小爬蟲，看看全國哪個城市最熱。東西雖然小，但是比起那些所謂「高大上」的教程來說，這篇文章比較腳踏實地，不玩虛的，你看完後一定可以學會的。

准備工作：

在做爬蟲之前，首先對爬蟲的解題路徑做個簡單概述。一個爬蟲工作分為兩步驟：
第一步：把你需要爬取的那個網頁的數據全部拉下來。
第二步是把從網站上拉下來的數據進行過濾，把你需要的提取出來，把不需要的給過濾掉。這就是爬蟲的工作原理。
我們要爬取的網站數據不是特別大，復雜度也不高。因此為降低大家學習爬蟲的難度。我們不上那些很復雜的框架，比如Scrapy，而是直接使用一個簡單又好用的第三方庫幫我們完成爬蟲任務，那就是requests庫。requests庫是一個專門用來從網站上拉取數據的庫，也就對應了我們爬蟲工作的第一步——從網站上拉取數據。這個庫的使用，後面我們會講到，如果您還沒有安裝這個庫，那麼可以通過以下命令進行安裝：pip install requests。如果您使用的是Linux或者Mac OS系統，那麼最好在前面加上一個sudo pip install requests，不然很容易會因為許可權問題而安裝失敗。
在使用requests庫把數據拉取下來以後，接下來的工作就是對這些數據進行分析和過濾了。這時候我們使用的一個第三方庫是beautifulsoup4。這個庫是專門用來解析網頁數據的。並且為了使接下效率更高，一般我們推薦使用lxml來作為解析的引擎。因此，要使用beautifulsoup庫，要通過以下命令來安裝：
# 安裝 lxmlpip install lxml# 安裝 beautifulsoup4pip install bs4

中國天氣網分析：

這里我們需要爬取的網站是：中國天氣網her.com.cn/textFC/hb.shtml#。我們做任何爬蟲之前，都需要對這個網站進行詳細的分析，一定要達到了如指掌的境地。不然後面很容易在數據過濾的時候會出現一個問題，這也是所有做爬蟲需要注意的地方。我們這里就跟大家分析一下中國天氣網的網站：

在以上這個中國天氣網的頁面中。我們可以看到，他是通過區域的方式把全國個大省份和城市進行區分的，有：華北、東北、華東、華中、華南、西北、西南、港澳台。在每個區域下面，都是通過表格的形式把屬於該區域下的所有省份以及城市的天氣信息列出來。因此我們要做的是，首先找到所有的區域的鏈接，然後再在每個區域的鏈接下把這個區域下的所有的城市天氣信息爬出來就可以了。
寫在最後：

⑤ 如何獲取中國天氣網天氣數據

請求方式：http get
介面組成：由固定URL加5個不同的參數組成，完整URL需客戶端經過固定方式加密後使用。
數據返回：json
完整URL：http://open.weather.com.cn/data/?areaid=""&type=""&date=""&appid=""&key=".urlencode($key);
固定URL：http://open.weather.com.cn/data/

⑥ 公共平台沒開發怎樣可以有天氣預報

在這篇教程中，我們將介紹如何在微信公眾平台上開發天氣預報功能。我們將使用中國天氣網的氣象數據介面來獲取天氣信息。
這篇教程將介紹以下內容：
獲取中國天氣網的氣象數據
在微信公眾平台中回復天氣

一、中國天氣網
中國天氣網提供了豐富的氣象數據介面。下面我們介紹主要的幾個：
國家根節點介面：
http://flash.weather.com.cn/wmaps/xml/china.xml

該介面以XML格式列出所有的省（自治區、直轄市）的中文名稱（quName）和拼音名稱（pyName）及省會城市的天氣信息，其中廣東的數據如下：
<city quName="廣東" pyName="guangdong" cityname="廣州" state1="2" state2="7" stateDetailed="陰轉小雨" tem1="8" tem2="15" windState="微風"/>

該介面的主要功能是通過它獲取省級節點的拼音名稱。以廣東為例：其pyName是「Guangdong」。
省級節點介面（以廣東為例）：
http://flash.weather.com.cn/wmaps/xml/Guangdong.xml

該介面以XML格式列出當前省下轄所有市的中文名稱（quName）、拼音名稱（pyName）、中心坐標、天氣信息以及城市編碼。其中深圳的數據如下所示：
<city cityX="409" cityY="257" cityname="深圳" centername="深圳" fontColor="FFFFFF" pyName="shenzhen" state1="1" state2="1" stateDetailed="多雲" tem1="12" tem2="18" temNow="12" windState="微風" windDir="東北風" windPower="1級" humidity="74%" time="21:15" url="101280601"/>

在這個介面中主要獲取城市名稱及相應的城市編碼。例如，深圳的城市編碼為：101280601。可以編寫程序將全國城市拓撲結構採集下來。也可以使用方倍工作室已經採集好的，點擊這里下載。
實時天氣數據（以深圳為例）：
http://www.weather.com.cn/data/sk/101280601.html

該介面以JSON格式列出當前城市的實時天氣狀況。如下所示：

{
"weatherinfo": {
"city": "深圳",
"cityid": "101280601",
"temp": "12",
"WD": "東北風",
"WS": "1級",
"SD": "75%",
"WSE": "1",
"time": "21:20",
"isRadar": "1",
"Radar": "JC_RADAR_AZ9755_JB"
}
}

實時天氣數據參數說明下所示：

六日天氣數據（以深圳為例）：
http://m.weather.com.cn/data/101280601.html

該介面以JSON格式列出當前城市的六日天氣狀況。如下所示：

{
"weatherinfo": {
"city": "深圳",
"city_en": "shenzhen",
"date_y": "2014年2月15日",
"date": "",
"week": "星期六",
"fchh": "18",
"cityid": "101280601",
"temp1": "12℃~18℃",
"temp2": "16℃~21℃",
"temp3": "17℃~23℃",
"temp4": "11℃~18℃",
"temp5": "10℃~15℃",
"temp6": "12℃~17℃",
"tempF1": "53.6℉~64.4℉",
"tempF2": "60.8℉~69.8℉",
"tempF3": "62.6℉~73.4℉",
"tempF4": "51.8℉~64.4℉",
"tempF5": "50℉~59℉",
"tempF6": "53.6℉~62.6℉",
"weather1": "多雲",
"weather2": "陰",
"weather3": "多雲",
"weather4": "中雨",
"weather5": "多雲",
"weather6": "陰",
"img1": "1",
"img2": "99",
"img3": "2",
"img4": "99",
"img5": "1",
"img6": "99",
"img7": "8",
"img8": "99",
"img9": "1",
"img10": "99",
"img11": "2",
"img12": "99",
"img_single": "1",
"img_title1": "多雲",
"img_title2": "多雲",
"img_title3": "陰",
"img_title4": "陰",
"img_title5": "多雲",
"img_title6": "多雲",
"img_title7": "中雨",
"img_title8": "中雨",
"img_title9": "多雲",
"img_title10": "多雲",
"img_title11": "陰",
"img_title12": "陰",
"img_title_single": "多雲",
"wind1": "微風",
"wind2": "微風",
"wind3": "微風",
"wind4": "東北風3-4級",
"wind5": "微風",
"wind6": "微風",
"fx1": "微風",
"fx2": "微風",
"fl1": "小於3級",
"fl2": "小於3級",
"fl3": "小於3級",
"fl4": "3-4級",
"fl5": "小於3級",
"fl6": "小於3級",
"index": "較舒適",
"index_d": "建議著薄外套、開衫牛仔衫褲等服裝。年老體弱者應適當添加衣物，宜著夾克衫、薄毛衣等。",
"index48": "較舒適",
"index48_d": "建議著薄外套、開衫牛仔衫褲等服裝。年老體弱者應適當添加衣物，宜著夾克衫、薄毛衣等。",
"index_uv": "最弱",
"index48_uv": "最弱",
"index_xc": "適宜",
"index_tr": "適宜",
"index_co": "舒適",
"st1": "19",
"st2": "13",
"st3": "23",
"st4": "16",
"st5": "24",
"st6": "18",
"index_cl": "適宜",
"index_ls": "適宜",
"index_ag": "不易發"
}
}

未來六日天氣數據主要參數說明如下表所示：

以上介面是我們做天氣預報功能將使用到的介面。

二、微信公眾平台開發
1. 需要將城市編碼對照表導入到資料庫中，以下是SAE導入後截圖

2. 將城市名轉為城市代碼的方法，這將在用戶發送城市名的時候調用

1 function fromNameToCode($name)
2 {
3 $mysql_host = SAE_MYSQL_HOST_M;
4 $mysql_host_s = SAE_MYSQL_HOST_S;
5 $mysql_port = SAE_MYSQL_PORT;
6 $mysql_user = SAE_MYSQL_USER;
7 $mysql_password = SAE_MYSQL_PASS;
8 $mysql_database = SAE_MYSQL_DB;
9
10 $mysql_table = "weather";
11 $mysql_state = "SELECT * FROM ".$mysql_table." WHERE `cityName` = '".$name."'";
12
13 $con = mysql_connect($mysql_host.':'.$mysql_port, $mysql_user, $mysql_password, true);
14 if (!$con){
15 die('Could not connect: ' . mysql_error());
16 }
17 mysql_query("SET NAMES 'UTF8'");
18 mysql_select_db($mysql_database, $con);
19 $result = mysql_query($mysql_state);
20 $cityCode = "";
21 while($row = mysql_fetch_array($result))
22 {
23 $cityCode = $row['cityCode'];
24 break;
25 }
26 mysql_close($con);
27 return $cityCode;
28 }

3. 編寫介面調用函數，用於向天氣網發送cURL請求，獲取數據

1 function httpRequest($url)
2 {
3 $ch = curl_init();
4 curl_setopt($ch, CURLOPT_URL, $url);
5 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
6 $output = curl_exec($ch);
7 curl_close($ch);
8 if ($output === FALSE){
9 return "cURL Error: ". curl_error($ch);
10 }
11 return $output;
12 }

4. 編寫獲取天氣數據的函數，這里獲取實時天氣和未來3日天氣，並將返回結果封裝成圖文信息的數組

1 function getWeatherInfo($cityName)
2 {
3 $cityCode = fromNameToCode($cityName);
4
5 if ($cityCode == "")
6 {
7 return "錯誤的城市名或者此城市不在資料庫中!";
8 }
9
10 //獲取實時天氣
11 $url = "http://www.weather.com.cn/data/sk/".$cityCode.".html";
12 $output = httpRequest($url);
13 $weather = json_decode($output, true);
14 $info = $weather['weatherinfo'];
15
16 $weatherArray = array();
17 $weatherArray[] = array("Title"=>$info['city']."天氣預報", "Description"=>"", "PicUrl"=>"", "Url" =>"");
18 if ((int)$cityCode < 101340000){
19 $result = "實況溫度：".$info['temp']."℃ 濕度：".$info['SD']." 風速：".$info['WD'].$info['WSE']."級";
20 $weatherArray[] = array("Title"=>str_replace("%", "﹪", $result), "Description"=>"", "PicUrl"=>"", "Url" =>"");
21 }
22
23 //獲取六日天氣
24 $url = "http://m.weather.com.cn/data/".$cityCode.".html";
25 $output = httpRequest($url);
26 $weather = json_decode($output, true);
27 $info = $weather['weatherinfo'];
28
29 if (!empty($info['index_d'])){
30 $weatherArray[] = array("Title" =>$info['index_d'], "Description" =>"", "PicUrl" =>"", "Url" =>"");
31 }
32
33 $weekArray = array("日","一","二","三","四","五","六");
34 $maxlength = 3;
35 for ($i = 1; $i <= $maxlength; $i++) {
36 $offset = strtotime("+".($i-1)." day");
37 $subTitle = date("m月d日",$offset)." 周".$weekArray[date('w',$offset)]." ".$info['temp'.$i]." ".$info['weather'.$i]." ".$info['wind'.$i];
38 $weatherArray[] = array("Title" =>$subTitle, "Description" =>"", "PicUrl" =>"http://discuz.comli.com/weixin/weather/"."d".sprintf("%02u",$info['img'.(($i *2)-1)]).".jpg", "Url" =>"");
39 }
40
41 return $weatherArray;
42 }

5. 在微信公眾平台介面函數中處理收到的文本消息時，文本將為城市名，直接調用獲取天氣的函數

1 /*
2 方倍工作室
3 CopyRight 2013 All Rights Reserved
4 */
5
6 define("TOKEN", "weixin");
7
8 $wechatObj = new wechatCallbackapiTest();
9 if (!isset($_GET['echostr'])) {
10 $wechatObj->responseMsg();
11 }else{
12 $wechatObj->valid();
13 }
14
15 class wechatCallbackapiTest
16 {
17 public function valid()
18 {
19 $echoStr = $_GET["echostr"];
20 if($this->checkSignature()){
21 echo $echoStr;
22 exit;
23 }
24 }
25
26 private function checkSignature()
27 {
28 $signature = $_GET["signature"];
29 $timestamp = $_GET["timestamp"];
30 $nonce = $_GET["nonce"];
31 $token = TOKEN;
32 $tmpArr = array($token, $timestamp, $nonce);
33 sort($tmpArr);
34 $tmpStr = implode($tmpArr);
35 $tmpStr = sha1($tmpStr);
36
37 if($tmpStr == $signature){
38 return true;
39 }else{
40 return false;
41 }
42 }
43
44 public function responseMsg()
45 {
46 $postStr = $GLOBALS["HTTP_RAW_POST_DATA"];
47 if (!empty($postStr)){
48 $this->logger("R ".$postStr);
49 $postObj = simplexml_load_string($postStr, 'SimpleXMLElement', LIBXML_NOCDATA);
50 $RX_TYPE = trim($postObj->MsgType);
51
52 switch ($RX_TYPE)
53 {
54 case "event":
55 $result = $this->receiveEvent($postObj);
56 break;
57 case "text":
58 $result = $this->receiveText($postObj);
59 break;
60 }
61 $this->logger("T ".$result);
62 echo $result;
63 }else {
64 echo "";
65 exit;
66 }
67 }
68
69 private function receiveEvent($object)
70 {
71 $content = "";
72 switch ($object->Event)
73 {
74 case "subscribe":
75 $content = "歡迎關注方倍工作室 ";
76 break;
77 case "unsubscribe":
78 $content = "取消關注";
79 break;
80 }
81 $result = $this->transmitText($object, $content);
82 return $result;
83 }
84
85 private function receiveText($object)
86 {
87 $keyword = trim($object->Content);
88
89 include("weather.php");
90 $content = getWeatherInfo($keyword);

⑦ 如何免費獲取中國天氣網的城市天氣數據

有的文章介紹根據IP地址獲取城市代碼，但應該不適用在Android移動端吧，我沒有研究，所有採用了下面的辦法：第二種是將最新的城市代碼放入本地資料庫（資料庫文件我放在末尾處，需要的可以下載，在中國范圍內應該足夠用了），通過在代碼中查詢城市名稱從資料庫中取出與之對應的城市代碼，通過字元串的拼接發送請求，來獲取想要的天氣信息！這個是我自己的思路，或許比較笨拙，希望有更好想法的朋友可以指出！

⑧ 求一份天氣網路爬蟲的代碼

很簡單自己寫吧找人寫不現實自己從網上都例子吧

⑨ 如何用java語言爬取全國的天氣數據

天氣晴天：it's sunny today.
有風：it's windy outside.
多雲是cloudy,下雨是rainy,也有sprinkle是小雨,storm 暴雨
hurricane颶風,tornado龍卷風等等多種.

⑩ python 新浪微博爬蟲，求助

0x00. 起因
因為參加學校大學生創新競賽，研究有關微博博文表達的情緒，需要大量微博博文，而網上無論是國內的某度、csdn，還是國外谷歌、gayhub、codeproject等都找不到想要的程序，沒辦法只能自己寫一個程序了。
ps.在爬盟找到類似的程序，但是是windows下的，並且閉源，而且最終爬取保存的文件用notepad++打開有很多奇怪的問題，所以放棄了。
0x01. 基礎知識
本程序由Python寫成，所以基本的python知識是必須的。另外，如果你有一定的計算機網路基礎，在前期准備時會有少走很多彎路。
對於爬蟲，需要明確幾點：
1. 對爬取對象分類，可以分為以下幾種：第一種是不需要登錄的，比如博主以前練手時爬的中國天氣網，這種網頁爬取難度較低，建議爬蟲新手爬這類網頁；第二種是需要登錄的，如豆瓣、新浪微博，這些網頁爬取難度較高；第三種獨立於前兩種，你想要的信息一般是動態刷新的，如AJAX或內嵌資源，這種爬蟲難度最大，博主也沒研究過，在此不細舉（據同學說淘寶的商品評論就屬於這類）。
2. 如果同一個數據源有多種形式（比如電腦版、手機版、客戶端等），優先選取較為「純凈的」展現。比如新浪微博，有網頁版，也有手機版，而且手機版可以用電腦瀏覽器訪問，這時我優先選手機版新浪微博。
3. 爬蟲一般是將網頁下載到本地，再通過某些方式提取出感興趣的信息。也就是說，爬取網頁只完成了一半，你還要將你感興趣的信息從下載下來的html文件中提取出來。這時就需要一些xml的知識了，在這個項目中，博主用的是XPath提取信息，另外可以使用XQuery等等其他技術，詳情請訪問w3cschool。
4. 爬蟲應該盡量模仿人類，現在網站反爬機制已經比較發達，從驗證碼到禁IP，爬蟲技術和反爬技術可謂不斷博弈。
0x02. 開始
決定了爬蟲的目標之後，首先應該訪問目標網頁，明確目標網頁屬於上述幾種爬蟲的哪種，另外，記錄為了得到感興趣的信息你需要進行的步驟，如是否需要登錄，如果需要登錄，是否需要驗證碼；你要進行哪些操作才能獲得希望得到的信息，是否需要提交某些表單；你希望得到的信息所在頁面的url有什麼規律等等。
以下博文以博主項目為例，該項目爬取特定新浪微博用戶從注冊至今的所有微博博文和根據關鍵詞爬取100頁微博博文（大約1000條）。
0x03. 收集必要信息
首先訪問目標網頁，發現需要登錄，進入登錄頁面如下新浪微博手機版登錄頁面
注意url後半段有很多形如」%xx」的轉義字元，本文後面將會講到。
從這個頁面可以看到，登錄新浪微博手機版需要填寫賬號、密碼和驗證碼。
這個驗證碼是近期（本文創作於2016.3.11）才需要提供的，如果不需要提供驗證碼的話，將有兩種方法進行登錄。
第一種是填寫賬號密碼之後執行js模擬點擊「登錄」按鈕，博主之前寫過一個Java爬蟲就是利用這個方法，但是現在找不到工程了，在此不再贅述。
第二種需要一定HTTP基礎，提交包含所需信息的HTTP POST請求。我們需要Wireshark 工具來抓取登錄微博時我們發出和接收的數據包。如下圖我抓取了在登錄時發出和接收的數據包Wireshark抓取結果1
在搜索欄提供搜索條件」http」可得到所有http協議數據包，右側info顯示該數據包的縮略信息。圖中藍色一行是POST請求，並且info中有」login」，可以初步判斷這個請求是登錄時發出的第一個數據包，並且這個180.149.153.4應該是新浪微博手機版登錄認證的伺服器IP地址，此時我們並沒有任何的cookie。
在序號為30是數據包中有一個從該IP發出的HTTP數據包，裡面有四個Set-Cookie欄位，這些cookie將是我們爬蟲的基礎。
Wireshark抓取結果2
早在新浪微博伺服器反爬機制升級之前，登錄是不需要驗證碼的，通過提交POST請求，可以拿到這些cookie，在項目源碼中的TestCookie.py中有示例代碼。
ps.如果沒有wireshark或者不想這么麻煩的話，可以用瀏覽器的開發者工具，以chrome為例，在登錄前打開開發者工具，轉到Network，登錄，可以看到發出和接收的數據，登錄完成後可以看到cookies，如下圖chrome開發者工具
接下來訪問所需頁面，查看頁面url是否有某種規律。由於本項目目標之一是獲取某用戶的全部微博，所以直接訪問該用戶的微博頁面，以央視新聞為例。
央視新聞1
圖為央視新聞微博第一頁，觀察該頁面的url可以發現，新浪微博手機版的微博頁面url組成是「weibo.cn/(displayID)?page=(pagenum)」。這將成為我們爬蟲拼接url的依據。
接下來查看網頁源碼，找到我們希望得到的信息的位置。打開瀏覽器開發者工具，直接定位某條微博，可以發現它的位置，如下所示。
xpath
觀察html代碼發現，所有的微博都在<div>標簽里，並且這個標簽里有兩個屬性，其中class屬性為」c」，和一個唯一的id屬性值。得到這個信息有助於將所需信息提取出來。
另外，還有一些需要特別注意的因素
* 微博分為原創微博和轉發微博
* 按照發布時間至當前時間的差距，在頁面上有」MM分鍾前」、」今天HH:MM」、」mm月dd日 HH:MM」、」yyyy-mm-dd HH:MM:SS」等多種顯示時間的方式* 手機版新浪微博一個頁面大約顯示10條微博，所以要注意對總共頁數進行記錄以上幾點都是細節，在爬蟲和提取的時候需要仔細考慮。
0x04. 編碼
1.爬取用戶微博
本項目開發語言是Python 2.7，項目中用了一些第三方庫，第三方庫可以用pip的方法添加。
既然程序自動登錄的想法被驗證碼擋住了，想要訪問特定用戶微博頁面，只能使用者提供cookies了。
首先用到的是Python的request模塊，它提供了帶cookies的url請求。
import request
print request.get(url, cookies=cookies).content使用這段代碼就可以列印帶cookies的url請求頁面結果。
首先取得該用戶微博頁面數，通過檢查網頁源碼，查找到表示頁數的元素，通過XPath等技術提取出頁數。
頁數
項目使用lxml模塊對html進行XPath提取。
首先導入lxml模塊，在項目里只用到了etree，所以from lxml import etree
然後利用下面的方法返回頁數
def getpagenum(self):
url = self.geturl(pagenum=1)
html = requests.get(url, cookies=self.cook).content # Visit the first page to get the page number.
selector = etree.HTML(html)
pagenum = selector.xpath('//input[@name="mp"]/@value')[0]
return int(pagenum)
接下來就是不斷地拼接url->訪問url->下載網頁。
需要注意的是，由於新浪反爬機制的存在，同一cookies訪問頁面過於「頻繁」的話會進入類似於「冷卻期」，即返回一個無用頁面，通過分析該無用頁面發現，這個頁面在特定的地方會出現特定的信息，通過XPath技術來檢查這個特定地方是否出現了特定信息即可判斷該頁面是否對我們有用。
def ispageneeded(html):
selector = etree.HTML(html)
try:
title = selector.xpath('//title')[0]
except:
return False
return title.text != '微博廣場' and title.text != '微博'
如果出現了無用頁面，只需簡單地重新訪問即可，但是通過後期的實驗發現，如果長期處於過頻訪問，返回的頁面將全是無用頁面，程序也將陷入死循環。為了避免程序陷入死循環，博主設置了嘗試次數閾值trycount，超過這個閾值之後方法自動返回。
下面代碼片展示了單線程爬蟲的方法。
def startcrawling(self, startpage=1, trycount=20):
attempt = 0
try:
os.mkdir(sys.path[0] + '/Weibo_raw/' + self.wanted)except Exception, e:
print str(e)
isdone = False
while not isdone and attempt < trycount:
try:
pagenum = self.getpagenum()
isdone = True
except Exception, e:
attempt += 1
if attempt == trycount:
return False
i = startpage
while i <= pagenum:
attempt = 0
isneeded = False
html = ''
while not isneeded and attempt < trycount:
html = self.getpage(self.geturl(i))
isneeded = self.ispageneeded(html)
if not isneeded:
attempt += 1
if attempt == trycount:
return False
self.savehtml(sys.path[0] + '/Weibo_raw/' + self.wanted + '/' + str(i) + '.txt', html)print str(i) + '/' + str(pagenum - 1)
i += 1
return True
考慮到程序的時間效率，在寫好單線程爬蟲之後，博主也寫了多線程爬蟲版本，基本思想是將微博頁數除以線程數，如一個微博用戶有100頁微博，程序開10個線程，那麼每個線程只負責10個頁面的爬取，其他基本思想跟單線程類似，只需仔細處理邊界值即可，在此不再贅述，感興趣的同學可以直接看代碼。另外，由於多線程的效率比較高，並發量特別大，所以伺服器很容易就返回無效頁面，此時trycount的設置就顯得更重要了。博主在寫這篇微博的時候，用一個新的cookies，多線程爬取現場測試了一下爬取北京郵電大學的微博，3976條微博全部爬取成功並提取博文，用時僅15s，實際可能跟cookies的新舊程度和網路環境有關，命令行設置如下，命令行意義在項目網址里有說明python main.py _T_WM=xxx; SUHB=xxx; SUB=xxx; gsid_CTandWM=xxx u bupt m 20 20爬取的工作以上基本介紹結束，接下來就是爬蟲的第二部分，解析了。由於項目中提供了多線程爬取方法，而多線程一般是無序的，但微博博文是依靠時間排序的，所以項目採用了一種折衷的辦法，將下載完成的頁面保存在本地文件系統，每個頁面以其頁號為文件名，待爬取的工作結束後，再遍歷文件夾內所有文件並解析。
通過前面的觀察，我們已經了解到微博博文存在的標簽有什麼特點了，利用XPath技術，將這個頁面里所有有這個特點的標簽全部提取出來已經不是難事了。
在這再次提醒，微博分為轉發微博和原創微博、時間表示方式。另外，由於我們的研究課題僅對微博文本感興趣，所以配圖不考慮。
def startparsing(self, parsingtime=datetime.datetime.now()):
basepath = sys.path[0] + '/Weibo_raw/' + self.uidfor filename in os.listdir(basepath):
if filename.startswith('.'):
continue
path = basepath + '/' + filename
f = open(path, 'r')
html = f.read()
selector = etree.HTML(html)
weiboitems = selector.xpath('//div[@class="c"][@id]')for item in weiboitems:
weibo = Weibo()
weibo.id = item.xpath('./@id')[0]
cmt = item.xpath('./div/span[@class="cmt"]')if len(cmt) != 0:
weibo.isrepost = True
weibo.content = cmt[0].text
else:
weibo.isrepost = False
ctt = item.xpath('./div/span[@class="ctt"]')[0]
if ctt.text is not None:
weibo.content += ctt.text
for a in ctt.xpath('./a'):
if a.text is not None:
weibo.content += a.text
if a.tail is not None:
weibo.content += a.tail
if len(cmt) != 0:
reason = cmt[1].text.split(u'\xa0')
if len(reason) != 1:
weibo.repostreason = reason[0]
ct = item.xpath('./div/span[@class="ct"]')[0]
time = ct.text.split(u'\xa0')[0]
weibo.time = self.gettime(self, time, parsingtime)self.weibos.append(weibo.__dict__)
f.close()
方法傳遞的參數parsingtime的設置初衷是，開發前期爬取和解析可能不是同時進行的（並不是嚴格的「同時」），微博時間顯示是基於訪問時間的，比如爬取時間是10:00，這時爬取到一條微博顯示是5分鍾前發布的，但如果解析時間是10:30，那麼解析時間將錯誤，所以應該講解析時間設置為10:00。到後期爬蟲基本開發完畢，爬取工作和解析工作開始時間差距降低，時間差將是爬取過程時長，基本可以忽略。
解析結果保存在一個列表裡，最後將這個列表以json格式保存到文件系統里，刪除過渡文件夾，完成。
def save(self):
f = open(sys.path[0] + '/Weibo_parsed/' + self.uid + '.txt', 'w')jsonstr = json.mps(self.weibos, indent=4, ensure_ascii=False)f.write(jsonstr)
f.close()
2.爬取關鍵詞
同樣的，收集必要的信息。在微博手機版搜索頁面敲入」python」，觀察url，研究其規律。雖然第一頁並無規律，但是第二頁我們發現了規律，而且這個規律可以返回應用於第一頁第一頁
第二頁
應用後第一頁
觀察url可以發現，對於關鍵詞的搜索，url中的變數只有keyword和page（事實上，hideSearchFrame對我們的搜索結果和爬蟲都沒有影響），所以在代碼中我們就可以對這兩個變數進行控制。
另外，如果關鍵詞是中文，那麼url就需要對中文字元進行轉換，如我們在搜索框敲入」開心」並搜索，發現url如下顯示搜索開心
但復制出來卻為
http://weibo.cn/search/mblog?hideSearchFrame=&keyword=%E5%BC%80%E5%BF%83&page=1幸好，python的urllib庫有qoute方法處理中文轉換的功能（如果是英文則不做轉換），所以在拼接url前使用這個方法處理一下參數。
另外，考慮到關鍵詞搜索屬於數據收集階段使用的方法，所以在此只提供單線程下載網頁，如有多線程需要，大家可以按照多線程爬取用戶微博的方法自己改寫。最後，對下載下來的網頁進行提取並保存（我知道這樣的模塊設計有點奇怪，打算重(xin)構(qing)時(hao)時再改，就先這樣吧）。
def keywordcrawling(self, keyword):
realkeyword = urllib.quote(keyword) # Handle the keyword in Chinese.
try:
os.mkdir(sys.path[0] + '/keywords')
except Exception, e:
print str(e)
weibos = []
try:
highpoints = re.compile(u'[\U00010000-\U0010ffff]') # Handle emoji, but it seems doesn't work.
except re.error:
highpoints = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')pagenum = 0
isneeded = False
while not isneeded:
html = self.getpage('http://weibo.cn/search/mblog?keyword=%s&page=1' % realkeyword)isneeded = self.ispageneeded(html)
if isneeded:
selector = etree.HTML(html)
try:
pagenum = int(selector.xpath('//input[@name="mp"]/@value')[0])except:
pagenum = 1
for i in range(1, pagenum + 1):
try:
isneeded = False
while not isneeded:
html = self.getpage('http://weibo.cn/search/mblog?keyword=%s&page=%s' % (realkeyword, str(i)))isneeded = self.ispageneeded(html)
selector = etree.HTML(html)
weiboitems = selector.xpath('//div[@class="c"][@id]')for item in weiboitems:
cmt = item.xpath('./div/span[@class="cmt"]')if (len(cmt)) == 0:
ctt = item.xpath('./div/span[@class="ctt"]')[0]
if ctt.text is not None:
text = etree.tostring(ctt, method='text', encoding="unicode")tail = ctt.tail
if text.endswith(tail):
index = -len(tail)
text = text[1:index]
text = highpoints.sub(u'\u25FD', text) # Emoji handling, seems doesn't work.
weibotext = text
weibos.append(weibotext)
print str(i) + '/' + str(pagenum)
except Exception, e:
print str(e)
f = open(sys.path[0] + '/keywords/' + keyword + '.txt', 'w')try:
f.write(json.mps(weibos,indent=4,ensure_ascii=False))except Exception,ex:
print str(ex)
finally:
f.close()
博主之前從未寫過任何爬蟲程序，為了獲取新浪微博博文，博主先後寫了3個不同的爬蟲程序，有Python，有Java，爬蟲不能用了是很正常的，不要氣餒，爬蟲程序和反爬機制一直都在不斷博弈中，道高一尺魔高一丈。
另. 轉載請告知博主，如果覺得博主帥的話就可以不用告知了

閱讀全文

與如何爬取中國天氣網相關的資料

熱點內容

印尼海底世界有什麼發布：2025-03-16 01:44:21 瀏覽：282

越南有多少歲當兵發布：2025-03-16 01:44:16 瀏覽：849

中國燃氣2019年職工工資如何發布：2025-03-16 01:42:53 瀏覽：853

越南人如何切椰子發布：2025-03-16 01:32:59 瀏覽：102

隨想曲義大利語怎麼說發布：2025-03-16 01:27:24 瀏覽：932

嗯看看印度人怎麼回事發布：2025-03-16 01:25:47 瀏覽：101

江西省哪裡距越南寮國最近發布：2025-03-16 01:25:04 瀏覽：807

中國的五大山脈是哪些發布：2025-03-16 01:15:51 瀏覽：335

美國為什麼沒收伊朗石油製品發布：2025-03-16 01:15:41 瀏覽：524

什麼叫中國音樂學院發布：2025-03-16 01:10:00 瀏覽：168

義大利公墓在哪裡發布：2025-03-16 01:09:55 瀏覽：237

越南歐盟自貿協定什麼時候生效發布：2025-03-16 01:09:48 瀏覽：354

怎麼激活中國銀行信用卡發布：2025-03-16 01:02:44 瀏覽：297

發食品到印尼需要什麼國際物流發布：2025-03-16 01:02:33 瀏覽：279

印尼金鍬甲蟲有什麼用途發布：2025-03-16 01:01:45 瀏覽：873

印尼華裔女孩怎麼樣發布：2025-03-16 00:56:45 瀏覽：364

印尼產的耐克怎麼區分真假發布：2025-03-16 00:51:13 瀏覽：20

伊朗亞里爾有多少的面額發布：2025-03-16 00:38:32 瀏覽：874

中國建國大街在哪裡發布：2025-03-16 00:35:48 瀏覽：329

越南日本超市在哪裡發布：2025-03-16 00:35:47 瀏覽：990