导航:首页 > 中国讯息 > 如何爬取中国天气网

如何爬取中国天气网

发布时间：2022-09-05 11:54:19

① 有没有哪儿能爬到历史天气的小时数据啊

去找当地的气象部门。你需要什么时候的天气记录都齐全。

② 如何获取网页天气信息



<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_cncn.js">
</script>

中国其他各省(区)天气的代码只需将上述代码中的cncn换成下列字符串:
广东:gudp福建:fujp浙江:zhjp江苏:jsup安徽:anhp山东:shdp
海南:hanp广西:guxa贵州:guzp云南:yunp四川:sicp陕西:saxp
河南:henp河北:hebp山西:shxp内蒙古:nema辽宁:linp吉林:jilp
黑龙江:hljp湖北:hubp湖南:hunp江西:jixp甘肃:gasp宁夏:nixa
青海:qihp西藏:xiza新疆:xija


德国天气

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_dldl.js">
</script>


美国天气

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_naus.js"></script>


加拿大天气

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_naka.js">
</script>


亚洲天气

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_asie.js">
</script>


欧洲天气

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_euro.js">
</script>


日本天气

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_japn.js">
</script>


韩国天气

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_skor.js">
</script>


朝鲜天气

<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_nkor.js">
</script>


将上述代码中的
<scriptlanguage="javascript"
src="http://extern.t7online.com/javascript/teaser_cncn.js">
</script>
放在一个空白文本文件中，文件名改成*.html即可。IE查看该文件试试！！

③ 【易语言】利用中国天气网，获取天气预报，7天的，要自动识别的。

④ Python爬虫看看哪个城市最热

哪个城市最热？

现如今，我大天朝举国上下都处于一种高温的状态。那么这里我们也来蹭一蹭热度，来写个小爬虫，看看全国哪个城市最热。东西虽然小，但是比起那些所谓“高大上”的教程来说，这篇文章比较脚踏实地，不玩虚的，你看完后一定可以学会的。

准备工作：

在做爬虫之前，首先对爬虫的解题路径做个简单概述。一个爬虫工作分为两步骤：
第一步：把你需要爬取的那个网页的数据全部拉下来。
第二步是把从网站上拉下来的数据进行过滤，把你需要的提取出来，把不需要的给过滤掉。这就是爬虫的工作原理。
我们要爬取的网站数据不是特别大，复杂度也不高。因此为降低大家学习爬虫的难度。我们不上那些很复杂的框架，比如Scrapy，而是直接使用一个简单又好用的第三方库帮我们完成爬虫任务，那就是requests库。requests库是一个专门用来从网站上拉取数据的库，也就对应了我们爬虫工作的第一步——从网站上拉取数据。这个库的使用，后面我们会讲到，如果您还没有安装这个库，那么可以通过以下命令进行安装：pip install requests。如果您使用的是Linux或者Mac OS系统，那么最好在前面加上一个sudo pip install requests，不然很容易会因为权限问题而安装失败。
在使用requests库把数据拉取下来以后，接下来的工作就是对这些数据进行分析和过滤了。这时候我们使用的一个第三方库是beautifulsoup4。这个库是专门用来解析网页数据的。并且为了使接下效率更高，一般我们推荐使用lxml来作为解析的引擎。因此，要使用beautifulsoup库，要通过以下命令来安装：
# 安装 lxmlpip install lxml# 安装 beautifulsoup4pip install bs4

中国天气网分析：

这里我们需要爬取的网站是：中国天气网her.com.cn/textFC/hb.shtml#。我们做任何爬虫之前，都需要对这个网站进行详细的分析，一定要达到了如指掌的境地。不然后面很容易在数据过滤的时候会出现一个问题，这也是所有做爬虫需要注意的地方。我们这里就跟大家分析一下中国天气网的网站：

在以上这个中国天气网的页面中。我们可以看到，他是通过区域的方式把全国个大省份和城市进行区分的，有：华北、东北、华东、华中、华南、西北、西南、港澳台。在每个区域下面，都是通过表格的形式把属于该区域下的所有省份以及城市的天气信息列出来。因此我们要做的是，首先找到所有的区域的链接，然后再在每个区域的链接下把这个区域下的所有的城市天气信息爬出来就可以了。
写在最后：

⑤ 如何获取中国天气网天气数据

请求方式：http get
接口组成：由固定URL加5个不同的参数组成，完整URL需客户端经过固定方式加密后使用。
数据返回：json
完整URL：http://open.weather.com.cn/data/?areaid=""&type=""&date=""&appid=""&key=".urlencode($key);
固定URL：http://open.weather.com.cn/data/

⑥ 公共平台没开发怎样可以有天气预报

在这篇教程中，我们将介绍如何在微信公众平台上开发天气预报功能。我们将使用中国天气网的气象数据接口来获取天气信息。
这篇教程将介绍以下内容：
获取中国天气网的气象数据
在微信公众平台中回复天气

一、中国天气网
中国天气网提供了丰富的气象数据接口。下面我们介绍主要的几个：
国家根节点接口：
http://flash.weather.com.cn/wmaps/xml/china.xml

该接口以XML格式列出所有的省（自治区、直辖市）的中文名称（quName）和拼音名称（pyName）及省会城市的天气信息，其中广东的数据如下：
<city quName="广东" pyName="guangdong" cityname="广州" state1="2" state2="7" stateDetailed="阴转小雨" tem1="8" tem2="15" windState="微风"/>

该接口的主要功能是通过它获取省级节点的拼音名称。以广东为例：其pyName是“Guangdong”。
省级节点接口（以广东为例）：
http://flash.weather.com.cn/wmaps/xml/Guangdong.xml

该接口以XML格式列出当前省下辖所有市的中文名称（quName）、拼音名称（pyName）、中心坐标、天气信息以及城市编码。其中深圳的数据如下所示：
<city cityX="409" cityY="257" cityname="深圳" centername="深圳" fontColor="FFFFFF" pyName="shenzhen" state1="1" state2="1" stateDetailed="多云" tem1="12" tem2="18" temNow="12" windState="微风" windDir="东北风" windPower="1级" humidity="74%" time="21:15" url="101280601"/>

在这个接口中主要获取城市名称及相应的城市编码。例如，深圳的城市编码为：101280601。可以编写程序将全国城市拓扑结构采集下来。也可以使用方倍工作室已经采集好的，点击这里下载。
实时天气数据（以深圳为例）：
http://www.weather.com.cn/data/sk/101280601.html

该接口以JSON格式列出当前城市的实时天气状况。如下所示：

{
"weatherinfo": {
"city": "深圳",
"cityid": "101280601",
"temp": "12",
"WD": "东北风",
"WS": "1级",
"SD": "75%",
"WSE": "1",
"time": "21:20",
"isRadar": "1",
"Radar": "JC_RADAR_AZ9755_JB"
}
}

实时天气数据参数说明下所示：

六日天气数据（以深圳为例）：
http://m.weather.com.cn/data/101280601.html

该接口以JSON格式列出当前城市的六日天气状况。如下所示：

{
"weatherinfo": {
"city": "深圳",
"city_en": "shenzhen",
"date_y": "2014年2月15日",
"date": "",
"week": "星期六",
"fchh": "18",
"cityid": "101280601",
"temp1": "12℃~18℃",
"temp2": "16℃~21℃",
"temp3": "17℃~23℃",
"temp4": "11℃~18℃",
"temp5": "10℃~15℃",
"temp6": "12℃~17℃",
"tempF1": "53.6℉~64.4℉",
"tempF2": "60.8℉~69.8℉",
"tempF3": "62.6℉~73.4℉",
"tempF4": "51.8℉~64.4℉",
"tempF5": "50℉~59℉",
"tempF6": "53.6℉~62.6℉",
"weather1": "多云",
"weather2": "阴",
"weather3": "多云",
"weather4": "中雨",
"weather5": "多云",
"weather6": "阴",
"img1": "1",
"img2": "99",
"img3": "2",
"img4": "99",
"img5": "1",
"img6": "99",
"img7": "8",
"img8": "99",
"img9": "1",
"img10": "99",
"img11": "2",
"img12": "99",
"img_single": "1",
"img_title1": "多云",
"img_title2": "多云",
"img_title3": "阴",
"img_title4": "阴",
"img_title5": "多云",
"img_title6": "多云",
"img_title7": "中雨",
"img_title8": "中雨",
"img_title9": "多云",
"img_title10": "多云",
"img_title11": "阴",
"img_title12": "阴",
"img_title_single": "多云",
"wind1": "微风",
"wind2": "微风",
"wind3": "微风",
"wind4": "东北风3-4级",
"wind5": "微风",
"wind6": "微风",
"fx1": "微风",
"fx2": "微风",
"fl1": "小于3级",
"fl2": "小于3级",
"fl3": "小于3级",
"fl4": "3-4级",
"fl5": "小于3级",
"fl6": "小于3级",
"index": "较舒适",
"index_d": "建议着薄外套、开衫牛仔衫裤等服装。年老体弱者应适当添加衣物，宜着夹克衫、薄毛衣等。",
"index48": "较舒适",
"index48_d": "建议着薄外套、开衫牛仔衫裤等服装。年老体弱者应适当添加衣物，宜着夹克衫、薄毛衣等。",
"index_uv": "最弱",
"index48_uv": "最弱",
"index_xc": "适宜",
"index_tr": "适宜",
"index_co": "舒适",
"st1": "19",
"st2": "13",
"st3": "23",
"st4": "16",
"st5": "24",
"st6": "18",
"index_cl": "适宜",
"index_ls": "适宜",
"index_ag": "不易发"
}
}

未来六日天气数据主要参数说明如下表所示：

以上接口是我们做天气预报功能将使用到的接口。

二、微信公众平台开发
1. 需要将城市编码对照表导入到数据库中，以下是SAE导入后截图

2. 将城市名转为城市代码的方法，这将在用户发送城市名的时候调用

1 function fromNameToCode($name)
2 {
3 $mysql_host = SAE_MYSQL_HOST_M;
4 $mysql_host_s = SAE_MYSQL_HOST_S;
5 $mysql_port = SAE_MYSQL_PORT;
6 $mysql_user = SAE_MYSQL_USER;
7 $mysql_password = SAE_MYSQL_PASS;
8 $mysql_database = SAE_MYSQL_DB;
9
10 $mysql_table = "weather";
11 $mysql_state = "SELECT * FROM ".$mysql_table." WHERE `cityName` = '".$name."'";
12
13 $con = mysql_connect($mysql_host.':'.$mysql_port, $mysql_user, $mysql_password, true);
14 if (!$con){
15 die('Could not connect: ' . mysql_error());
16 }
17 mysql_query("SET NAMES 'UTF8'");
18 mysql_select_db($mysql_database, $con);
19 $result = mysql_query($mysql_state);
20 $cityCode = "";
21 while($row = mysql_fetch_array($result))
22 {
23 $cityCode = $row['cityCode'];
24 break;
25 }
26 mysql_close($con);
27 return $cityCode;
28 }

3. 编写接口调用函数，用于向天气网发送cURL请求，获取数据

1 function httpRequest($url)
2 {
3 $ch = curl_init();
4 curl_setopt($ch, CURLOPT_URL, $url);
5 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
6 $output = curl_exec($ch);
7 curl_close($ch);
8 if ($output === FALSE){
9 return "cURL Error: ". curl_error($ch);
10 }
11 return $output;
12 }

4. 编写获取天气数据的函数，这里获取实时天气和未来3日天气，并将返回结果封装成图文信息的数组

1 function getWeatherInfo($cityName)
2 {
3 $cityCode = fromNameToCode($cityName);
4
5 if ($cityCode == "")
6 {
7 return "错误的城市名或者此城市不在数据库中!";
8 }
9
10 //获取实时天气
11 $url = "http://www.weather.com.cn/data/sk/".$cityCode.".html";
12 $output = httpRequest($url);
13 $weather = json_decode($output, true);
14 $info = $weather['weatherinfo'];
15
16 $weatherArray = array();
17 $weatherArray[] = array("Title"=>$info['city']."天气预报", "Description"=>"", "PicUrl"=>"", "Url" =>"");
18 if ((int)$cityCode < 101340000){
19 $result = "实况温度：".$info['temp']."℃ 湿度：".$info['SD']." 风速：".$info['WD'].$info['WSE']."级";
20 $weatherArray[] = array("Title"=>str_replace("%", "﹪", $result), "Description"=>"", "PicUrl"=>"", "Url" =>"");
21 }
22
23 //获取六日天气
24 $url = "http://m.weather.com.cn/data/".$cityCode.".html";
25 $output = httpRequest($url);
26 $weather = json_decode($output, true);
27 $info = $weather['weatherinfo'];
28
29 if (!empty($info['index_d'])){
30 $weatherArray[] = array("Title" =>$info['index_d'], "Description" =>"", "PicUrl" =>"", "Url" =>"");
31 }
32
33 $weekArray = array("日","一","二","三","四","五","六");
34 $maxlength = 3;
35 for ($i = 1; $i <= $maxlength; $i++) {
36 $offset = strtotime("+".($i-1)." day");
37 $subTitle = date("m月d日",$offset)." 周".$weekArray[date('w',$offset)]." ".$info['temp'.$i]." ".$info['weather'.$i]." ".$info['wind'.$i];
38 $weatherArray[] = array("Title" =>$subTitle, "Description" =>"", "PicUrl" =>"http://discuz.comli.com/weixin/weather/"."d".sprintf("%02u",$info['img'.(($i *2)-1)]).".jpg", "Url" =>"");
39 }
40
41 return $weatherArray;
42 }

5. 在微信公众平台接口函数中处理收到的文本消息时，文本将为城市名，直接调用获取天气的函数

1 /*
2 方倍工作室
3 CopyRight 2013 All Rights Reserved
4 */
5
6 define("TOKEN", "weixin");
7
8 $wechatObj = new wechatCallbackapiTest();
9 if (!isset($_GET['echostr'])) {
10 $wechatObj->responseMsg();
11 }else{
12 $wechatObj->valid();
13 }
14
15 class wechatCallbackapiTest
16 {
17 public function valid()
18 {
19 $echoStr = $_GET["echostr"];
20 if($this->checkSignature()){
21 echo $echoStr;
22 exit;
23 }
24 }
25
26 private function checkSignature()
27 {
28 $signature = $_GET["signature"];
29 $timestamp = $_GET["timestamp"];
30 $nonce = $_GET["nonce"];
31 $token = TOKEN;
32 $tmpArr = array($token, $timestamp, $nonce);
33 sort($tmpArr);
34 $tmpStr = implode($tmpArr);
35 $tmpStr = sha1($tmpStr);
36
37 if($tmpStr == $signature){
38 return true;
39 }else{
40 return false;
41 }
42 }
43
44 public function responseMsg()
45 {
46 $postStr = $GLOBALS["HTTP_RAW_POST_DATA"];
47 if (!empty($postStr)){
48 $this->logger("R ".$postStr);
49 $postObj = simplexml_load_string($postStr, 'SimpleXMLElement', LIBXML_NOCDATA);
50 $RX_TYPE = trim($postObj->MsgType);
51
52 switch ($RX_TYPE)
53 {
54 case "event":
55 $result = $this->receiveEvent($postObj);
56 break;
57 case "text":
58 $result = $this->receiveText($postObj);
59 break;
60 }
61 $this->logger("T ".$result);
62 echo $result;
63 }else {
64 echo "";
65 exit;
66 }
67 }
68
69 private function receiveEvent($object)
70 {
71 $content = "";
72 switch ($object->Event)
73 {
74 case "subscribe":
75 $content = "欢迎关注方倍工作室 ";
76 break;
77 case "unsubscribe":
78 $content = "取消关注";
79 break;
80 }
81 $result = $this->transmitText($object, $content);
82 return $result;
83 }
84
85 private function receiveText($object)
86 {
87 $keyword = trim($object->Content);
88
89 include("weather.php");
90 $content = getWeatherInfo($keyword);

⑦ 如何免费获取中国天气网的城市天气数据

有的文章介绍根据IP地址获取城市代码，但应该不适用在Android移动端吧，我没有研究，所有采用了下面的办法：第二种是将最新的城市代码放入本地数据库（数据库文件我放在末尾处，需要的可以下载，在中国范围内应该足够用了），通过在代码中查询城市名称从数据库中取出与之对应的城市代码，通过字符串的拼接发送请求，来获取想要的天气信息！这个是我自己的思路，或许比较笨拙，希望有更好想法的朋友可以指出！

⑧ 求一份天气网络爬虫的代码

很简单自己写吧找人写不现实自己从网上都例子吧

⑨ 如何用java语言爬取全国的天气数据

天气晴天：it's sunny today.
有风：it's windy outside.
多云是cloudy,下雨是rainy,也有sprinkle是小雨,storm 暴雨
hurricane飓风,tornado龙卷风等等多种.

⑩ python 新浪微博爬虫，求助

0x00. 起因
因为参加学校大学生创新竞赛，研究有关微博博文表达的情绪，需要大量微博博文，而网上无论是国内的某度、csdn，还是国外谷歌、gayhub、codeproject等都找不到想要的程序，没办法只能自己写一个程序了。
ps.在爬盟找到类似的程序，但是是windows下的，并且闭源，而且最终爬取保存的文件用notepad++打开有很多奇怪的问题，所以放弃了。
0x01. 基础知识
本程序由Python写成，所以基本的python知识是必须的。另外，如果你有一定的计算机网络基础，在前期准备时会有少走很多弯路。
对于爬虫，需要明确几点：
1. 对爬取对象分类，可以分为以下几种：第一种是不需要登录的，比如博主以前练手时爬的中国天气网，这种网页爬取难度较低，建议爬虫新手爬这类网页；第二种是需要登录的，如豆瓣、新浪微博，这些网页爬取难度较高；第三种独立于前两种，你想要的信息一般是动态刷新的，如AJAX或内嵌资源，这种爬虫难度最大，博主也没研究过，在此不细举（据同学说淘宝的商品评论就属于这类）。
2. 如果同一个数据源有多种形式（比如电脑版、手机版、客户端等），优先选取较为“纯净的”展现。比如新浪微博，有网页版，也有手机版，而且手机版可以用电脑浏览器访问，这时我优先选手机版新浪微博。
3. 爬虫一般是将网页下载到本地，再通过某些方式提取出感兴趣的信息。也就是说，爬取网页只完成了一半，你还要将你感兴趣的信息从下载下来的html文件中提取出来。这时就需要一些xml的知识了，在这个项目中，博主用的是XPath提取信息，另外可以使用XQuery等等其他技术，详情请访问w3cschool。
4. 爬虫应该尽量模仿人类，现在网站反爬机制已经比较发达，从验证码到禁IP，爬虫技术和反爬技术可谓不断博弈。
0x02. 开始
决定了爬虫的目标之后，首先应该访问目标网页，明确目标网页属于上述几种爬虫的哪种，另外，记录为了得到感兴趣的信息你需要进行的步骤，如是否需要登录，如果需要登录，是否需要验证码；你要进行哪些操作才能获得希望得到的信息，是否需要提交某些表单；你希望得到的信息所在页面的url有什么规律等等。
以下博文以博主项目为例，该项目爬取特定新浪微博用户从注册至今的所有微博博文和根据关键词爬取100页微博博文（大约1000条）。
0x03. 收集必要信息
首先访问目标网页，发现需要登录，进入登录页面如下新浪微博手机版登录页面
注意url后半段有很多形如”%xx”的转义字符，本文后面将会讲到。
从这个页面可以看到，登录新浪微博手机版需要填写账号、密码和验证码。
这个验证码是近期（本文创作于2016.3.11）才需要提供的，如果不需要提供验证码的话，将有两种方法进行登录。
第一种是填写账号密码之后执行js模拟点击“登录”按钮，博主之前写过一个Java爬虫就是利用这个方法，但是现在找不到工程了，在此不再赘述。
第二种需要一定HTTP基础，提交包含所需信息的HTTP POST请求。我们需要Wireshark 工具来抓取登录微博时我们发出和接收的数据包。如下图我抓取了在登录时发出和接收的数据包Wireshark抓取结果1
在搜索栏提供搜索条件”http”可得到所有http协议数据包，右侧info显示该数据包的缩略信息。图中蓝色一行是POST请求，并且info中有”login”，可以初步判断这个请求是登录时发出的第一个数据包，并且这个180.149.153.4应该是新浪微博手机版登录认证的服务器IP地址，此时我们并没有任何的cookie。
在序号为30是数据包中有一个从该IP发出的HTTP数据包，里面有四个Set-Cookie字段，这些cookie将是我们爬虫的基础。
Wireshark抓取结果2
早在新浪微博服务器反爬机制升级之前，登录是不需要验证码的，通过提交POST请求，可以拿到这些cookie，在项目源码中的TestCookie.py中有示例代码。
ps.如果没有wireshark或者不想这么麻烦的话，可以用浏览器的开发者工具，以chrome为例，在登录前打开开发者工具，转到Network，登录，可以看到发出和接收的数据，登录完成后可以看到cookies，如下图chrome开发者工具
接下来访问所需页面，查看页面url是否有某种规律。由于本项目目标之一是获取某用户的全部微博，所以直接访问该用户的微博页面，以央视新闻为例。
央视新闻1
图为央视新闻微博第一页，观察该页面的url可以发现，新浪微博手机版的微博页面url组成是 “weibo.cn/(displayID)?page=(pagenum)” 。这将成为我们爬虫拼接url的依据。
接下来查看网页源码，找到我们希望得到的信息的位置。打开浏览器开发者工具，直接定位某条微博，可以发现它的位置，如下所示。
xpath
观察html代码发现，所有的微博都在<div>标签里，并且这个标签里有两个属性，其中class属性为”c”，和一个唯一的id属性值。得到这个信息有助于将所需信息提取出来。
另外，还有一些需要特别注意的因素
* 微博分为原创微博和转发微博
* 按照发布时间至当前时间的差距，在页面上有”MM分钟前”、”今天HH:MM”、”mm月dd日 HH:MM”、”yyyy-mm-dd HH:MM:SS”等多种显示时间的方式* 手机版新浪微博一个页面大约显示10条微博，所以要注意对总共页数进行记录以上几点都是细节，在爬虫和提取的时候需要仔细考虑。
0x04. 编码
1.爬取用户微博
本项目开发语言是Python 2.7，项目中用了一些第三方库，第三方库可以用pip的方法添加。
既然程序自动登录的想法被验证码挡住了，想要访问特定用户微博页面，只能使用者提供cookies了。
首先用到的是Python的request模块，它提供了带cookies的url请求。
import request
print request.get(url, cookies=cookies).content使用这段代码就可以打印带cookies的url请求页面结果。
首先取得该用户微博页面数，通过检查网页源码，查找到表示页数的元素，通过XPath等技术提取出页数。
页数
项目使用lxml模块对html进行XPath提取。
首先导入lxml模块，在项目里只用到了etree，所以from lxml import etree
然后利用下面的方法返回页数
def getpagenum(self):
url = self.geturl(pagenum=1)
html = requests.get(url, cookies=self.cook).content # Visit the first page to get the page number.
selector = etree.HTML(html)
pagenum = selector.xpath('//input[@name="mp"]/@value')[0]
return int(pagenum)
接下来就是不断地拼接url->访问url->下载网页。
需要注意的是，由于新浪反爬机制的存在，同一cookies访问页面过于“频繁”的话会进入类似于“冷却期”，即返回一个无用页面，通过分析该无用页面发现，这个页面在特定的地方会出现特定的信息，通过XPath技术来检查这个特定地方是否出现了特定信息即可判断该页面是否对我们有用。
def ispageneeded(html):
selector = etree.HTML(html)
try:
title = selector.xpath('//title')[0]
except:
return False
return title.text != '微博广场' and title.text != '微博'
如果出现了无用页面，只需简单地重新访问即可，但是通过后期的实验发现，如果长期处于过频访问，返回的页面将全是无用页面，程序也将陷入死循环。为了避免程序陷入死循环，博主设置了尝试次数阈值trycount，超过这个阈值之后方法自动返回。
下面代码片展示了单线程爬虫的方法。
def startcrawling(self, startpage=1, trycount=20):
attempt = 0
try:
os.mkdir(sys.path[0] + '/Weibo_raw/' + self.wanted)except Exception, e:
print str(e)
isdone = False
while not isdone and attempt < trycount:
try:
pagenum = self.getpagenum()
isdone = True
except Exception, e:
attempt += 1
if attempt == trycount:
return False
i = startpage
while i <= pagenum:
attempt = 0
isneeded = False
html = ''
while not isneeded and attempt < trycount:
html = self.getpage(self.geturl(i))
isneeded = self.ispageneeded(html)
if not isneeded:
attempt += 1
if attempt == trycount:
return False
self.savehtml(sys.path[0] + '/Weibo_raw/' + self.wanted + '/' + str(i) + '.txt', html)print str(i) + '/' + str(pagenum - 1)
i += 1
return True
考虑到程序的时间效率，在写好单线程爬虫之后，博主也写了多线程爬虫版本，基本思想是将微博页数除以线程数，如一个微博用户有100页微博，程序开10个线程，那么每个线程只负责10个页面的爬取，其他基本思想跟单线程类似，只需仔细处理边界值即可，在此不再赘述，感兴趣的同学可以直接看代码。另外，由于多线程的效率比较高，并发量特别大，所以服务器很容易就返回无效页面，此时trycount的设置就显得更重要了。博主在写这篇微博的时候，用一个新的cookies，多线程爬取现场测试了一下爬取北京邮电大学的微博，3976条微博全部爬取成功并提取博文，用时仅15s，实际可能跟cookies的新旧程度和网络环境有关，命令行设置如下，命令行意义在项目网址里有说明python main.py _T_WM=xxx; SUHB=xxx; SUB=xxx; gsid_CTandWM=xxx u bupt m 20 20爬取的工作以上基本介绍结束，接下来就是爬虫的第二部分，解析了。由于项目中提供了多线程爬取方法，而多线程一般是无序的，但微博博文是依靠时间排序的，所以项目采用了一种折衷的办法，将下载完成的页面保存在本地文件系统，每个页面以其页号为文件名，待爬取的工作结束后，再遍历文件夹内所有文件并解析。
通过前面的观察，我们已经了解到微博博文存在的标签有什么特点了，利用XPath技术，将这个页面里所有有这个特点的标签全部提取出来已经不是难事了。
在这再次提醒，微博分为转发微博和原创微博、时间表示方式。另外，由于我们的研究课题仅对微博文本感兴趣，所以配图不考虑。
def startparsing(self, parsingtime=datetime.datetime.now()):
basepath = sys.path[0] + '/Weibo_raw/' + self.uidfor filename in os.listdir(basepath):
if filename.startswith('.'):
continue
path = basepath + '/' + filename
f = open(path, 'r')
html = f.read()
selector = etree.HTML(html)
weiboitems = selector.xpath('//div[@class="c"][@id]')for item in weiboitems:
weibo = Weibo()
weibo.id = item.xpath('./@id')[0]
cmt = item.xpath('./div/span[@class="cmt"]')if len(cmt) != 0:
weibo.isrepost = True
weibo.content = cmt[0].text
else:
weibo.isrepost = False
ctt = item.xpath('./div/span[@class="ctt"]')[0]
if ctt.text is not None:
weibo.content += ctt.text
for a in ctt.xpath('./a'):
if a.text is not None:
weibo.content += a.text
if a.tail is not None:
weibo.content += a.tail
if len(cmt) != 0:
reason = cmt[1].text.split(u'\xa0')
if len(reason) != 1:
weibo.repostreason = reason[0]
ct = item.xpath('./div/span[@class="ct"]')[0]
time = ct.text.split(u'\xa0')[0]
weibo.time = self.gettime(self, time, parsingtime)self.weibos.append(weibo.__dict__)
f.close()
方法传递的参数parsingtime的设置初衷是，开发前期爬取和解析可能不是同时进行的（并不是严格的“同时”），微博时间显示是基于访问时间的，比如爬取时间是10:00，这时爬取到一条微博显示是5分钟前发布的，但如果解析时间是10:30，那么解析时间将错误，所以应该讲解析时间设置为10:00。到后期爬虫基本开发完毕，爬取工作和解析工作开始时间差距降低，时间差将是爬取过程时长，基本可以忽略。
解析结果保存在一个列表里，最后将这个列表以json格式保存到文件系统里，删除过渡文件夹，完成。
def save(self):
f = open(sys.path[0] + '/Weibo_parsed/' + self.uid + '.txt', 'w')jsonstr = json.mps(self.weibos, indent=4, ensure_ascii=False)f.write(jsonstr)
f.close()
2.爬取关键词
同样的，收集必要的信息。在微博手机版搜索页面敲入”python”，观察url，研究其规律。虽然第一页并无规律，但是第二页我们发现了规律，而且这个规律可以返回应用于第一页第一页
第二页
应用后第一页
观察url可以发现，对于关键词的搜索，url中的变量只有keyword和page（事实上，hideSearchFrame对我们的搜索结果和爬虫都没有影响），所以在代码中我们就可以对这两个变量进行控制。
另外，如果关键词是中文，那么url就需要对中文字符进行转换，如我们在搜索框敲入”开心”并搜索，发现url如下显示搜索开心
但复制出来却为
http://weibo.cn/search/mblog?hideSearchFrame=&keyword=%E5%BC%80%E5%BF%83&page=1幸好，python的urllib库有qoute方法处理中文转换的功能（如果是英文则不做转换），所以在拼接url前使用这个方法处理一下参数。
另外，考虑到关键词搜索属于数据收集阶段使用的方法，所以在此只提供单线程下载网页，如有多线程需要，大家可以按照多线程爬取用户微博的方法自己改写。最后，对下载下来的网页进行提取并保存（我知道这样的模块设计有点奇怪，打算重(xin)构(qing)时(hao)时再改，就先这样吧）。
def keywordcrawling(self, keyword):
realkeyword = urllib.quote(keyword) # Handle the keyword in Chinese.
try:
os.mkdir(sys.path[0] + '/keywords')
except Exception, e:
print str(e)
weibos = []
try:
highpoints = re.compile(u'[\U00010000-\U0010ffff]') # Handle emoji, but it seems doesn't work.
except re.error:
highpoints = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')pagenum = 0
isneeded = False
while not isneeded:
html = self.getpage('http://weibo.cn/search/mblog?keyword=%s&page=1' % realkeyword)isneeded = self.ispageneeded(html)
if isneeded:
selector = etree.HTML(html)
try:
pagenum = int(selector.xpath('//input[@name="mp"]/@value')[0])except:
pagenum = 1
for i in range(1, pagenum + 1):
try:
isneeded = False
while not isneeded:
html = self.getpage('http://weibo.cn/search/mblog?keyword=%s&page=%s' % (realkeyword, str(i)))isneeded = self.ispageneeded(html)
selector = etree.HTML(html)
weiboitems = selector.xpath('//div[@class="c"][@id]')for item in weiboitems:
cmt = item.xpath('./div/span[@class="cmt"]')if (len(cmt)) == 0:
ctt = item.xpath('./div/span[@class="ctt"]')[0]
if ctt.text is not None:
text = etree.tostring(ctt, method='text', encoding="unicode")tail = ctt.tail
if text.endswith(tail):
index = -len(tail)
text = text[1:index]
text = highpoints.sub(u'\u25FD', text) # Emoji handling, seems doesn't work.
weibotext = text
weibos.append(weibotext)
print str(i) + '/' + str(pagenum)
except Exception, e:
print str(e)
f = open(sys.path[0] + '/keywords/' + keyword + '.txt', 'w')try:
f.write(json.mps(weibos,indent=4,ensure_ascii=False))except Exception,ex:
print str(ex)
finally:
f.close()
博主之前从未写过任何爬虫程序，为了获取新浪微博博文，博主先后写了3个不同的爬虫程序，有Python，有Java，爬虫不能用了是很正常的，不要气馁，爬虫程序和反爬机制一直都在不断博弈中，道高一尺魔高一丈。
另. 转载请告知博主，如果觉得博主帅的话就可以不用告知了

阅读全文

与如何爬取中国天气网相关的资料

热点内容

透明意大利文怎么写发布：2025-03-16 04:56:40 浏览：207

在越南做菜生意怎么样发布：2025-03-16 04:41:04 浏览：99

越南自驾游怎么安排发布：2025-03-16 04:29:13 浏览：886

英国ata怎么样发布：2025-03-16 04:14:48 浏览：145

一年的意大利语怎么说发布：2025-03-16 04:13:00 浏览：135

印尼巴士模拟器怎么改左驾驶发布：2025-03-16 04:06:28 浏览：950

美国为什么拦不住伊朗导弹发布：2025-03-16 04:05:52 浏览：39

意大利圣剑手机版怎么调中文发布：2025-03-16 03:58:24 浏览：252

古印度怎么被美国解体的发布：2025-03-16 03:56:11 浏览：446

意大利的历史地位不包括哪些发布：2025-03-16 03:54:53 浏览：380

英国最好的车是什么品牌发布：2025-03-16 03:54:44 浏览：214

中国的灾难有什么发布：2025-03-16 03:43:09 浏览：381

英国伯吉斯中学留学要多少钱发布：2025-03-16 03:31:31 浏览：826

东革阿里印尼价格多少钱发布：2025-03-16 03:24:39 浏览：503

德国人一般去中国哪里发布：2025-03-16 03:24:17 浏览：429

21号天狗食日中国哪里可以看发布：2025-03-16 03:19:01 浏览：167

英国皇室婚礼一般多少钱发布：2025-03-16 03:13:20 浏览：628

疫情伊朗有多少患者发布：2025-03-16 03:11:52 浏览：381

可能用意大利语怎么说发布：2025-03-16 02:57:16 浏览：899

印度最新疫情每日死亡多少人发布：2025-03-16 02:46:27 浏览：772