ADSL拨号VPS包含了中国大陆（联通，移动，电信，）

中国香港，国外拨号VPS。

# -*- coding: utf-8 -*-
#---------------------------------------
# 程序：山东大学爬虫
# 版本：0.1
# 作者：why
# 日期：2013-07-12
# 语言：Python 2.7
# 操作：输入学号和密码
# 功能：输出成绩的加权平均值也就是绩点
#---------------------------------------
import urllib 
import urllib2
import cookielib
cookie = cookielib.CookieJar() 
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
#需要POST的数据#
postdata=urllib.urlencode({ 
 'stuid':'201100300428', 
 'pwd':'921030' 
})
#自定义一个请求#
req = urllib2.Request( 
 url = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login', 
 data = postdata
)
#访问该链接#
result = opener.open(req)
#打印返回的内容#
print result.read()

如此这般之后，再看看运行的效果：

ok，如此这般，我们就算模拟登陆成功了。

6.偷天换日

接下来的任务就是用爬虫获取到学生的成绩。

再来看看源网站。

开启HTTPFOX之后，点击查看成绩，发现捕获到了如下的数据：

点击第一个GET的数据，查看内容可以发现Content就是获取到的成绩的内容。

而获取到的页面链接，从页面源代码中右击查看元素，可以看到点击链接之后跳转的页面（火狐浏览器只需要右击，“查看此框架”，即可）：

从而可以得到查看成绩的链接如下：

http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre

7.万事俱备

现在万事俱备啦，所以只需要把链接应用到爬虫里面，看看能否查看到成绩的页面。

从httpfox可以看到，我们发送了一个cookie才能返回成绩的信息，所以我们就用python模拟一个cookie的发送，以此来请求成绩的信息：

# -*- coding: utf-8 -*-
#---------------------------------------
# 程序：山东大学爬虫
# 版本：0.1
# 作者：why
# 日期：2013-07-12
# 语言：Python 2.7
# 操作：输入学号和密码
# 功能：输出成绩的加权平均值也就是绩点
#---------------------------------------
import urllib 
import urllib2
import cookielib
#初始化一个CookieJar来处理Cookie的信息#
cookie = cookielib.CookieJar()
#创建一个新的opener来使用我们的CookieJar#
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
#需要POST的数据#
postdata=urllib.urlencode({ 
 'stuid':'201100300428', 
 'pwd':'921030' 
})
#自定义一个请求#
req = urllib2.Request( 
 url = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login', 
 data = postdata
)
#访问该链接#
result = opener.open(req)
#打印返回的内容#
print result.read()
#打印cookie的值
for item in cookie: 
 print 'Cookie：Name = '+item.name 
 print 'Cookie：Value = '+item.value
 
#访问该链接#
result = opener.open('http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre')
#打印返回的内容#
print result.read()

按下F5运行即可，看看捕获到的数据吧：

既然这样就没有什么问题了吧，用正则表达式将数据稍稍处理一下，取出学分和相应的分数就可以了。

8.手到擒来

这么一大堆html源码显然是不利于我们处理的，下面要用正则表达式来抠出必须的数据。

关于正则表达式的教程可以看看这个博文：

https://www.jb51.net/article/57150.htm

我们来看看成绩的源码：

既然如此，用正则表达式就易如反掌了。

我们将代码稍稍整理一下，然后用正则来取出数据：

# -*- coding: utf-8 -*-
#---------------------------------------
# 程序：山东大学爬虫
# 版本：0.1
# 作者：why
# 日期：2013-07-12
# 语言：Python 2.7
# 操作：输入学号和密码
# 功能：输出成绩的加权平均值也就是绩点
#---------------------------------------
import urllib 
import urllib2
import cookielib
import re
class SDU_Spider: 
 # 申明相关的属性 
 def __init__(self): 
 self.loginUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login' # 登录的url
 self.resultUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre' # 显示成绩的url
 self.cookieJar = cookielib.CookieJar() # 初始化一个CookieJar来处理Cookie的信息
 self.postdata=urllib.urlencode({'stuid':'201100300428','pwd':'921030'}) # POST的数据
 self.weights = [] #存储权重，也就是学分
 self.points = [] #存储分数，也就是成绩
 self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookieJar))
 def sdu_init(self):
 # 初始化链接并且获取cookie
 myRequest = urllib2.Request(url = self.loginUrl,data = self.postdata) # 自定义一个请求
 result = self.opener.open(myRequest) # 访问登录页面，获取到必须的cookie的值
 result = self.opener.open(self.resultUrl) # 访问成绩页面，获得成绩的数据
 # 打印返回的内容
 # print result.read()
 self.deal_data(result.read().decode('gbk'))
 self.print_data(self.weights);
 self.print_data(self.points);
 # 将内容从页面代码中抠出来 
 def deal_data(self,myPage): 
 myItems = re.findall('<TR>.*?<p.*?<p.*?<p.*?<p.*?<p.*?>(.*?)</p>.*?<p.*?<p.*?>(.*?)</p>.*?</TR>',myPage,re.S) #获取到学分
 for item in myItems:
 self.weights.append(item[0].encode('gbk'))
 self.points.append(item[1].encode('gbk'))
 
 # 将内容从页面代码中抠出来
 def print_data(self,items): 
 for item in items: 
 print item
#调用 
mySpider = SDU_Spider() 
mySpider.sdu_init()

水平有限，，正则是有点丑，。运行的效果如图：

ok，接下来的只是数据的处理问题了。。

9.凯旋而归

完整的代码如下，至此一个完整的爬虫项目便完工了。

# -*- coding: utf-8 -*-
#---------------------------------------
# 程序：山东大学爬虫
# 版本：0.1
# 作者：why
# 日期：2013-07-12
# 语言：Python 2.7
# 操作：输入学号和密码
# 功能：输出成绩的加权平均值也就是绩点
#---------------------------------------
import urllib 
import urllib2
import cookielib
import re
import string
class SDU_Spider: 
 # 申明相关的属性 
 def __init__(self): 
 self.loginUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login' # 登录的url
 self.resultUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre' # 显示成绩的url
 self.cookieJar = cookielib.CookieJar() # 初始化一个CookieJar来处理Cookie的信息
 self.postdata=urllib.urlencode({'stuid':'201100300428','pwd':'921030'}) # POST的数据
 self.weights = [] #存储权重，也就是学分
 self.points = [] #存储分数，也就是成绩
 self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookieJar))
 def sdu_init(self):
 # 初始化链接并且获取cookie
 myRequest = urllib2.Request(url = self.loginUrl,data = self.postdata) # 自定义一个请求
 result = self.opener.open(myRequest) # 访问登录页面，获取到必须的cookie的值
 result = self.opener.open(self.resultUrl) # 访问成绩页面，获得成绩的数据
 # 打印返回的内容
 # print result.read()
 self.deal_data(result.read().decode('gbk'))
 self.calculate_date();
 # 将内容从页面代码中抠出来 
 def deal_data(self,myPage): 
 myItems = re.findall('<TR>.*?<p.*?<p.*?<p.*?<p.*?<p.*?>(.*?)</p>.*?<p.*?<p.*?>(.*?)</p>.*?</TR>',myPage,re.S) #获取到学分
 for item in myItems:
 self.weights.append(item[0].encode('gbk'))
 self.points.append(item[1].encode('gbk'))
 #计算绩点，如果成绩还没出来，或者成绩是优秀良好，就不运算该成绩
 def calculate_date(self):
 point = 0.0
 weight = 0.0
 for i in range(len(self.points)):
 if(self.points[i].isdigit()):
 point += string.atof(self.points[i])*string.atof(self.weights[i])
 weight += string.atof(self.weights[i])
 print point/weight
#调用 
mySpider = SDU_Spider() 
mySpider.sdu_init()