python实现的一个火车票转让信息采集器-范文、应用文-IT技术专栏-脚本栏目-考试资料-在线学习网

网站首页汉语字词英语词汇考试资料写作素材旧版资料

标题	python实现的一个火车票转让信息采集器
内容	这篇文章主要介绍了python实现的一个火车票转让信息采集器,采集信息来源是58同程或者赶集网,需要的朋友可以参考下。 #coding: utf-8 ''' 春运查询火车票转让信息 author: piglei2007@gmail.com date: 2011.01.25 ''' import re import os import time import urlparse import datetime import traceback import urllib2 import socket socket.setdefaulttimeout(20) blank_re = re.compile(r\s+) opener = urllib2.build_opener(urllib2.httpcookieprocessor()) opener.addheaders = [ (user-agent, mozilla/5.0 (x11; u; freebsd i386; en-us; rv:1.9.1) gecko/20090704 firefox/3.5), (accept, /), ] urllib2.install_opener(opener) from beautifulsoup import beautifulsoup source = { 58: http://bj.58.com/huochepiao/?num=%(train)s&starttime=%(date)s00, ganji: http://bj.ganji.com/piao/cc_%(train)s/%(date)s/, } record_file = /tmp/ticket_records.txt def parse_record(): try: return set([x.strip() for x in open(record_file, r).readlines()]) except ioerror: open(record_file, w) return set() def flush_record(records): open(record_file, w).write(\n.join(records)) def main(config): 开始抓取 existed = parse_record() to_email = [] for train in config[trains]: for date in config[dates]: for type, _url in source.items(): url = _url % dict(train=train, date=date) content = urllib2.urlopen(url).read() soup = beautifulsoup(content) result = parse_content(type, soup, train) for url, text in result: url = urlparse.urljoin(_url, url) # 只要卧铺！ if url not in existed and u卧 in text: to_email.append([text, url]) existed.add(url) if to_email: content = .join( [x for x in [ \| .join(y) for y in to_email]] ).encode(utf-8) simple_mail(config[people], content) flush_record(existed) def parse_content(type, soup, train): 获得车次信息 result = [] if type == 58: info_table = soup.find(table, id=infolist) if info_table: for x in info_table.findall(tr, text=re.compile(ur%s(?!时刻表) % train, re.i)): a = x.parent _text = blank_re.sub(, a.text) result.append([a[href], _text]) if type == ganji: for x in soup.findall(dl, {class: list_piao}): a = x.dt.a result.append([a[href], a.text]) return result email_host = 'smtp.sohu.com' email_host_user = 'yourname@sohu.com' email_host_password = 'yourpassword' email_port = 25 def simple_mail(to, content): 发送邮件 import smtplib from email.mime.text import mimetext msgroot = mimetext(content, 'html', 'utf-8') msgroot['subject'] = [%s]有票来啦！！！！ % datetime.datetime.today().isoformat( ) msgroot['from'] = email_host_user msgroot['to'] = , .join(to) s = smtplib.smtp(email_host, email_port) s.login(email_host_user, email_host_password) s.sendmail(email_host_user, to, msgroot.as_string()) s.close() def switch_time_zone(): 切换时区 os.environ[tz] = asia/shanghai time.tzset() switch_time_zone() if __name__ == '__main__': config = { trains: (k471,), dates: (20110129,), people: ( youremail@sohu.com, ) } try: main(config) print %s: ok % datetime.datetime.today() except exception, e: print traceback.format_exc()然后放入cron，你懂的。
随便看	2016年广安市特岗教师招聘空缺岗位表新乡市延津县2016年新招聘特岗教师岗前培训公告新乡卫辉市2016年特岗教师招聘岗前培训公告 2016年鹤壁市淇县特岗教师招聘递补及岗位调整设置平顶山市鲁山县2016年特岗教师岗前培训公告 2016年开封市兰考县特岗教师招聘网上培训公告(5) 平顶山市宝丰县2016年特岗教师岗前集中培训通知平顶山舞钢市教育局2016年特岗培训通知 2016年许昌市禹州市递补公告焦作市武陟县2016年特岗教师招聘岗位调整公告 2016年焦作市博爱县特岗教师招聘递补公告 2016年乐山市市中区招聘特岗教师拟聘人员选岗及签订协议通知保山市龙陵县2016年特岗教师选岗通知新乡市原阳县2016年特岗教师培训公告 2016年开封市兰考县特岗教师招聘公告(4) 周口市淮阳县2016年特岗教师培训及协议签约补充通知平顶山市叶县2016年特岗招聘岗前集中培训通知郏平顶山市县2016年特岗教师招聘岗前培训及签订协议公告驻马店市上蔡县2016年特岗教师签约公告新乡市获嘉县2016年新招聘特岗教师岗前培训公告焦作市武陟县教育局2016年特岗教师招聘拟聘用人员签约和培训有关事宜通知安阳市滑县2016年新招聘特岗教师岗前集中培训通知 2016年新乡市延津县特岗教师招聘递补公告 2016年乐山市市中区招聘特岗教师递补体检结果公告赣州市龙南县2016年招聘特岗教师补岗面试公告 ponderosa pine ponderosa pine ponderosa-pine ponderous ponderously pond life pond-life pond scum pond-scum pong 膝膞膟膠膡膢膣膤膥膦我的愿望四年级作文学四年级春节联欢会作文学四年级春节联欢会作文家乡的小河四年级作文5篇家乡的小河四年级作文5篇珍惜时间四年级作文珍惜时间四年级作文优秀四年级作文大全端午节学生四年级优秀作文端午节学生四年级优秀作文

在线学习网考试资料包含高考、自考、专升本考试、人事考试、公务员考试、大学生村官考试、特岗教师招聘考试、事业单位招聘考试、企业人才招聘、银行招聘、教师招聘、农村信用社招聘、各类资格证书考试等各类考试资料。