第一个python爬虫程序,长期有效

[接活]python爬虫,小活当天达成,先达成义务后给薪俸,价格你控制,短时间有效。

图片 1
在TensorFlow热起来此前,很六人读书python的因由是因为想写爬虫。的确,有着丰硕第三方库的python很适合干那种工作。
Scrapy是一个术数易用的爬虫框架,就算因为互联网多变的复杂性仍旧有不可枚举爬虫必要协调编辑大批量的代码,但亦可有一个相持完善平衡的基础框架,工作或者会少许多。

python 爬虫初试,python爬虫

第一个python爬虫程序,长期有效。python3.5  抓和讯情报的排名榜上的情报,首要用自带的request模块和lxml

import re
from urllib import request
from lxml import etree

testurl="http://news.163.com/rank/"

with request.urlopen(testurl) as f:
    print('Status:', f.status, f.reason)
    #网页的编码格式只取一次,默认所有的编码方式都是这个
    decode=(f.headers['Content-Type'].split(';')[1]).split('=')[1]
    data = f.read().decode(decode.lower())
    infos = re.findall(r'<div class="titleBar" id=".*?"><h2>(.*?)</h2><div class="more"><a href="(.*?)">.*?</a></div></div>', data, re.S)
    for i in range(len(infos)):
        print('%s-%s'%(i,infos[i][0]))
    print('选择新闻类型')
    k=input()
    if k.isdigit()and int(k)<len(infos):
        newpage=(request.urlopen(infos[int(k)][1]).read()).decode(decode.lower())
        dom=etree.HTML(newpage)
        items=dom.xpath('//tr/td/a/text()')
        urls=dom.xpath('//tr/td/a/@href')
        assert (len(items)==len(urls))
        print(len(items))
        for i in range(len(urls)):
            print(items[i])
            new=(request.urlopen(urls[i]).read()).decode(decode.lower())
            ncs=re.findall(r'<div id="endText" class="end-text">.*?</div>',data,re.S)
            newdom=etree.HTML(new)
            newitems=newdom.xpath("//div[@id='endText'and @class='post_text']/p/text()")
            for n in newitems:
                print(n)
            print('=======================输入y继续')
            if 'y'==input():continue
            else:break;

 

爬虫初试,python爬虫 python3.5
抓乐乎音信的排名榜上的新闻,主要用自带的request模块和lxml import re from
urllib import request from lxml import…

首先个python爬虫程序,第三个python爬虫

1.安装Python环境

 
官网

2.IntelliJ Idea安装Python插件

  我用的idea,在工具中一贯搜索插件并设置(百度)

3.安装beautifulSoup插件

  

4.爬虫程序:爬博客园的闪存内容

  

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import urllib2
import time
import bs4

'''ing.cnblogs.com爬虫类'''
class CnBlogsSpider:

    url = "https://ing.cnblogs.com/ajax/ing/GetIngList?IngListType=All&PageIndex=${pageNo}&PageSize=30&Tag=&_="

    #获取html
    def getHtml(self):
        request = urllib2.Request(self.pageUrl)
        response = urllib2.urlopen(request)
        self.html = response.read()

    #解析html
    def analyze(self):
        self.getHtml()
        bSoup = bs4.BeautifulSoup(self.html)
        divs = bSoup.find_all("div",class_='ing-item')
        for div in divs:
            img = div.find("img")['src']
            item = div.find("div",class_='feed_body')
            userName = item.find("a",class_='ing-author').text
            text = item.find("span",class_='ing_body').text
            pubtime = item.find("a",class_='ing_time').text
            star = item.find("img",class_='ing-icon') and True or False
            print '( 头像: ',img,'昵称: ',userName,',闪存: ',text,',时间: ',pubtime,',星星: ',star,')'

    def run(self,page):
        pageNo = 1
        while (pageNo <= page):
            self.pageUrl = self.url.replace('${pageNo}', str(pageNo))+str(int(time.time()))
            print '-------------\r\n第 ',pageNo,' 页的数据如下:',self.pageUrl
            self.analyze()
            pageNo = pageNo + 1

CnBlogsSpider().run(3)

5.执行结果

图片 2

1.安装Python环境
官网
2.Int…

已毕职分包含给多少和次序,你完全令人满足才付薪俸,不用预先支出任何花费。即便不称心,无须支付任何开销。

框架安装

害羞用外人网站作为被爬取的例子,上面从头开头,以本站为例,伊始一个简短的爬虫之旅。
因为习惯原因,本文均以python2作为工作条件。
scrapy框架的设置格外简单,只要一行命令,前提是您曾经有了pip包管理器:

pip install scrapy

发表评论

电子邮件地址不会被公开。 必填项已用*标注

网站地图xml地图