博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
课堂训练(网络爬虫)
阅读量:6620 次
发布时间:2019-06-25

本文共 1416 字,大约阅读时间需要 4 分钟。

一、爬取校园新闻 import requests   from bs4 import BeautifulSoup url = requests.get("http://news.gzcc.cn/html/xiaoyuanxinwen/")url.encoding = "utf-8"soup = BeautifulSoup(url.text,'html.parser')#print(soup.head.title.text) for news in soup.select('li'):    if len(news.select('.news-list-title'))>0:        #print(news.select('.news-list-title'))                  #print(news.select('.news-list-title')[0])               #print(news.select('.news-list-title')[0].text)          time = news.select('.news-list-info')[0].contents[0].text         title = news.select('.news-list-title')[0].text                   href = news.select('a')[0]['href']                                href_text = requests.get(href)                                    href_text.encoding = "utf-8"        href_soup = BeautifulSoup(href_text.text,'html.parser')        href_text_body = href_soup.select('.show-content')[0].text        print(time,title,href,href_text_body)

  

二、爬取自己兴趣的网页import requestsfrom bs4 import BeautifulSoupjq='http://www.gamersky.com/pcgame/'res = requests.get(jq)res.encoding='utf-8'soup = BeautifulSoup(res.text,'html.parser')for news in soup.select('li'):    if len(news.select('a'))>0:        title=news.select('a')[0].text        url=news.select('a')[0]['href']        #time=news.select('span')[0].contents[0].text        #print(time,title,url)        print(title,url)

  

  

转载于:https://www.cnblogs.com/55lsk/p/7605178.html

你可能感兴趣的文章
[俗一下]世界500强公司的面试问题与答案提示 [转]
查看>>
使用 Excel Services ,结合 Analysis Services 在 SharePoint 中发布报表
查看>>
SQL Server数据导入导出技术概述与比较
查看>>
format的用法
查看>>
DHCPv6 server port and DHCPv6 client port
查看>>
10个最佳的触控手式的JavaScript框架(转)
查看>>
BitmapFactory.Options避免 内存溢出 OutOfMemoryError的优化方法
查看>>
Python中通过Image的open之后,去show结果打不开bmp图片,无法正常显示图片
查看>>
DNGuard 免费的DotNet加密保护工具 V1.0
查看>>
编程中的命名设计
查看>>
easyui form validate总是返回false原因
查看>>
在(CListView)列表视图中添加右键菜单的方法
查看>>
打SharePoint 2010 SP1后访问用户配置文件同步服务应用程序出错的解决办法
查看>>
推荐《HeadFirst设计模式》
查看>>
Android中的onActivityResult和setResult方法的使用
查看>>
word双栏排版,最后一页由于分节符造成最后一页是空白页,删除分节符双栏就变成了单栏...
查看>>
手机web不同屏幕字体大小高度自适应
查看>>
服务器端口及连接及应用程序间的关系
查看>>
Android监听HOME键的最简单的方法
查看>>
Java 数组
查看>>