Commits

ouxuedong  committed e20f973

remove file

  • Participants
  • Parent commits 5c6273a

Comments (0)

Files changed (2)

File 爬虫helloworld/hello_fetch.py

-#!/usr/bin/env python
-#coding=utf-8
-
-# 此程序先把www.baidu.com的页面html内容爬取回来
-
-# 用python 的 Urlopen方法,爬取页面html内容
-import urllib2
-
-# 要爬取这个url,你可以自己置换url试试,看看跟ctrl + u看到的页面内容是否一致,以及把内容保存成**.html文件,就能像网页一样显示
-fetch_url = "http://www.baidu.com"
-
-# 开始爬取
-html_content = urllib2.urlopen(fetch_url).read()
-
-# 把爬取结果打印出来
-print html_content
-

File 爬虫helloworld/hello_parse.py

-#!/usr/bin/env python
-#coding=utf-8
-
-# 此程序是hello_fetch.py的进阶,加入了对爬取回来页面的分析,抽取自己需要的内容
-
-# 用python 的 Urlopen方法,爬取页面html内容
-import urllib2
-
-# 使用beautifulsoup解释爬回来的页面,先搜一下beautifulsoup的安装以及使用
-from BeautifulSoup import BeautifulSoup
-
-# 要爬取这个url,你可以自己置换url试试,看看跟ctrl + u看到的页面内容是否一致,以及把内容保存成**.html文件,就能像网页一样显示
-fetch_url = "http://www.baidu.com"
-
-# 开始爬取
-html_content = urllib2.urlopen(fetch_url).read()
-
-# 将单纯的html字符串分解成dom树,可以随意抽取dom树的内容,查一查beautifulsoup的使用,以及安装,好像是:sudo apt-get install python-beautifulsoup ? 你试试。
-parsed_html = BeautifulSoup(html_content)
-
-# 把dom树中的标题打印出来
-print u"这个页面的标题是: "
-print parsed_html.title.text 
-print 
-print u"没错,现在只是拿标题,你可能已经想到了,以后可以拿别人的书,文章,视频,任何东西,然后自己再组织出来显示"