新聞中心

所幸要取得網(wǎng)頁(yè)內(nèi)容不是很復(fù)雜,就直接用urllib2來獲取內(nèi)容。
但是取出的內(nèi)容要如何處理,如何才能找到所需要的內(nèi)容。從網(wǎng)上搜索發(fā)現(xiàn)可以用HtmlParser或者BeautifulSoup來獲取,經(jīng)過嘗試之后果斷放棄HtmlParser。
BeautifulSoup:
python中的Beautiful是用Python寫的一個(gè)HTML/XML的解析器,它可以很好的處理不規(guī)范標(biāo)記并生成剖析樹(parse tree)。
下載地址:http://www.crummy.com/software/BeautifulSoup/
下載完成之后,提取文件中的bs4文件夾。拷貝到所需的文件夾路徑下。
具體使用文檔:http://www.crummy.com/software/BeautifulSoup/bs4/doc/
現(xiàn)在來說說我的使用方法:
假定需要解析url的代碼如下:
import urllib2
from bs4 import BeautifulSoup
def catch_url( url ):
content= urllib2.urlopen( url )
soup= BeautifulSoup( content )
return soup
然后,使用BeautifulSoup來解析一下京東的主頁(yè):
def parse360buyContent( content ):
beauParse = BeautifulSoup( content )
soup= beauParse.findAll('div',{'id':'life'})
data= []
for con in soup:
text= con.a['href']
data.append({'text':text})
return data
可以看到,解析出的結(jié)果是一個(gè)list,通過for來取出每一個(gè)條目。如果需要取出此條目中的,只要將a做為屬性來取出,而href則需要按字典
類型來取出。
由于用到的地方就這一點(diǎn),所以未作深入研究,只是做為后續(xù)一個(gè)可查詢的紀(jì)錄。
當(dāng)前標(biāo)題:BeautifulSoup初識(shí)-創(chuàng)新互聯(lián)
標(biāo)題路徑:http://biofuelwatch.net/article/djgdsc.html