99久久亚洲综合精品成人网,日产乱码卡一卡2卡三卡四多P

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

BeautifulSoup初識(shí)-創(chuàng)新互聯(lián)

本來想用scrapy框架來抓取某個(gè)網(wǎng)站的內(nèi)容，結(jié)果發(fā)現(xiàn)太龐大，要很多時(shí)間來研究。另外，抓取網(wǎng)頁(yè)的代碼部署在SAE上，所以不明白該如何將scrapy框架嵌入到SAE。 BeautifulSoup初識(shí)

所幸要取得網(wǎng)頁(yè)內(nèi)容不是很復(fù)雜，就直接用urllib2來獲取內(nèi)容。

成都創(chuàng)新互聯(lián)公司為企業(yè)級(jí)客戶提高一站式互聯(lián)網(wǎng)+設(shè)計(jì)服務(wù)，主要包括成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作、重慶App定制開發(fā)、小程序設(shè)計(jì)、宣傳片制作、LOGO設(shè)計(jì)等，幫助客戶快速提升營(yíng)銷能力和企業(yè)形象，創(chuàng)新互聯(lián)各部門都有經(jīng)驗(yàn)豐富的經(jīng)驗(yàn)，可以確保每一個(gè)作品的質(zhì)量和創(chuàng)作周期，同時(shí)每年都有很多新員工加入，為我們帶來大量新的創(chuàng)意。

但是取出的內(nèi)容要如何處理，如何才能找到所需要的內(nèi)容。從網(wǎng)上搜索發(fā)現(xiàn)可以用HtmlParser或者BeautifulSoup來獲取，經(jīng)過嘗試之后果斷放棄HtmlParser。

BeautifulSoup：

python中的Beautiful是用Python寫的一個(gè)HTML/XML的解析器，它可以很好的處理不規(guī)范標(biāo)記并生成剖析樹(parse tree)。

下載地址：http://www.crummy.com/software/BeautifulSoup/

下載完成之后，提取文件中的bs4文件夾。拷貝到所需的文件夾路徑下。

具體使用文檔：http://www.crummy.com/software/BeautifulSoup/bs4/doc/

現(xiàn)在來說說我的使用方法：

假定需要解析url的代碼如下：

import urllib2
from bs4 import BeautifulSoup


def catch_url( url ):
  content= urllib2.urlopen( url )
  soup= BeautifulSoup( content )
return soup

然后，使用BeautifulSoup來解析一下京東的主頁(yè)：

def parse360buyContent( content ):
  beauParse ＝ BeautifulSoup( content )

  soup= beauParse.findAll('div',{'id':'life'})
  data= []
  
for con in soup:
    text= con.a['href']
    data.append({'text':text})
  
  
return data

可以看到，解析出的結(jié)果是一個(gè)list，通過for來取出每一個(gè)條目。如果需要取出此條目中的，只要將a做為屬性來取出，而href則需要按字典

類型來取出。

由于用到的地方就這一點(diǎn)，所以未作深入研究，只是做為后續(xù)一個(gè)可查詢的紀(jì)錄。

當(dāng)前標(biāo)題：BeautifulSoup初識(shí)-創(chuàng)新互聯(lián)
標(biāo)題路徑：http://biofuelwatch.net/article/djgdsc.html

新聞中心

其他資訊