dedecms采集怎么用

以織夢官方站為例,我們采集站長學院下的php教程欄目,打開列表地址http://www.dedecms.com/web-art/php_jiaocheng。?

dedecms采集怎么用

登錄后臺,進入“采集節點管理”,新建一個節點,選擇內容模型為“普通文章”。?

1.設置節點基本信息? ? (推薦學習:dedecms教程

先填寫一個方便記憶的節點名稱,選擇目標頁面編碼為GB2312,防盜鏈模式不做設置,因目標站沒做限制,這一項就不做修改,系統默認超時時間10秒。?

2.設置列表網址獲取規則?

這一步我們要做些設置,獲取文章列表地址,回到目標站列表頁,觀察分頁間的變化,可以發現只有“14_”后的數字有規律的遞增變化。?

首頁:http://www.DEDECMS.com/web-art/PHP_jiaocheng/list_14_1.html?

中間:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_(*).html?

末頁:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html?

復制一個分頁地址,回到“新增采集節點”頁面,選擇“來源屬性”為“批量生成列表網址”,把粘貼地址到“匹配網址”中,修改規律變化處為(*),“批量生成地址設置”處(*)輸入1到172,這里的意思是生成出列表第一頁到最后172頁的所有地址。?

測試一下,在彈出框中我們可以看到循環出172條地址記錄,很順利的就設置好了。有時候會碰到較難獲取的列表,那我們可以把把沒規律的地址復制到”手工指定列表網址“文本框中來采集。?

3.設置文章網址匹配規則?

上面指定好了文章地址來源頁,這一步就需要在這些頁面中找出符合要求的文章地址頁了。打開一個列表頁面觀察,左欄的方框中包含了我們需要的全部地址,這種情況區分明顯的頁面,可以利“區域開始的HTML”和“區域結束的HTMLL”設置進行過濾。?

不過也可以使用其他方法。把鼠標移到各處鏈接地址,觀察瀏覽器左下角顯示的完整地址,我們需要的地址都包含“PHP_jiaocheng/20”,那我們把它填寫到“必須包含”中。?

兩種方法都能夠過濾出地址,碰上復雜頁面,可以配合起來使用,加上正則,幾乎沒有篩選不出的地址,與下圖對照。最后確定,進入下一步“網頁內容獲取規則”。

dedecms采集怎么用

4.網頁內容獲取規則?

上面介紹了列表設置的方法,接下來我們進入內容獲取規則的設置,如果說采集是上菜的話,上面一到三步的作用,只是開胃菜為下面的主菜做引。接下來是介紹如何從目標站把文章內容采集過來,這一步是是整個采集中最為核心的部分。?

繼續回到織夢的PHP教程列表,隨便打開一篇列表中的文章,這里我們以《正則表達式》這篇文章為例:http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html ,把該地址復制到“預覽網址”;因為織夢所有文章都沒分頁,所以這里的分頁就無需設置,直接進入“固定的采集項目”頁面?

(注:如果采集的內容含有分頁,只需要將分頁導航部分的匹配規則設置完成即可,這里有全部列出的分頁列表、上下頁形式或不完整的分頁列表根據內容進行設置即可)

以下為引用的內容:

全部列出的分頁列表:分頁內容列出所有的鏈接,如下圖所示

上下頁形式或不完整的分頁列表:單頁顯示當前分頁內容,不完全顯示的列表形式

5. 固定的采集項目?

進入這一步,就開始對頁面源碼進行分析了,采集無非是分析HTML頁面的結構,從而獲取我們所需的內容。所以要求我們對HTML代碼有一定的認識,能通過查看頁面源文件,找出需要的內容,最好多開幾個頁面進行分析,找出相同處。?

推薦大家使用dreamweaver分析。在分析頁面代碼的時候,多使用搜索功能,會方便很多,特別是找到標簽后,搜索一下看有無重復以減少分析錯誤。?

1) 文章標題:這個頁面的標題是“正則表達式”復制下它,在Dreamweaver按Ctrl+F鍵搜索全部,有30項記錄。因為唯一性,這里我們選擇105行這段“

正則表達式

”標簽,復制到“固定采集項目”文章標題的匹配規則中,并用關鍵字“[內容]”替換標題,最終為

[內容]

。?

2) 作者:以作者為關鍵字繼續搜索,只有110行有唯一的出現,連同alluse前后的標簽一起復制到匹配規則中,使用[內容]替換要采集處。?

3) 來源:同上操作在109行找到標簽,復制過去,使用[內容]替換要采集處。若來源包含超鏈接標簽想去掉,則在過濾規則框,填寫如下規則過濾掉:?

<a([^>]*)> <br/></a><br/>

4) 發布時間:同上操作在111行處進行復制粘貼和修改。?

5) 文章內容:搜索文章內容的開始部分,例如“第一部分”在118行發現目標,點擊狀態欄

發現未能全部選中文章內容,繼續前一個

,藍色內容選中全部內容,知道

為文章內容的真正容器。復制內容前后標簽,到匹配規則中。?

至此,內容的過濾都設置都完成了。

6. 節點采集?

如果你的采集節點是一氣呵成而且測試成功的話,按提示點擊按鈕,就可以直接采集了,但是節點是之前寫的,就需到“節點管理頁”勾選需采集節點,按“采集”按鈕進行采集了。若你想采集所有節點的新內容,那就到監控采集頁面進行操作吧。?

每頁采集可以設置每頁采集的數據條數,一般來說不要設置太大,否則有可能導致系統處理不過來而部分采集不到,建議別超過15。?

線程數是指每次有多少個線程同時進行采集,線程數的增加可以加快采集速度,但相應的會增加服務器資源的占用,所以請慎用。假若目標站點有防刷新限制,此處就可以根據目標站點的防刷新限制時間進行設置,假如沒有就默認0秒可以了。?

附加選項這三個設置從字面上應該可以很容易理解,這就根據你的實際需要進行選擇了。?

采集完成。

更多WordPress相關技術文章,請訪問dedecms教程欄目進行學習!

? 版權聲明
THE END
喜歡就支持一下吧
點贊8 分享