以織夢官方站為例，我們采集站長學院下的php教程欄目，打開列表地址http://www.dedecms.com/web-art/php_jiaocheng。?

dedecms采集怎么用

登錄后臺，進入“采集節點管理”，新建一個節點，選擇內容模型為“普通文章”。?

1.設置節點基本信息? ? （推薦學習：dedecms教程）

先填寫一個方便記憶的節點名稱，選擇目標頁面編碼為GB2312，防盜鏈模式不做設置，因目標站沒做限制，這一項就不做修改，系統默認超時時間10秒。?

2.設置列表網址獲取規則?

這一步我們要做些設置，獲取文章列表地址，回到目標站列表頁，觀察分頁間的變化，可以發現只有“14_”后的數字有規律的遞增變化。?

首頁：http://www.DEDECMS.com/web-art/PHP_jiaocheng/list_14_1.html?

中間：http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_(*).html?

末頁：http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html?

復制一個分頁地址，回到“新增采集節點”頁面，選擇“來源屬性”為“批量生成列表網址”，把粘貼地址到“匹配網址”中，修改規律變化處為(*)，“批量生成地址設置”處(*)輸入1到172，這里的意思是生成出列表第一頁到最后172頁的所有地址。?

測試一下，在彈出框中我們可以看到循環出172條地址記錄，很順利的就設置好了。有時候會碰到較難獲取的列表，那我們可以把把沒規律的地址復制到”手工指定列表網址“文本框中來采集。?

3.設置文章網址匹配規則?

上面指定好了文章地址來源頁，這一步就需要在這些頁面中找出符合要求的文章地址頁了。打開一個列表頁面觀察，左欄的方框中包含了我們需要的全部地址，這種情況區分明顯的頁面，可以利“區域開始的HTML”和“區域結束的HTMLL”設置進行過濾。?

不過也可以使用其他方法。把鼠標移到各處鏈接地址，觀察瀏覽器左下角顯示的完整地址，我們需要的地址都包含“PHP_jiaocheng/20”，那我們把它填寫到“必須包含”中。?

兩種方法都能夠過濾出地址，碰上復雜頁面，可以配合起來使用，加上正則，幾乎沒有篩選不出的地址，與下圖對照。最后確定，進入下一步“網頁內容獲取規則”。

dedecms采集怎么用

4.網頁內容獲取規則?

上面介紹了列表設置的方法，接下來我們進入內容獲取規則的設置，如果說采集是上菜的話，上面一到三步的作用，只是開胃菜為下面的主菜做引。接下來是介紹如何從目標站把文章內容采集過來，這一步是是整個采集中最為核心的部分。?

繼續回到織夢的PHP教程列表，隨便打開一篇列表中的文章，這里我們以《正則表達式》這篇文章為例：http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html ，把該地址復制到“預覽網址”；因為織夢所有文章都沒分頁，所以這里的分頁就無需設置，直接進入“固定的采集項目”頁面?

（注：如果采集的內容含有分頁，只需要將分頁導航部分的匹配規則設置完成即可，這里有全部列出的分頁列表、上下頁形式或不完整的分頁列表根據內容進行設置即可）

以下為引用的內容：

全部列出的分頁列表：分頁內容列出所有的鏈接，如下圖所示

上下頁形式或不完整的分頁列表：單頁顯示當前分頁內容，不完全顯示的列表形式

5. 固定的采集項目?

進入這一步，就開始對頁面源碼進行分析了，采集無非是分析HTML頁面的結構，從而獲取我們所需的內容。所以要求我們對HTML代碼有一定的認識，能通過查看頁面源文件，找出需要的內容，最好多開幾個頁面進行分析，找出相同處。?

推薦大家使用dreamweaver分析。在分析頁面代碼的時候，多使用搜索功能，會方便很多，特別是找到標簽后，搜索一下看有無重復以減少分析錯誤。?

1) 文章標題：這個頁面的標題是“正則表達式”復制下它，在Dreamweaver按Ctrl+F鍵搜索全部，有30項記錄。因為唯一性，這里我們選擇105行這段“