織夢系統作為一個比較常用的文章系統,相對來說操作比較容易。在眾多功能中,采集系統可能對于部分新手來說可能是比較頭疼,比如采集區域設置不對、采集規則具體編輯不正確、采集后空白等問題。今天我們就從比較容易遇到的幾個問題來詳細講解下。
首先我們先登錄后臺,分別點擊采集–采集節點管理,進入采集管理設置界面
這里有兩個可以選擇,一個是修改原先的節點(主要是之前設置錯誤導致采集不了或者其他設置),一個是直接新增節點,大部分以新增節點為主,點擊,然后下一步,選擇“普通文章”確認。
然后填寫節點名稱(建議是和欄目相關的名稱,避免導入的時候出錯),這個按實際填就可以了。然后第一個重點:目標頁面編碼 ? 。這個是一定要填寫目標網頁的編碼,非自己網頁的。查看方法:打開目標網站隨便一個頁面,空白地方右鍵-查看源代碼(編碼一般在前幾行)
然后是填寫列表規則,一種是批量生成網址,一般適用于規律比較強的或者需要采集是從上到下的。比如我們是以這個欄目目標的:
第一頁列表:http://youqubu.cn/tansuo/list_5_1.html?
第二頁列表:http://youqubu.cn/tansuo/list_5_2.html。
?這個列表規則最重要的是找相同和不同點,相同點填上去,不同點用匹配符號補充,就是變量。其實這個一對比我們可以知道,http://youqubu.cn/tansuo/list_5_ .html這里都是一樣的,所以變量就是1.2.3.4.。。所以匹配的網址是:
http://youqubu.cn/tansuo/list_5_(*).html。
另一種是列表規則是手工指定列表網址,這個就比較通俗了。就是把你所有需要采集的列表頁填寫上去。(比較適合只采集某幾頁或者變量比較多的頁面)
注意:很多網站的欄目首頁是以http://xxx.xx/xxx/這樣的形式展示的,可以對比以上我們發現,少了后面的變量項。所以找到有變量項的方法是:點擊這個列表的下一頁,如果還弄不清楚就再點擊下一頁,對比列表的第二和第三頁,我們可以同樣發現步驟四的變量項。
這一步是獲取該列表下文章的全部地址,我們要從列表頁中獲取全部的文章頁地址。我們還是以:http://youqubu.cn/tansuo/list_5_1.html列表為例。復制該列表下第一篇文章的標題,然后列表頁空白處右鍵–查看源代碼,按ctrl+F查找,粘貼剛剛復制的標題,定位到該文字源代碼中的位置。其實這個是有一定規律的。然后我們查找源代碼中哪部分代碼是唯一的并且能夠包含列表所有文章地址的(注意:開始代碼查找應該從列表第一篇文章標題開始往上找,結束代碼查找應該從列表第一篇文章標題開始往下找)。通過這個源代碼可知。開始代碼:
- 和結束代碼:
下一步的縮略圖我們可以選擇不采集,因為織夢本身是會把第一張圖片默認為縮略圖的,這個看實際情況。下面是對網址的篩選:包含的意思是:這個步驟六選擇的代碼區間的文章網址只有包含了這部分才會被采集(這里有兩種情況:1。譬如上面演示的地址,它是以超鏈接的形式,不是完整的網址,所以這種情況千萬不要填寫包含。2.就是列表涉及到多個鏈接的,比如標簽這樣的,最好填寫包含,填寫你想要的網址有的,不想要的網址沒有的部分)。然后下一步。這邊會列出因為上面填寫的規則所采集到的列表頁中文章的網址。如果是空白:我們可以先刪除必須包含和不能包含,點擊下一步測試,如果能采集到連接但是很亂,那就是你這步包含相關填錯了;如果這樣操作還是沒有采集到東西,那就是“包含文章網址區域”這步填寫錯了。
分頁規則也主要分兩種:一種是直接填寫默認代碼:{path}{file}_{p}{ext} ?然后選擇分頁列表規則(如下圖)。 ?另一種是打開目標文章頁,找到有上下幾頁的文章,右鍵查看源碼,找到這部分代碼,填寫方式和文章頁網址區域的方法一樣,然后右邊選擇:全部列出的分頁列表。(第二種方法要注意,因為涉及到多頁,填寫首尾代碼的時候一定要多翻幾張,然后查看源代碼,把你認為共同的代碼在多個頁面查找下,因為可能出現你選擇的代碼在首頁是可以找到的,在2.3四頁后面就沒有了,那就說明這個不是公用代碼,你填上去也會導致采集不到分頁的)
分頁設置好后,我們主要設置標題規則和內容規則。時間規則和作者、來源規則這里不細說,這個不是所有人都需要的,這步談到的規則都可以獲取區間的方式得到內容或者填入固定的詞語。首先是標題規則:我們以:http://youqubu.cn/tansuo/362.html。這個文章頁來做說明。我們先復制標題名字,然后在源代碼中查找。示例中查找我們可以發現這里有五個相同的部分,而且沖對比中發現,這個其實是有兩種寫法的。1.完全包含這個文字的代碼區間,不帶其他文字:
。這個很容易就可以寫出規則:
。2.另一種是代碼中包含了該文字,但是還有其他類似的文字混淆。如:
下面的內容也是一樣的道理,這里要注意的是把廣告代碼或者不需要的東西屏蔽掉,這里就要用到“過濾規則”。一般情況下除了IMG這個,其他都可以過濾,如果你連圖片也不要的話,全選即可。
最后點擊保存,開始采集網頁,采集完成后,我們點擊采集-采集節點管理。我們進入后在剛才采集好的節點前面打鉤,然后點擊“導出數據”,選擇你需要導入的欄目,確認即可。(最后一步設置最好設置下重復標題)
更多DedeCMS相關技術文章,請訪問DedeCMS教程欄目進行學習!