wp-autopost是目前最好用的wordpress自動采集發布插件,最大的特點是可以采集來自于任何網站的內容并自動發布到你的WordPress站點。
不像其他大部分WordPress采集插件,只能根據Feed進行采集,使用Feed采集有很大的弊端,首先必須找到全文Feed,而現在網上全文Feed很少,大部分只能采集到文章摘要,就算使用Feed采集到文章摘要也需要點擊鏈接才能查看原文,相當于給別的網站做外鏈。
做英文垃圾站用的比較多的WP-Robot也只有20幾個采集來源,文章來源比較單一有限。
而WP-AutoPost就沒有上面這些劣勢,真正做到可以采集任何網站的內容并自動發布,采集過程完全自動進行無需人工干預,并提供內容過濾、html標簽過濾、關鍵詞替換、自動鏈接、自動標簽、自動下載遠程圖片到本地服務器、自動添加文章前綴后綴、并且可以使用微軟翻譯引擎將采集的文章自動翻譯為各種語言進行發布。
WP-AutoPost中文免費下載地址:https://www.xuewangzhan.net/cj/11379.html?(官網地址:http://wp-autopost.org/zh)
一、安裝WP-AutoPost
和安裝其他WordPress插件一樣,直接上傳到插件目錄,激活即可使用,無需再進行額外設置或修改代碼。
二、創建采集任務
點擊“新建任務”后,輸入任務名稱,即可創建新任務,創建好新任務之后可以在任務列表中查看到該任務,就可對該任務進行更多設置。
三、基本設置功能
在基本設置選項卡下,可以進行如下設置:
任務名稱:可以修改任務名稱分類目錄:該任務采集文章發布到的分類目錄作者:該任務采集文章的發布作者,必須是WordPress里的注冊用戶更新時間間隔:間隔多長時間檢測一次該采集任務下是否有新文章可以更新字符集:采集目標網站的字符集編碼,默認為UTF8,如果目標網頁字符集編碼不是UTF8,抓取的網頁會出現亂碼,設置正確的字符集即可解決該問題(如何正確設置字符集)下載遠程圖片:如果該任務下采集的文章里包含圖片,可以選擇是否下載遠程圖片到本地服務器,選擇下載遠程圖片,可進一步選擇是否將下載的圖片信息保存到WordPress媒體庫中自動標簽:選擇是否使用自動標簽標簽列表:使用自動標簽后如果文章包含列表里的關鍵詞,將自動添加標簽匹配完整的單詞:該設置對英文文章有效,中文文章請勿啟用該設置
四、文章來源設置
在該選項卡下我們需要設置文章來源的?文章列表網址及?具體文章的匹配規則
我們以采集“新浪互聯網新聞”為例,文章列表網址為http://roll.tech.sina.com.cn/internet_worldlist/index.shtml?因此在 手工指定文章列表網址 中輸入該網址即可,如下所示:
之后需要設置該文章列表網址下具體文章網址的匹配規則
相關推薦:《WordPress教程》
五、文章網址匹配規則
文章網址匹配規則的設置非常簡單,無需復雜設置,提供兩種匹配模式,可以使用URL通配符匹配,也可以使用css選擇器進行匹配,通常使用URL通配符匹配較為簡單。
1. 使用URL通配符匹配
通過點擊列表網址?http://roll.tech.sina.com.cn/internet_worldlist/index.shtml?上的文章,我們可以發現每篇文章的URL都為如下結構
http://tech.sina.com.cn/i/2013-06-27/16328485884.shtml
因此將URL中變化的數字或字母替換為通配符?(*)?即可,如:http://tech.sina.com.cn/i/(*)/(*).shtml
2. 使用CSS選擇器進行匹配
使用CSS選擇器進行匹配,我們只需要設置?文章網址的CSS選擇器?即可(不知道CSS選擇器為何物,一分鐘學會如何設置CSS選擇器),通過查看列表網址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 的源代碼即可輕松設置,找到該列表網址下具體文章的超鏈接的代碼,如下所示:
可以看到,文章的超鏈接a標簽在class為“contList”的標簽內部,因此?文章網址的CSS選擇器?只需要設置為.contList a ?即可,如下所示:
設置完成之后,不知道設置是否正確,可以點擊上圖中的測試按鈕,如果設置正確,將列出該列表網址下所有文章名稱和對應的網頁地址,如下所示:
六、文章抓取設置
在該選項卡下,我們需要設置文章標題和文章內容的匹配規則,提供兩種方式進行設置,推薦使用CSS選擇器方式,使用該方式更為簡單,精確。(不知道CSS選擇器為何物,一分鐘學會如何設置CSS選擇器)
我們只需要設置文章標題CSS選擇器和文章內容CSS選擇器,即可準確抓取文章標題和文章內容。
在文章來源設置里,我們以采集”新浪互聯網新聞“為例,這里還是以該例子講解,通過查看列表網址 http://roll.tech.sina.com.cn/internet_worldlist/index.shtml 下某一篇文章的源代碼即可輕松設置,例如,我們通過查看某篇具體文章 http://tech.sina.com.cn/n/i/2013-06-10/06308430630.shtml 的源代碼,如下所示:
可以看到,文章標題在id為“artibodyTitle”的標簽內部,因此文章標題CSS選擇器只需要設置為#artibodyTitle?即可;
同樣的,找到文章內容的相關代碼:
可以看到,文章內容在id為“artibody”的標簽內部,因此文章內容CSS選擇器只需要設置為?#artibody?即可;如下所示:
設置完成之后,不知道設置是否正確,可點擊測試按鈕,輸入測試地址,如果設置正確,將顯示出文章標題和文章內容,方便檢查設置
七、抓取文章分頁內容
如果文章內容過長,有多個分頁同樣可以抓取全部內容,這時需要設置文章分頁鏈接CSS選擇器,通過查看具體文章網址源代碼,找到分頁鏈接的地方,例如某篇文章分頁鏈接代碼如下:
可以看到,分頁鏈接A標簽在class為 “page-link” 的標簽內部
因此,文章分頁鏈接CSS選擇器設置為?.page-link a?即可,如下所示:
如果勾選當發表時也分頁時,發表文章也將同樣被分頁,如果你的WordPress主題不支持 標簽,請勿勾選。
八、文章內容過濾功能
文章內容過濾功能,可過濾掉正文中不希望發布的內容(如廣告代碼,版權信息等),可設置兩個關鍵詞,刪除掉兩個關鍵詞之間的內容,關鍵詞2可以為空,表示刪除掉關鍵詞1之后的所有內容。
如下所示,我們通過測試抓取文章后發現文章里有不希望發布的內容,切換到HTML顯示,找到該內容的HTML代碼,分別設置兩個關鍵詞即可過濾掉該內容。
如果需要過濾掉多處內容,可以添加多組設置。
九、HTML標簽過濾功能
HTML標簽過濾功能,可過濾掉采集文章中的超鏈接(例如a標簽)。