免費開源可視化爬蟲軟件 EasySpider
當前位置:點晴教程→知識管理交流
→『 技術文檔交流 』
開源組織無
地區(qū)國產(chǎn)
投 遞 者天際青年
適用人群未知
收錄時間2023-05-22 軟件簡介EasySpider 是一款完全免費和開源的可視化爬蟲軟件,此軟件可以讓大家使用圖形化界面,無代碼可視化的設計和執(zhí)行爬蟲任務。 只需要在網(wǎng)頁上選擇自己想要爬的內(nèi)容并根據(jù)提示框操作即可完成爬蟲設計和執(zhí)行。同時軟件還可以直接在命令行中通過傳參的方式執(zhí)行,從而可以很方便的嵌入到其他系統(tǒng)中。 V0.3.0 版本新增的功能,包括下載圖片,元素截圖,執(zhí)行任意 JS 指令和系統(tǒng)命令,通過 JS 代碼進行條件判斷,OCR 識別等等功能,想要的功能應有盡有,而且這些功能完全免費!??! 以下是示例界面:
下載 EasySpider 進入 Releases Page:https://github.com/NaiboWang/EasySpider/releases 下載最新版本。 視頻教程 1. EasySpider 介紹 - 中國地震臺網(wǎng)采集案例:https://www.bilibili.com/video/BV1Fk4y1L7xX/ 2. 如何無代碼可視化的爬取需要登錄才能爬的網(wǎng)站 - 知乎網(wǎng)站案例:https://www.bilibili.com/video/BV1HV4y1r7v8 3.【重要】自定義條件判斷之使用循環(huán)項內(nèi)的 JS 命令返回值:https://www.bilibili.com/video/BV1mu411x7Nn/ 4. 流程圖執(zhí)行邏輯解析 - 58 同城房源描述采集案例:https://www.bilibili.com/video/BV1YL411z7uW 5. MacOS 系統(tǒng)設計和執(zhí)行 eBay 網(wǎng)站爬蟲任務教程:https://www.bilibili.com/video/BV1WL411h71r 6. 如何執(zhí)行自己寫的 JS 代碼和系統(tǒng)代碼 (自定義操作):https://www.bilibili.com/video/BV1qs4y1z7Hc/ 7. 如何自定義循環(huán)和判斷條件 - 第一彈:https://www.bilibili.com/video/BV1Ys4y1z777/ 8. 如何對元素和網(wǎng)頁截圖及命令行執(zhí)行指南:https://www.bilibili.com/video/BV1dV4y1z764/ 9. OCR 識別元素內(nèi)容功能:https://www.bilibili.com/video/BV1xz4y1b72D/ 10. 如何爬需要輸入驗證碼的網(wǎng)站:https://www.bilibili.com/video/BV18c411K7FH 11. 如何切換 IP 池和使用隧道 IP - 打開詳情頁采集案例:https://www.bilibili.com/video/BV1KT411t79n 文檔 請點此進入教程文檔,如有英文可暫時翻譯一下,或看作者的碩士畢業(yè)論文(主要看第三章和第五章)。 Documentation can be found from GitHub Wiki. 為什么要用 EasySpider 相比其他可視化爬蟲軟件,EasySpider 有以下優(yōu)勢: 1. 代碼開源,因此可以進行二次開發(fā)。 2. 完全免費,不同于八爪魚等軟件的 “免費”,EasySpider 是一個無需登錄,無限多開,無限機器部署的軟件,不需要向作者本人支付一分錢。(當然,EasySpider 受到專利保護,因此如果要商用,還請聯(lián)系浙江大學天道專利事務所)。相比之下,其他軟件的免費有諸多限制,具體可以看他們的價格詳情頁。 3. 安全,所有信息完全保存在用戶本地,包括任務和采集的數(shù)據(jù),不用擔心數(shù)據(jù)泄露問題。 4. 跨平臺:同時支持 Windows,Linux 和 MacOS。 5. 速度快,通常一個爬蟲任務只需要 2-5 分鐘即可設計完成,采集速度也快,通常取決于具體機器環(huán)境。 6. 更加靈活,保存的瀏覽器配置信息更多,最重要的是可擴展,自由的安裝各種插件,比如驗證碼識別插件。 7. 可以直接以命令行的方式執(zhí)行,無限部署在任何想要部署的機器中。 8. 可以在任務流程中執(zhí)行自定義的指令,包括 JavaScript 指令以及系統(tǒng)級別指令,這個是目前所有的可視化爬蟲軟件都做不到或者不愿意做的事情。 9. V0.3.0 版本新增的功能,包括元素截圖,執(zhí)行任意 JS 指令和系統(tǒng)命令,OCR 識別等等功能,想要的功能應有盡有,而且這些功能完全免費!?。?/span> 從需求導向來說,爬蟲算是一項基本的需求,我們經(jīng)常需要去爬一些網(wǎng)上的信息,比如對于科研工作者,爬取維基百科語料庫進行訓練是做 NLP 的同學經(jīng)常做的事情;做社交網(wǎng)絡分析的同學經(jīng)常需要爬取 Twitter 和微博的信息;做推薦系統(tǒng)的同學會去爬購物網(wǎng)站的信息等等。市面上爬蟲需求很多,這里就不在贅述了。有了 EasySpider,不管大家之前會不會寫爬蟲,現(xiàn)在都可以不需要費心費力的寫代碼了。
該文章在 2024/8/21 9:11:57 編輯過 |
關鍵字查詢
相關文章
正在查詢... |