當前位置: 首頁 > Chrome插件推薦 > 推薦六款必備的Python Chrome插件類爬蟲工具

推薦六款必備的Python Chrome插件類爬蟲工具

Chrome插件推薦
 
網絡是由各種數據組成,而python是其中一種的重要組成部分。很多人都不知道Python是什么, Python 是一種面向對象的解釋型計算機程序設計語言,由荷蘭人 Guido van Rossum 于 1989 年發明,第一個公開發行版發行于 1991 年。Python 在設計上堅持了清晰劃一的風格,這使得 Python 成為一門易讀、易維護,并且被大量用戶所歡迎的、用途廣泛的語言。Python 具有豐富和強大的庫。它常被昵稱為膠水語言,能夠把用其他語言制作的各種模塊(尤其是 C/C++)很輕松地聯結在一起。然而想使用Python 我們需要對這些python理論進行實踐。其中包含很多有趣的的過程,然后將其用于某些方面。在日常 PC 端的爬蟲過程工作中,Chrome 瀏覽器是我們常用的一款工具。鑒于 Chrome瀏覽器的強大,Chrome 網上應用商店很多強大的插件可以幫助我們快速高效地進行數據爬蟲。今天小編就給大家介紹六款爬蟲必備Chrome插件可以大大提升我們的爬蟲效率。

爬蟲必備Chrome插件一:EditThisCookie

EditThisCookie插件概述

EditThisCookie插件是一款為谷歌瀏覽器定制的非常強大的一款cookies管理chrome插件,用戶可以利用EditThisCookie添加,刪除,編輯,搜索,鎖定和屏蔽cookies??梢詫⒌卿浐蟮?Cookies 先保存到本地,借助 cookielib 庫,直接爬取登錄后的數據。避免了抓包和模擬登錄,幫助我們快速地進行爬蟲。
爬蟲必備Chrome插件一:EditThisCookie

EditThisCookie插件功能

1.編輯cookies
2. 刪除cookies
3. 添加一個新的cookie
4.創建cookies
5.搜索cookies
6.保護cookies (只讀cookies)
7.攔截cookies (cookie 過濾器)
8.導出cookies為JSON, Netscape cookie 文檔 (非常適合wget及curl), Perl::LPW
9.導入JSON格式cookies
10.限制任何cookie的最大有效期
11.改進性能,移除舊的cookies
12.導入cookies.txt

EditThisCookie插件使用方法

1.下載安裝好EditThisCookie插件后圖標會出現在瀏覽器右上角的插件欄中,點擊插件按鈕
爬蟲必備Chrome插件一:EditThisCookie
2.可以看到當前標簽頁的所有 cookie ,最上面一行的按鈕分別是:刪除、重置、添加、導入、導出、搜索、設置,在這里可以對cookie進行編輯。

爬蟲必備Chrome插件二:Web Scraper

Web Scraper插件概述

Web Scraper 是一款免費的、適用于任何人,包含沒有任何編程基礎的爬蟲工具。只需點擊,點擊,點擊,四步使用者就能通過該插件來建立頁面數據提取規則,從而快速對網頁中需要的內容進行提取,最后還能把抓取的結果導出為Excel可以識別的CSV格式。它支持復雜的網站結構,數據支持文本、連接、數據塊、下拉加載數據塊等各種數據類型。
爬蟲必備Chrome插件二:Web Scraper

Web Scraper插件使用方法

1.下載安裝Web Scraper插件后圖標會出現在瀏覽器右上角的插件欄中,用戶可以先在設置頁面中對該插件的儲存設置和儲存類型功能進行設置。
2.首先要使用該插件來提取網頁數據需要在開發者工具模式中使用,使用快捷鍵Ctrl+Shift+I/F12或者點擊右鍵,選擇“檢查(Inspect)”,在開發者工具下面就能看到WebScraper的Tab。如下圖所示:
爬蟲必備Chrome插件二:Web Scraper
3.新建一個Sitemap。點擊Create New Sitemap,里面有兩個選項,import sitemap是指導入一個現成的sitemap,咱小白一般沒有現成的,所以一般不選這個,選create sitemap 就好。
爬蟲必備Chrome插件二:Web Scraper
4.然后進行這兩個操作:
(1)Sitemap Name:代表你這個Sitemap是適用于哪一個網頁的,所以你可以根據網頁來自命名,不過需要使用英文字母,比如我抓的是今日頭條的數據,那我就用toutiao來命名;
(2)Sitemap URL:把網頁鏈接復制到Star URL這一欄,比如圖片里我把「吳曉波頻道」的主頁鏈接復制到了這一欄,而后點擊下方的create sitemap來新建一個Sitemap。
5.設置這個Sitemap
整個Web Scraper的抓取邏輯是這樣:設置一級 Selector,選定抓取范圍;在一級 Selector 下設置二級 Selector,選定抓取字段后抓取。

爬蟲必備Chrome插件三:Xpath Helper

Xpath Helper插件概述

xpath helper插件是一款免費的chrome爬蟲網頁解析工具??梢詭椭脩艚鉀Q在獲取xpath路徑時無法正常定位等問題。該插件主要能幫助你在各類網站上通過按shift鍵選擇想要查看的頁面元素來提取查詢其代碼,同時你還能對查詢出來的代碼進行編輯,而編輯出的結果將立即顯示在旁邊的結果框中。
爬蟲必備Chrome插件三:Xpath Helper

Xpath Helper插件使用方法

1.下載安裝Xpath Helper插件后圖標會出現在瀏覽器右上方,你可以通過點擊界面右上角的插件圖標來打開插件窗口。打開某個網頁(以搜狐為例)拷貝目標頁面元素的XPATH,如下圖所示:
爬蟲必備Chrome插件三:Xpath Helper
2..點擊瀏覽器右上角xpath-helper圖標 打開xpath-helper工具,并將拷貝的XPATH 復制到 小怕xpath-helper 左邊的輸入框中,右側輸入框將顯示XPATH定位的元素的文本內容.或者點擊 Ctrl + Shift + X 激活 XPath Helper的控制臺,然后您可以在 Query 文本框中輸入相應 XPath 進行調試了,提取的結果將被顯示在旁邊的 Result 文本框中,如下圖所示:
爬蟲必備Chrome插件三:Xpath Helper
3.這樣你就可以優化你的xpath了。
爬蟲必備Chrome插件三:Xpath Helper
 

爬蟲必備Chrome插件四:Toggle JavaScript

Toggle JavaScript插件概述

Toggle JavaScript是一款可以幫助用戶使用chrome插件來切換javascript運行的谷歌瀏覽器插件,在chrome中安裝了Toggle JavaScript插件以后,用戶就可以使用該插件的按鈕,快速地切換chrome的javascript功能,當用戶訪問網頁的時候,受到javascript的“騷擾”時,可以果斷使用Toggle JavaScript禁用到js的運行。

Toggle JavaScript插件使用方法

下載安裝Toggle JavaScript插件后圖標會出現在瀏覽器右上角,Toggle JavaScript插件顯示為一個開關的標志,可以方便地開啟和關閉javascript的運行狀態,如圖所示:
爬蟲必備Chrome插件四:Toggle JavaScript

爬蟲必備Chrome插件五:User-Agent Switcher for Chrome

User-Agent Switcher for Chrome插件概述

User-Agent Switcher for Chrome插件可以在使用Chrome瀏覽器訪問網站的時候來制造一種其他瀏覽器正在訪問該網站的一種“假象”。User-Agent Switcher for Chrome 插件可以很方便的修改瀏覽器的 User-Agent??梢阅M不同的瀏覽器、客戶端,包含 Android、IOS 去模擬請求。對于一些特殊網站,切換 User-Agent 可以更方便地進行數據爬取。
爬蟲必備Chrome插件五:User-Agent Switcher for Chrome

User-Agent Switcher for Chrome插件使用方法

1.下載安裝User-Agent Switcher for Chrome插件
爬蟲必備Chrome插件五:User-Agent Switcher for Chrome
2.安裝完成后圖標會出現在瀏覽器右上方的插件欄中,用戶可以點擊其圖標就可以輕松切換于不同的瀏覽器之間。

爬蟲必備Chrome插件五:User-Agent Switcher for Chrome

爬蟲必備Chrome插件六:JSON-handle

JSON-handle插件概述

JSON-handle 是一款功能強大的 JSON 數據解析 Chrome 插件。它以簡單清晰的樹形圖樣式展現 JSON 文檔,并可實時編輯。針對數據量大的場景,可以做局部選取分析。

爬蟲必備Chrome插件六:JSON-handle

JSON-handle插件使用方法

1.下載安裝JSON-handle插件后圖標會出現在瀏覽器右上角的插件欄中,打開下面網址可以看到JSON-handle啟動的效果:
爬蟲必備Chrome插件六:JSON-handle
2.點擊設置的功能按鈕,我們就進入了此插件的設置界面,里面有中文的設置支持,設置插件支持的語言為中文,設置成中文風格的界面之后,我們就能隨心所欲的試驗各種自己喜歡的風格了,下面是我個人比較喜歡一些設置。
爬蟲必備Chrome插件六:JSON-handle
3..如果數據比較大,這個功能就有用了,一部分一部分的來觀察,這也是化繁為簡,將復雜的東西簡單的化的最基本和核心的思路——分而治之。
爬蟲必備Chrome插件六:JSON-handle

小結

以上就是小編給大家介紹的爬蟲必備Chrome插件,有需要的小伙伴趕快打開電腦試一試吧!也許你還會發現更多python應用。
 

相關插件內容推薦

Web Scraper

辦公插件 2019-11-04 10:17:28

Web Scraper(網站刮板) 是一款免費的、適用于任何人,包含沒有任何編程基礎的爬蟲工具。只需點擊,點擊,點擊,四步使用者就能通過該插件來建立頁面數據提取規則,從而快速對網

花瓣網頁收藏工具

社交插件 2018-05-21 17:23:21

這個擴展程序可以讓你方便地從任意網站上采集喜歡的圖片、視頻或者網頁截圖到花瓣網(huaban.com)上。這是花瓣網官方(huaban.com)提供的擴展。
花瓣網頁收藏工具

花瓣網頁收藏

淘客助手

購物插件 2018-04-21 10:35:09

淘客助手是一款可以查看淘寶商品傭金查詢谷歌瀏覽器插件(應用程序接口程序),當您瀏覽淘寶和天貓商品時可以自動顯示該商品的推廣傭金信息,并繼承了強大的鵲橋商品一鍵查詢功能

WISH標簽提取小工具

購物插件 2019-02-19 11:40:28

WISH標簽提取小工具是一款可以一鍵提取Wish商品Tag的chrome插件,可一鍵提取wish商品的標簽Tag和上架時間,安裝后,在wish產品頁面下點擊圖標即可一鍵提取。

Advanced Web Scraper

開發者插件 2019-11-04 10:17:55

一個簡單,強大的網頁抓取應用程序屏幕抓取使用css選擇器和創建代理的數據抓取工作室軟件。一個非常簡單和高級的數據抓取擴展,使用點擊式css選擇器從網站中提取數據,實時提取

芒果店長

辦公插件 2018-04-11 18:24:52

芒果店長推出的chrome擴展, 支持單品采集、分類采集的用戶輔助工具,支持單品采集和分類采集

Web Scraper v0.3.8

辦公插件 2019-11-04 10:15:37

Web Scraper(網站刮板) 是一款免費的、適用于任何人,包含沒有任何編程基礎的爬蟲工具。只需點擊,點擊,點擊,四步使用者就能通過該插件來建立頁面數據提取規則,從而快速對網

Github linkify for CMSSW

開發者插件 2019-02-17 11:27:57

將C ++和Python在CMSSW中包含在Github上的鏈接中通過將文件路徑轉換為鏈接,使Github上的CMSSW中的C ++和Python文件更容易導航! 不再復制和粘貼了! 也適用于叉子。

貓爪

辦公插件 2019-02-17 11:52:37

貓抓插件是一款支持所有chrome內核瀏覽器安裝的網頁視頻鏈接嗅探抓取的插件??梢栽谌我庹军c抓取任意視頻數據,使用這款插件可以一鍵獲取您需要的鏈接并自動抓取保存。使用起來

貓抓

輔助插件 2019-03-15 17:12:40

網頁媒體嗅探工具
音樂/視頻地址獲取工具...

------------吐槽------------
擴展是被動的獲取,和chrome的F12開發工具一樣沒有去主動獲取,所以有一部分視頻網站無法得到,yout

Instapaper

辦公插件 2019-11-04 10:38:54

Instapaper是一種保存網頁以便稍后閱讀的服務。Chrome 瀏覽器添加該插件后,會在頂部搜索欄的旁邊生成一個按鈕圖標,只要輕輕一點就可以把來不及看或者想要收藏的干貨保存起來。在平

貓爪 v1.3.3

辦公插件 2019-12-04 00:04:14

貓抓插件是一款支持所有chrome內核瀏覽器安裝的網頁視頻鏈接嗅探抓取的插件??梢栽谌我庹军c抓取任意視頻數據,使用這款插件可以一鍵獲取您需要的鏈接并自動抓取保存。

貓抓 v1.0.15

輔助插件 2019-03-15 17:10:58

音樂/視頻地址獲取工具...

2018年6月1日
1.0.15使用download API調用文件下載,以解決下載無法重命名的情況??赡軙崾拘枰聶嘞?,屬正常情況,只要在chrome官方擴展中心安裝的

天津快乐十分钟前三组遗漏 新疆11选5基本走 山西体育彩票11选5开奖 陕西快乐十分拖胆玩法 贵州快3助手 甘肃11选五玩法及奖金 pc蛋蛋真的吗 30选5今天开奖结果53期 江西快3综合走势图 哪个网站可以投注贵州11选5 目前股市大盘分析