Asp.net/C#網(wǎng)頁數(shù)據(jù)采集
當前位置:點晴教程→知識管理交流
→『 技術(shù)文檔交流 』
早在以前就聽說過數(shù)據(jù)采集這個神奇的功能,當時對這個是多么的奢望啊。 ~00~,后來想要給自己開個采集的網(wǎng)站,就想到了整個電影的采集站。 在好奇的動力下,開始瘋狂的查閱以及學習關(guān)于網(wǎng)頁采集,數(shù)據(jù)采集等相關(guān)信息。不過網(wǎng)上大部都是asp的和php的,關(guān)于.net的很少。無奈之下只要硬著頭皮學習。經(jīng)過幾天的努力,最終還是給我研究出來了。心里還是挺高興的襖。其實網(wǎng)頁采集也沒有用到什么高深的技術(shù),都是些普普通通的技術(shù),只不過效果比較神奇,就會讓人感覺到整個都比較深奧,如果你想學習.net的數(shù)據(jù)采集,以及思路,那么請看完。 數(shù)據(jù)采集大體可以分為兩部曲: 一部曲: 因為要采集別人網(wǎng)頁上的內(nèi)容,所有我們先要得到要采集網(wǎng)頁上的html代碼,獲取html代碼還是比較簡單。利用WebClient的DownloadData(url)得帶byte數(shù)組,然后在轉(zhuǎn)換成string字符串。 具體代碼如下: /// <summary> /// 獲取網(wǎng)頁源代碼 /// </summary> /// <param name="url">URL路徑</param> /// <param name="encoding">編碼方式</param> public string GetHTML(string url, string encoding) { WebClient web = new WebClient(); byte[] buffer = web.DownloadData(url); return Encoding.GetEncoding(encoding).GetString(buffer); } 二部曲: 現(xiàn)在我們得到了目標網(wǎng)頁的html代碼,那么我們就開始時得扣取我們想要的數(shù)據(jù)。扣取數(shù)據(jù)無疑就要用到強大的正則表達式了。利用正則表達式的匹配來獲取我們要的內(nèi)容,這里可以過濾掉制定的html代碼,剩下的就是內(nèi)容了。 具體代碼如下: Html html = new Html(); //得到指定頁面的html代碼,第一個參數(shù)為url(貌似都知道),第二個是目標網(wǎng)頁的編碼集 string htmlCode = html.GetHTML("http://gvod.tom59.cn/List.asp?ClassId=3", "gb2312"); //正則表達式 Regex regexarticles = new Regex("<td\\s+height=\"\\d+\"><a\\s+href=\".+DataId=(?<id>\\d+)\"\\s+target=\"_blank\">(?<title>.+)</a>.*</td>"); //所有匹配表達式的內(nèi)容 MatchCollection marticles = regexarticles.Matches(htmlCode); ///遍歷匹配內(nèi)容 foreach (Match m in marticles) { Console.Write("標題:" + m.Groups["title"].Value+"\n"); Console.Write("id:" + m.Groups["id"].Value + "\n"); Console.Write("\n"); } 以上就是采集數(shù)據(jù)的核心代碼,關(guān)于正則表達式我在這里就不詳細講解了(其實正則表達式我也是菜鳥哈)。 該文章在 2021/1/29 18:17:01 編輯過 |
關(guān)鍵字查詢
相關(guān)文章
正在查詢... |