網絡技術是從1990年代中期發展起來的新技術,它把互聯網上分散的資源融為有機整體,實現資源的全面共享和有機協作,使人們能夠透明地使用資源的整體能力并按需獲取信息。資源包括高性能計算機、存儲資源、數據資源、信息資源、知識資源、專家資源、大型數據庫、網絡、傳感器等。 當前的互聯網只限于信息共享,網絡則被認為是互聯網發展的第三階段。 一大堆 robot
Google, Yahoo 的搜尋引擎之所以可以搜尋到很多資料,是因為他們時時刻刻都派著 “robot” 在網路上巡邏,Google 的叫 googlebot, MSN 叫 msnbot, Yahoo! 叫 Yahoo Slurp 等等,任務就是捉新的網頁或更新的網頁回去資料中心. 為了隱私之類的原因,國際組織訂有規則,規范 robot 的行為 — 基本上是 robot 要先參考網站根目錄的一個 robots.txt 的檔案,內容寫著 robot 的名稱及禁止捉取的目錄或檔案,例如:
User-agent: abc
Disallow: /not_for_abc/
User-agent: *
Disallow: /secret/
意思是禁止 abc 這個 robot 捉 /not_for_abc/ 目錄,及禁止所有的 robots 捉 /secret/ 目錄. 網站管理者理論上可以將不喜歡的 robot,或是禁止 robot 捉取的目錄或檔案,寫在這個檔案中.
但是這個只防君子不防小人,碰到網路壞爬蟲就沒轍了,有些搜尋引擎的 robot 根本不看網站的robots.txt,就一路抓下去,實在另人發指. 網路壞爬蟲是什么,就是這些不遵守游戲規則,到處亂捉別人網站的內容的壞蛋,這樣會造成網站的流量增加,也就是費用的增加,或是不想被搜尋的資料也被捉走了,侵犯網站的隱私. 很可惡是吧. 下面是幾個例子:
iaskspider 是「愛問」屬於新浪網的 robot,完全不管 robots.txt
QihooBot,也是來自「奇虎網」,浪費帶寬,
另有 larbin,iearthworm,yodaoice,lanshanbot,Outfoxbot 等等一堆,這些不是什么好東西,還有一個 WebClipping.com 不知是好人壞人…
電腦知識學習論壇為電腦初學者的疑難雜癥提供最佳解決方案。電腦基礎知識學習QQ群:81158926 歡迎電腦愛好者加入。
碰到這種網路壞爬蟲,說實在的也沒什么積極的辦法,不能叫網路警察把它捉起來...不過消極的辦法還是有的,把網站門戶看好 — Apache 可以擋住特定 IP,但因為 robots 大多有多重 IP,過濾壞蛋的姓名比較有效,可以用 BrowserMatchNoCase 來過濾,用法像是:
〈directory “/wwwroot“〉
Order allow,deny
Allow from all
BrowserMatchNoCase “iaskspider“ badguy
BrowserMatchNoCase “QihooBot“ badguy
BrowserMatchNoCase “larbin“ badguy
BrowserMatchNoCase “iearthworm“ badguy
BrowserMatchNoCase “Outfoxbot“ badguy
BrowserMatchNoCase “lanshanbot“ badguy
BrowserMatchNoCase “Arthur“ badguy
BrowserMatchNoCase “InfoPath“ badguy
BrowserMatchNoCase “DigExt“ badguy
BrowserMatchNoCase “Embedded“ badguy
BrowserMatchNoCase “EmbeddedWB“ badguy
BrowserMatchNoCase “Wget“ badguy
BrowserMatchNoCase “CNCDialer“ badguy
BrowserMatchNoCase “LWP::Simple“ badguy
BrowserMatchNoCase “WPS“ badguy
deny from env=badguy
〈/directory〉
#如此,它們就會收到 Apache 丟回 403 碼:Forbidden
如此,它們就會收到 Apache 丟回 error 403 碼:Forbidden
但是,有些更沒品的還會隱姓埋名,不敢用真面目見人的 ,…
------------------------
另外
asp 識別
Agent=Request.ServerVariables(“HTTP_USER_AGENT“)
’識別搜索引擎
Dim botlist,i,IsSearch
Botlist=“Google,Isaac,SurveyBot,Baidu,ia_archiver,P.Arthur,FAST-WebCrawler,Java,Microsoft-ATL-Native,TurnitinBot,WebGather,Sleipnir,yahoo,3721,yisou,sohu,openfind,aol“
Botlist=split(Botlist,“,“)
For i=0 to UBound(Botlist)
If InStr(Agent,Botlist(i))〉0 Then
server.transfer “simple.asp“
IsSearch=True
Exit For
End If
Next
網絡的神奇作用吸引著越來越多的用戶加入其中,正因如此,網絡的承受能力也面臨著越來越嚴峻的考驗―從硬件上、軟件上、所用標準上......,各項技術都需要適時應勢,對應發展,這正是網絡迅速走向進步的催化劑。
|