- N +

URL規范化設置

URL 規范化(url normalization)其實就是一個標準化 URL 的過程,URL 規范化用于搜索引擎可以減少對頁面的重復索引,同時也可以減少爬蟲的重復抓取。瀏覽器端識別用戶是否訪問過一個 URL 也需要使用 URL 規范化。

一個網站的 URL 在搜索引擎的搜索結果中,是能夠展示出來的,我們在做網站之前,最好要提前將目錄的文件名做好規劃。以便我們在做 SEO 的同時做好用戶體驗。所選擇的 URL 最好能做到清晰、方便記憶的的效果,然后可以考慮其中的排名。下面子凡就從三個大方面開始探討咯!

一、URL 規范化注意事項

1.網站的 URL 越短越好,URL 的長度不超過 1000 個字節就可以被搜索引擎收錄,但是這幾百個字母需要用戶記住的話也是很難的,因此我們選擇的 URL 越短越好,最好方便用戶去記住這個 URL。

2.URL 中避免出現太多參數,在一些開源的程序中,會出現很多種參數,一旦參數越多,會影響引擎蜘蛛的識別,很容易使網站進入蜘蛛陷阱。為了避免這種情況,建議大家盡量使用靜態的 URL 或者偽靜態的 URL。

3.目錄層級越少越好,減少網站的深層次目錄,有助于網頁的收錄。如果是門戶網站或者大型的網站,如果目錄太深的話,可以選擇使用 2 級域名來代替很深層級的目錄。

4.具有很強的描述性,每一文件和目錄具有描述性。

5.URL 中包含關鍵詞,在一個 URL 中包含關鍵詞可以提高頁面相關性,比如目錄可以用拼音或者英文來命名,搜索引擎會識別目錄的英文含義。

6.字母全部小寫,網站里面的字母盡量要使用小寫字母。

7.連接符的使用,文字、鏈接符之間的鏈接一般要使用連接符或者橫線。

二、不規范的 URL(示例)

1 URL 中多余的字符

1.1 子域名的 URL 中包含"www": "http://www.blog.leiue.com/"

1.2 含有默認端口: "http://www.leiue.com:80/tech/"

1.3 松散的 URL: "http://www.leiue.com/tech/amazon-sucks-donkey-balls/9780470170779-item.html"

1.4 多余默認文件名 index.html,default.php 等:"http://www.leiue.com/tech/index.html"

1.5 文件路徑中

(1) 多余的"/":"http://www.leiue.com/tech//"

(2) 多余的點修飾串:"http://www.leiue.com/a/b/../page.html"

1.6 查詢串中多余的

(1) ? (空查詢串):http://www.leiue.com/tech?

(2) &

(3) 無用的查詢變量:http://www.leiue.com/display?id=123&fake=fake

2 URL 缺少字符串

2.1 缺少"/":"http://www.leiue.com/tech"

2.2 查詢串缺少名稱或者值:"http://www.leiue.com/display?id=" 或者 "http://www.leiue.com/display?=123"

3 其他不規范的 URL

3.1 "http://tech.leiue.com/" 與 "http://www.leiue.com/tech/"其實是相同的內容

3.2 使用 IP 代替域名

3.3 含有擴充字符(extended characters),大小寫敏感("http://www.google.cn/Intl/zh-CN/about.html" 和"http://www.google.cn/intl/zh-CN/about.html")

3.4 "+"和"%20"混用

3.5 查詢變量順序混亂:"http://www.leiue.com/test.php?bar=1&a=test"

3.6 含臨時的狀態變量:http://www.leiue.com/test?back=/go.php

三、URL 規范化設置

URL 組成:

protocol :// hostname[:port] / path / [;parameters][?query]#fragment

協議://主機名[:端口]/ 路徑/[:參數] [?查詢]#fragment

URL 規范化過程:

1.URL 協議名和主機名小寫化

HTTP://WWW.EXAMPLE.com/test -> http://www.example.com/test

2.escape 序列轉化為大寫,因為 escape 序列大小敏感%3a ->%3A

3.刪除 Fragment(#)

http://www.example.com/test/index.html#seo -> http://www.example.com/test/index.html

4.刪除空查詢串的'?'

http://www.example.com/test? -> http://www.example.com/test

5.刪除默認后綴

http://www.example.com/test/index.html -> http://www.example.com/test/

6.刪除多余的點修復符

http://www.example.com/../a/b/../c/./d.html -> http://www.example.com/a/c/d.html

7.刪除多余的"www"

http://www.test.example.com/ -> http://test.example.com/

8.對查詢變量排序

http://www.example.com/test?id=123&fakefoo=fakebar → http://www.example.com/test?id=123

9.刪除取默認值的變量

http://www.example.com/test?id=&sort=ascending → http://www.example.com/test

10.刪除多余的查詢串,如?,&

http://www.example.com/test? → http://www.example.com/test

11.Dust 規則

http://www.example.com/test?id=123 -> http://www.example.com/test_123

四、URL 防止重復設置技巧

舉個常見的來例子來說,下面這幾個 URL 一般來說指的是同一個文件或網頁:

http://www.domain.com
http://domain.com
http://www.domain.com/index.html
http://domain.com/index.html

從技術上分析這是四個不同的地址,而在實際的使用過程中,被大多數人當作是一個地址使用著,所以在這個時候我們就需要做好設置,否則網站將會出現大量的重復。

相信這個對于很多人來說并不陌生,因為這些常常被一些人忽略,或者是有些人自作聰明,為了讓搜索引擎更多的抓取網站頁面,甚至有的站長還把幾個域名解析到同一個主機,總覺這樣可以提升收錄,其實不然,搜索引擎又不傻,重復的多了,就是被索引,也沒有什么排名,反而徒勞無功。

所以遇見這樣的問題我們就需要確定網站的一個主域名,而像淚雪博客的就是使用的沒有 www 的域名,所以就算你輸入 www 訪問也會自動跳轉到沒有 www 的域名上面,而像之前淚雪博客還使用過一個二級域名,現在依然是做了301 跳轉的,從而確定網站主域名,確保網站內容 URL 的唯一性。

寫在最后:不規范的 URL 會造成網站很多重復的 URL,導致爬蟲重復抓取同一內容,影響網站有效的內容被抓取,同時也就影響索引。多個不規范 URL 造成頁面權重稀疏,本來流向同一頁面的權重,結果造成了流向多個不規范的 URL。還有一個用戶體驗問題,復雜或者不規范的 URL 容易使用戶對網站造成不良印象。


返回列表
上一篇:什么是橋頁
下一篇:什么是蜘蛛池