16/10/2012 08:38:28 AM

Cách xử lý lỗi trùng content website

(Lượt xem: 14566)
Rất nhiều mô hình website, đặc biệt là các site thương mại điện tử, bán hàng trực tuyến trong đó luôn có sự trùng lặp nội dung (Duplicate Content); trùng lặp tiêu đề, thẻ title hay thẻ meta description. Mà điều này sẽ ảnh hưởng đến chất lượng đánh giá website từ các seach engine. Do đó, các webmaster cần có những biện pháp cần thiết để khắc phục vấn đề này.

1. Trùng lặp nội dung

 Trùng lặp nội dung (Duplicate Content) là một thuật ngữ được dùng trong SEO, mô tả việc nội dung xuất hiện trên nhiều trang trong cùng một website. Xảy ra trường hợp trùng lặp nội dung là do các nguyên nhân:

 - Khi website chưa được cấu hình đúng ở cấp server, như việc sử dụng không đồng bộ giữa http://www. với http://, hoặc tồn tại nhiều trang chủ dạng domain/ và domain/default.aspx.

 - Khi thiết kế website với URL chứa các tham số truy vấn như mã số theo dõi, track code, id... nhưng đều dẫn về cùng một nội dung. Ví dụ như các cửa hàng trong cùng một site thương mại điện tử sẽ có những bài viết về sản phẩm của họ là giống nhau.

Cách khắc phục

1. Thống nhất sử dụng giữa http://www. và http://

- Sử dụng tập tin .htaccess

Ví dụ bạn muốn sử dụng theo dạng www.domain.com, khi đó hãy sử dụng đoạn mã dưới đây:

code
1
2
3
4
Options +FollowSymLinks
RewriteEngine On
RewriteCond %{HTTP_HOST} ^domain.com$ [NC]
RewriteRule ^(.*)$ http://www.domain.com/ [R=301,L]

- Cấu hình Redirect cho website

Ví dụ, trong IIS bạn có thể tạo ra 2 wesbite với 2 dạng truy cập như trên, khi đó ta chỉ cần cho 1 site redirect trực tiếp về site kia là được.

- Cấu hình Redirect trên trang (giả định bạn muốn sử dụng dạng www.domain.com)

PHP Redirect:

code
1
2
Header( “HTTP/1.1 301 Moved Permanently” );
Header( “Location: http://www.domain.com/” );

ASP.NET Redirect:

code
1
2
3
4
5
6
< script runat=”server”>
private void Page_Load(object sender, System.EventArgs e) {
        Response.Status = “301 Moved Permanently”;
        Response.AddHeader(“Location”,”http://www.domain.com/”);
}
< / script >

2. Sử dụng 301 Redirec

“301 Redirect” là phương pháp chuyển tiếp thông báo cho trình duyệt, người dùng và bọ tìm kiếm rằng trang web đã được di dời đến một địa chỉ khác.

Nếu bạn sở hữu nhiều tên miền nhưng chỉ có một website hoạt động, thì cách tốt nhất nên chỉ cho website đó hoạt động với một tên miền, còn những tên miền còn lại thì cho trỏ trực tiếp về tên miền này. Điều này sẽ giúp cho Google nhận ra site gốc từ các trang nội dung trên website đó. Do đó quá trình index nội dung sẽ không bị phân chia làm giảm chất lượng của site.

3. Sử dụng “noindex, follow”

Sử dụng thẻ meta robots hoặc tập tin robots.txt với giá trị “noindex, follow” để ngăn chặn hoặc cho phép việc đánh chỉ mục của các search engine với những thư mục, tập tin, trang web,… mà bạn muốn Crawler phải thực hiện khi ghé thăm.

4. Sử dụng Webmaster Tool

Một cách hơi thủ công nhưng không kém hiệu quả, đó là sử dụng các công cụ Webmaster Tool để loại bỏ những liên kết được đánh chỉ mục mà có sự trùng lặp về nội dung.

5. Sử dụng Rel="canonical"

Đây là cách tốt nhất và hiệu quả nhất nhưng tất nhiên là bạn phải can thiệp vào mã nguồn của wesbite. Khai báo rel=canonical cho phép xác định link nào là link gốc trong số các nhân bản của nó. Để sử dụng, ta đưa nó vào trong thẻ link và đặt trong phần head của trang web. Ví dụ:

code
1
<link href="http://www.example.com/canonical-version-of-page/" rel="canonical"/>

Thẻ trên báo cho các Search Engine là url hiện tại(có chứa dòng mã ở trên) chỉ là bản sao của url www.example.com/canonical-version-of-page/. Tất cả nội dung và liên kết phải được bỏ qua so với URL đã cho.

Ví dụ dưới đây cho thấy có xuất hiện lỗi trùng lặp nội dung:

code
1
2
3
http://www.simplyhired.com/a/jobs/list/q-software+developer
http://www.simplyhired.com/a/jobs/list/q-Software+developer
http://www.simplyhired.com/a/jobs/list/q-software+Developer

Sự khác nhau giữa các URL trên là ký tự viết hoa của các từ “software” và “developer”. Google sẽ xem 3 URL trên là 3 trang web khác nhau, khi đó sẽ bị đánh dấu là trùng lặp nội dung. Để giải quyết vấn đề này, ta chỉ cần thêm khai báo rel=”canonical” vào trang thứ 2 và thứ 3 trỏ về URL thứ nhất.

  • Mẫu giao diện web thiết kế bởi Topweb
Tài nguyên

Xem tất cả
Tư vấn khách hàng
Điện thoại để được tư vấn tốt nhất
0973668377