Google 对于重复内容(Duplicate Content)或重复页面(Duplicate Pages)并不会对其进行排名惩罚,只要不要是刻意的诈欺、欺骗内容,意图影响搜索引擎的排名,网站当中出现重复内容(Duplicate content)或重复页面(Duplicate Page)实质上不会导致你的排名下降。
不过,一旦你的“重复内容”是涉及到欺骗的行为,那么后果就不仅仅是排名下降,而是会直接遭到 Google 将你的网站直接从搜索结果当中给移除。
虽然说,Google 并不会对重复页面或重复内容进行排名的惩罚,但是基于实务上 SEO 的优化与操作,我们仍然会倾向于尽可能的减少与降低重复内容发生的机会,尽量将网站中,大量相似的内容整合成为单一篇文章。如此除了能够降低重复性,同时也能够让单一篇的文章内容篇幅更长,所触及的深度也会更广,大大提升单篇文章的品质分数,进而获取更佳的排名机会。
什么是重复内容?
重复内容的定义是:指在同一网域当中,出现多于一个以上的页面,其内容具高度相似,我们称为“重复内容”。而判断页面之间是否为重复的标准,则是由搜索引擎算法所进行分析与判断。
虽然 Google 明确表明重复内容并不会受到排名降低的惩罚,但是,经过各大研究结果指出,降低重复内容、合并相似的页面,能有效的提升网站的性能,也能使合并的文章更具有权威性,间接的让你的排名能够提升。
因此,你应该重新检视自己的网站是否有重复内容的问题,将其加以改善,透过移除、合并、跳转…等等方式,减少你的内容重复性。
搜索引擎不喜欢重复内容
在 2019 年 6 月,Google 推出了“多样性更新算法”,其目的在于,降低同一网域中,出现在同一搜索结果所显示的数量。
我们可以理解为,Google 不想让使用者在搜索某个关键字时,所出现的结果都是来自于相同的网站。因此,即便你的网站当中,具有类似的内容有好几百篇,但终究,Google 最多可能也只会显示 2 个最相关的页面内容。
与其如此,我们建议你不如将这几百篇相同的内容进行合并整合,将每一篇分散讨论的内容合并起来,使单一篇文章所谈论到的主题更加的广泛且全面。如此你的网站不仅能够因为减少了几百篇的内容而获得性能的提升,使用者也不会对大量相同内容感到厌倦之外,你的单一篇文章质量也会获得大量的提升。
因此,合并重复内容不管对于网站性能、使用者体验,或是网站排名方面来说,都是百利而无一害的。
常见的重复内容问题
现在我们了解了重复内容所带来的问题,以及解决重复内容后所带来的好处。那么,究竟大部分常见的重复内容,都是如何产生的呢?要知道,纵使你没有刻意产生重复内容的意思,但有时在技术上的缺失,也可能是导致你的网站出现重复内容的问题。
以下是一些常见的重复内容发生情况。
URL 重复网址
这个问题尤其常发生于电子商务网站,许多产品页面会有不同的颜色、尺寸,而这些产品虽然颜色尺寸不同,但实际上还是同一件商品。因此大多时候,其网址后缀会加上参数,让其画面显示是不同的尺寸大小。如下图所示:
这里用购物网站常见的搜索页面当中,会使用不同的筛选条件来显示商品的显示结果,此时 URL 都是同一个搜索网址页面“/search”,但不同的关键字与筛选条件则会显示不同的排列结果“?keyword=化妆水&page=0&sortBy=sales”。
不同的 URLs 会让搜索引擎认为是不同的页面,但实际上,其内容几乎是完全相同的。
在这个时候,我们就可以使用“rel=canonical”语法,来将这些相似的网页,指定某一个网址为标准网页。
指定标准网页
您可以根据您的网页用途,使用多种适合的方法为一系列重复的网页指定标准网页:
| 方法 | 说明 |
|---|---|
| 一般指南 | 以下指南适用于所有标准化方法。 |
| rel=canonical <link> 标记 | 在所有重复网页的代码中加入 <link> 标记,指向标准网页。 优点:可对应的重复网页数量不限。 缺点:网页档案可能会因此变大。如果网站规模较为庞大,或是其中的网址经常变更,对应关系的维护作业会变得复杂。仅适用于 HTML 网页,不适用于 PDF 这类档案 (在这种情况下,您可以改用 rel=canonical HTTP 标头)。 |
| rel=canonical HTTP 标头 | 在网页回应中传送 rel=canonical 标头。 优点:网页档案不会变大。可对应的重复网页数量不限。 缺点:如果网站规模较为庞大,或是其中的网址经常变更,对应关系的维护作业会变得复杂。 |
| Sitemap | 在 Sitemap 指定标准网页。 优点:易于实作及维护,特别是对大型网站。 缺点:Googlebot 仍须根据您在 Sitemap 中宣告的所有标准网页判别相关联的重复网页。对 Googlebot 来说,Sitemap 的指标效力不及 rel=canonical 对应做法。 |
| 301 重新导向 | 使用 301 重新导向告知 Googlebot,重新导向的网址是优于指定网址的版本。只有在要淘汰重复的网页时,才适用这个方法。 |
| AMP 版本 | 如果其中一个网页版本是 AMP 网页,则必须按照 AMP 指南指出标准网页和 AMP 版本。 |
HTTP 与 HTTPS 版本
Google 在先前早已将 HTTPS 加密协议作为影响排名的 SEO 因素之一。而你如果只有购买 SSL 凭证,让网站拥有 HTTPS 的加密协议,却没有将所有 HTTP 的版本统一指向至 HTTPS 的话,那么就会发生同时间拥有 HTTP 与 HTTPS 的重复内容。
这个问题会发生,是因为购买 SSL 加密凭证并设定好网站后,没有确实将原始的 HTTP 网址使用 301 Redirect 转址至 HTTPS 版本,导致同时间可以访问 HTTP 与 HTTPS 两个版本。因此,对于搜索引擎来说,这两个完全一样的内容,却有两个不同的网址被收录,导致重复内容的发生。
在这个时候,就可以透过 CloudFlare 来控制,将网域自动强迫使用 HTTPS 进行浏览,或是透过 .htaccess 档案设定,将 HTTP 自动 301 跳转至 HTTPS 的网址。如此就能解决 HTTP 与 HTTPS 重复网址内容的问题。
WWW 与 non-WWW
这个问题与 HTTP、HTTPS 情况类似,也就是网域可以同时经由 www.example.com 或 example.com 进行访问。而这两个网址都是呈现相同的内容。
如果你的网站同时间存在 HTTP、HTTPS 与 WWW、non-WWW 的问题,那么就等同于一个内容完全一样的页面,同时间你会自动产生 4 个不同的网址,导致一次就产生 4 个重复内容。
而这个问题的解决方法就可以透过 .htaccess 档案来进行设定,使网站强迫使用 www.example.com 或是强迫使用 example.com 作为标准网址进行访问。如此就能解决 www 与 non-www 内容重复的问题。
后缀网址
许多使用 .html、.php 或是 .asp 的网站,其主页通常会是 example.com/index.html 的格式,而你会发现,有时这类型的网站不管是输入 example.com 或是 example.com/index.html,都可以进入到相同的首页内容。这也是重复内容的一种。
想要解决这个问题,同样我们也会使用 .htaccess 来强迫将 example.com/index.html 使用 301 跳转至 example.com 网址。
或者,我们也可以利用 rel=canonical 来标注标准网址。如此一来,尽管 example.com/index.html 与 example.com 都能访问相同页面,但两个页面都清楚标示了 rel=canonical 来告诉搜索引擎,标准的网址是“example.com”(看你指定的是哪一个版本的网址),这样就不会产生重复内容的问题了。
不过,最佳的方式仍然是既使用 301 跳转至相同的一个网址,同时也使用 rel=canonical 来宣告单一标准网址,这样才是最正确的做法。
重复页面解决方法
实务上,要解决重复页面的问题,我们最常用的方法有两种:
方法一:rel=”canonical”
刚刚多次提到的解决方法,就是在你的代码 <head> 中,加入“rel=”canonical””来告诉搜索引擎,你的标准网址是哪一个。
尽管你今天产生了重复页面不同网址的情况,但由于你加入了 rel=”canonical” 来宣告你的标准网址,因此 Google 就会将这些重复的页面忽略,将其都判断为你指定的标准网址为基准。
但通常我们除了在 <head> 标题中加入 rel=”canonical” 宣告标准网址之外,同时还会使用 301 跳转方式来统一网址,尽可能的不要产生相似网址重复内容的问题。
方法二:301 Redirect
这个方式是最佳的作法,将你所有重复网址都指向至单一网址,让所有可能产生的重复页面,都会自动跳转至单一的网址,如此就能避免搜索引擎或使用者会同时间看到多个相似网址的重复页面内容。
举例来说,假如我们要将 WWW 自动 301 跳转至 non-WWW,那么就可以在 .htaccess 档案当中,加入以下的代码进行判断:
整合重复的网址
Google 官方有为大家列举一般常见的重复内容原因,大部分重复内容的产生都是源自于:
为了支援多种装置类型:
因搜索参数或工作阶段 ID 这类元素的缘故而采用动态网址:
在网志的不同版面底下放置相同的文章,系统会自动储存多个网址:
服务器设定为针对 www/非 www、http/https 版本的网址提供相同的内容:
从您的网志联合发布到其他网域中网站的内容,与原始内容有部分或全部是重复的:
总结
现在我们了解大部分重复内容与重复页面所产生的原因与型态,那么最后快速总结一下几种,可以帮助我们解决这些可能发生重复内容的方式:
使用 rel=”canonical” 连结标记
您可以在网页标头中使用 <link> 标记来指出该网页与其他网页内容重复。
如果您要使用 https://example.com/洋装/绿色洋装 做为标准网址 (即使可透过其他网址存取相同的内容),请按照下列步骤将这个网址指定为标准网址:
- 使用 rel=”canonical”“link 元素”来标记所有重复网页。如下所示,在重复网页的
<head>区段中新增<link>元素 (将属性设为rel="canonical"),指向标准网页:<link rel="canonical" href="https://example.com/洋装/绿色洋装" /> - 如果“标准”网页有行动版,请新增指向行动版网页的
rel="alternate"连结:<link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/洋装/绿色洋装"> - 为网页加上 hreflang 或其他适当的重新导向。
使用绝对路径 (而非相对路径) 来搭配 rel=”canonical” link 元素。
建议结构:https://www.example.com/洋装/绿色/绿色洋装.html
“非”建议结构:/洋装/绿色/绿色洋装.html
使用 rel=”canonical” HTTP 标头
如果您能设定服务器,则可使用 rel="canonical" HTTP 标头 (而非 HTML 标记) 来指定非 HTML 文件 (例如 PDF 档案) 的标准网址。
举例来说,如果您透过多个网址提供 PDF 档案,可以针对重复的网址传回 rel="canonical" HTTP 标头 (如下所示),借此将 PDF 档案的标准网址告知 Googlebot:Link: <http://www.example.com/downloads/white-paper.pdf>; rel="canonical"
Google 目前仅针对网页搜索结果支援这个方法。
使用绝对路径 (而非相对路径) 来搭配 rel=”canonical” link 元素
方法如下:
建议结构:http://www.example.com/downloads/white-paper.pdf
“非”建议结构:/downloads/white-paper.pdf
使用 Sitemap
您可以为每个网页挑选一个标准网址,然后透过 Sitemap 提交。Sitemap 中列出的所有网页都是建议的标准网页;Googlebot 会根据内容相似度判断哪些网页属于重复的网页 (如果有的话)。
我们“不保证”一定会将 Sitemap 中的网址视为标准网址,但 Sitemap 是为大型网站定义标准网址的简易方法,也很适合用来告知 Google 您认为哪些是网站上最重要的网页。
请勿在 Sitemap 中加入非标准网页。使用 Sitemap 时,您只能在其中指定标准网址。
针对已停用的网址使用 301 重新导向
如果您要淘汰现有的重复网页,但必须确保在旧网址失效前能顺利进行转换,请使用这个方法。
如果使用者可以透过多种方式进入您的网页:
选择其中一个网址做为标准网址,然后使用 301 重新导向将来自其他网址的流量传送至您的偏好网址。服务器端 301 重新导向是确保使用者和搜索引擎都能导向至正确网页的最佳方法。301 状态码表示网页已永久迁移至新的位置。
如果您是在使用代管服务的网站上,请搜索如何设定 301 重新导向的相关说明文件。
今天的重复内容与重复页面的教学就到这里

评论(0)