网络营销知识仓库-第51部分
按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
例中的WebCrawler ) User…agent: WebCrawler Disallow: User…agent: * Disallow: / F。常见搜索引擎机器人Robots 名字 表 6…8…1常见搜索引擎机器人 Robots 名字 名 称 搜 索 引 擎BaiduspiderbaiduScooteraltavistaia_archiveralexaGooglebotgoogleFAST…WebCrawlerallthewebSlurpinktomiMSNBOT search。msn4、robots。txt 举例 下面是一些著名站点的robots。txt: cnn/robots。txt google/robots。txt ibm/robots。txt sun/robots。txt eachnet/robots。txt 5、常见robots。txt 错误 A。颠倒了顺序 错误写成: User…agent: * Disallow: GoogleBot 正确的应该是: User…agent: GoogleBot Disallow: * B。把多个禁止命令放在一行中例如错误写成: Disallow: /css/ /cgi…bin/ /images/ 正确的应该是: Disallow: /css/ Disallow: /cgi…bin/ Disallow: /images/ C。行前有大量空格 例如写成: Disallow: /cgi…bin/ 尽管在标准没有谈到这个,但是这种方式很容易出问题。 D。 404 重定向到另外一个页面 当Robot 访问很多没有设置 robots。txt 文件的站点时,会被自动 404 重定向到另外 一个Html 页面。这时Robot 常常会以处理robots。txt 文件的方式处理这个Html 页面文 件。虽然一般这样没有什么问题,但是最好能放一个空白的 robots。txt文件在站点根目录下。 E。采用大写。例如 USER…AGENT: EXCITE DISALLOW: 虽然标准是没有大小写的,但是目录和文件名应该小写: user…agent:GoogleBot disallow: F。 语法中只有Disallow,没有Allow 错误的写法是: User…agent: Baiduspider Disallow: /john/ allow: /jane/ G。忘记了斜杠/ 错误写作: User…agent: Baiduspider Disallow: css 正确的应该是: User…agent: Baiduspider Disallow: /css/ 下面一个小工具专门检查 robots。txt 文件的有效性: searchengineworld/cgi…bin/robotcheck。cgi五、链接锚文本 什么是链接锚文本?举个例子解释说明一下:诸如,有一个网站做了个点石的友情链接,其具体代码表现为 a href= dunsh 点石互动 /a ,其中“点石互动”即为该链接的锚文本。 1、链接锚文本(Anchor Text)描述在SEO 中有什么作用? 搜索引擎可以根据指向某一个网页链接的锚文本描述来判断该网页的内容属性,点石是一个搜索引擎优化研究团队,所以有很多指向点石的链接锚文本描述为“搜索引擎优化”, 这样会让搜索引擎根据属性投票来给点石在搜索引擎优化的自然排名方面有一个考虑,尤其 是这样的反向链接的质量和数量上升到一定层次时,这种排名优势也就越明显。 很多网站的锚文本的形式诸如以下形式:more、更多、阅读详细信息、点击这里等,这样的做法没办法让搜索引擎对某一个被链接的网页内容属性有一个好的判断,从而影响网页排名。 2、链接锚文本(Anchor Text)的优化 每个页面的内容都不同,因此我们在进行关键词策略部署的时候,就应该针对某一个目标页面有一个关键词考虑。一般来说一个页面的核心关键词在 1…3 个范围(范围太大,关键词的权重就有可能被稀释),所以我们一般在其他页面做指向该页面的链接的锚文本描述中就应该布置预先规划的核心关键词,而且锚文本描述的形式应尽量多样化。六、Sitemap。xml Sitemaps协议使你能够告知搜索引擎网站中可供抓取的网址。最简便的方式就是,使用Sitemaps协议的Sitemaps就是列有某个网站所有网址的XML文件。此协议可高度扩展,因此可适用于各种大小的网站。它还能够使网站管理员提供有关每个网址的其他信息(上次更新的时间、更改的频率、与网站中其他网址相比它的重要性等),以便搜索引擎可以更智能地抓取该网站。 Sitemaps协议补充而不是取代搜索引擎已用来发现网址的基于抓取的机制。通过向搜索引擎提交一个Sitemaps(或多个 Sitemaps ),可帮助搜索引擎更好地抓取你的网站。1、XML Sitemaps 语法格式 Sitemaps协议格式由XML 标记组成,Sitemaps的所有数据数值应为实体转义过的,文件本身应为UTF…8 编码的。 以下是只包含一个网址并使用所有可选标记的Sitemaps示例。可选标记为斜体。 ?xml version= 1。0 encoding= UTF…8 ? urlset xmlns= google/schemas/sitemap/0。84 url loc example/ /loc lastmod 2005…01…01 /lastmod changefreq monthly /changefreq priority 0。8 /priority /url /urlset Sitemaps应: 一个网页的默认优先级为0。5。 请注意,你为页面指定的优先级不影响你的网址在搜索引擎的结果页的排名。搜索引擎在同一网站的不同网址之间进行选择时使用此信息,因此,你可以使用此标记来增加相对重要的网址在搜索索引中显示的可能性。而且,请注意为你网站中的所有网址都指定高优先级对你没什么好处。由于优先级是相互关联的,只用于在你自己网站的网页之间进行选择;你网页的优先级不会与其他网站的页面优先级进行比较。3、实体转义 Sitemaps文件为UTF…8编码(通常在保存文件时可以做到)。对于所有的XML 文件,任何数据数值(包括网址)都应对下表中列出的字符使用实体转义码。 表 6…8…3 实体转义 字符转 义 码 &符号 &&; 单引号 ';' 双引号 大于 小于 此外,所有的网址(包括 Sitemaps 的网址)都应编码,以便它们所在的,以及网址转义的Web服务器识别。然而,如果使用任何脚本、工具或日志文件来生成网址(除了手动输入之外的任何方法),通常这部分已经替你完成了。如果提交了Sitemaps 却收到Google 无法找到某些网址的错误消息,请查看并确保你的网址遵循RFC…3986 URI 标准、RFC…3987IRI标准以及XML标准。 这是使用非ASCII 字符(ü )以及要求实体转义的字符(&)的网址示例: example/ümlat。html&q=name 这是ISO…8859…1编码的(用于使用该编码的服务器上的托管)以及网址转义过的同一网址example/%FCmlat。html&q=name 这是UTF…8编码(用于使用该编码的服务器上的托管)且网址转义过的同一网址: example/%C3%BCmlat。html&q=name 这是实体转义过的同一网址: example/%C3%BCmlat。html&;q=name 4、XML Sitemaps 示例 下例显示了一个XML格式的Sitemaps 。示例中的Sitemaps包含少数网址,每一个都用 loc XML 标记来识别。此示例中,为每个网址提供了一组不同的可选参数。 ?xml version= 1。0 encoding= UTF…8 ? urlset xmlns= google/schemas/sitemap/0。84 url loc example/ /loc lastmod 2005…01…01 /lastmod changefreq monthly /changefreq priority 0。8 /priority /url url loc example/catalog?item=12&;desc=vacation_hawaii /loc changefreq weekly /changefreq /url url loc example/catalog?item=73&;desc=vacation_new_zealand /loc lastmod 2004…12…23 /lastmod changefreq weekly /changefreq /url url loc example/catalog?item=74&;desc=vacation_newfoundland /loc lastmod 2004…12…23T18:00:15+00:00 /lastmod priority 0。3 /priority /url url loc example/catalog?item=83&;desc=vacation_usa /loc lastmod 2004…11…23 /lastmod /url /urlset 你可以使用gzip 压缩 Sitemaps 文件。压缩 Sitemaps 文件会降低对带宽的要求。请注意,未压缩的Sitemaps 文件不得大于10MB 。5、使用 Sitemaps 索引文件(对多个 Sitemaps 文件进行分组) 你可以提供多个Sitemaps 文件,但提供的每个Sitemaps文件包括的网址不得超过50,000个,并且未压缩时不能大于10MB(10,485,760)。这些限制条件有助于确保Web服务器不会因传输非常大的文件而遇到麻烦。 如果要列出超过50,000 个网址,你需要创建多个Sitemaps 文件。如果预计你的Sitemaps 网址数量会超过50,000个或大小超过10MB,应考虑创建多个Sitemaps 文件。 如果你的确提供了多个 Sitemaps,你可以将其列在Sitemaps 索引文件中。Sitemaps 索引文件只能列出不超过1,000 个 Sitemaps。 Sitemaps索引文件的XML 格式与Sitemaps 文件的XML格式非常相似。Sitemaps索引文件使用以下XML 标记: example/catalog/sitemap。gz 中,被认为有效的示例网址包括: example/catalog/show?item=23 example/catalog/show?item=233&user=3453 example/catalog/sitemap。gz 中被认为无效的网址包括: example/image/show?item=23 example/image/show?item=233&user=3453 https://example/catalog/page1。html 被认定为无效的网址将不再考虑。强烈建议将 Sitemaps 放置在Web 服务器的根目录处。例如,如果Web 服务器位于example,则Sitemaps 索引文件应位于 example/sitemap。gz 。在某些情况下,你需要针对不同的路径创建对应的Sitemaps, 例如,如果在你的组织中,安全许可对应不同目录划分上传权限。8、验证你的SitemapsGoogle使用XML架构定义可以出现在Sitemaps文件中的元素和属性。你可从以下链接下载此架构: 对于 Sitemaps: google/schemas/sitemap/0。84/sitemap。xsd 对于 Sitemaps索引文件:google/schemas/sitemap/0。84/siteindex。xsd 有多种工具可帮助你根据此架构来验证你的 Sitemaps结构。在下面的每一个位置 你都可以找到XML相关的工具列表: w3/XML/Schema#Tools xml/pub/a/2000/12/13/schematools。html 为了根据某个架构验证你的Sitemaps 或 Sitemaps 索引文件,XML文件需要有附加的标头。如果你使用的是Sitemaps生成器,这些标头已经包含其中。如果你使用不同的工具创建Sitemaps,XML文件中的标头应如下例所示。 Sitemaps: ?xml version=';1。0'; encoding=';UTF…8';? urlset xmlns= google/schemas/sitemap/0。84 xmlns:xsi= w3/2001/XMLSchema…instance xsi:schemaLocation= google/schemas/sitemap/0。84 google/schemas/sitemap/0。84/sitemap。xsd url /url /urlset Sitemaps索引文件: ?xml version=';1。0'; encoding=';UTF…8';? sitemapindex xmlns= google/schemas/sitemap/0。84 xmlns:xsi= w3/2001/XMLSchema…instance xsi:schemaLocation= google/schemas/sitemap/0。84 google/schemas/sitemap/0。84/siteindex。xsd sitemap /sitemap /sitemapindex 9、Google sitemaps Builder V1。5 使用教程 这是一款由国外编程人员开发的Google Sitemap 制作软件,通过该软件那些不懂XML 语法的人也很容