开发总结—SEO篇(sitemap与robots.txt)

作者:杨润炜
日期:2015/12/10 12:20

网络爬虫
今早做了一些SEO优化,增加了sitemap与robots.txt。

有关sitemap:

sitemap,也称网页地图,是让搜索引擎知道你的网站结构是怎样的,主要是暴露链接让搜索引擎来抓取你的网站。详细了解请点击此处

有关robots.txt:

robots.txt是告诉搜索引擎你的网站哪些东西可以抓取,哪些不可以。
详细了解请点击此处

sitemap

本站使用的是node.js + express,所以我采用了sitemap这个模块来生成网站地图。下面展示下我的做法:

1.首先是创建网站首页、技术博客、生活杂记的索引;

  1. var sm = require('sitemap');
  2. var sitemap = sm.createSitemap({
  3. hostname: config.portalUrl,
  4. cacheTime: 600000,
  5. urls: [
  6. {url: config.portalUrl, changefreq: 'always', priority: 1, lastmod: moment().format('YYYY-MM-DD')},
  7. {url: config.portalUrl + '/tech', changefreq: 'daily', priority: 0.8, lastmod: moment().format('YYYY-MM-DD')},
  8. {url: config.portalUrl + '/life', changefreq: 'daily', priority: 0.8, lastmod: moment().format('YYYY-MM-DD')}
  9. ]
  10. });

2.查找文章及标签数据,加载索引;

  1. // 添加文章索引
  2. _.each(results.getArticles, function (art) {
  3. sitemap.del({url: config.portalUrl + '/a/' + art.order}); // 删除重复
  4. sitemap.add({
  5. url: config.portalUrl + '/a/' + art.order + '.html',
  6. lastmod: moment(art.lastUpdateTime).format('YYYY-MM-DD'),
  7. changefreq: 'daily',
  8. priority: 0.5
  9. });
  10. });
  11. // 添加标签索引
  12. _.each(results.getTags, function (tag) {
  13. sitemap.del({url: config.portalUrl + '/tag/' + tag.enName}); // 删除重复
  14. sitemap.add({
  15. url: config.portalUrl + '/tag/' + tag.enName,
  16. lastmod: moment().format('YYYY-MM-DD'),
  17. changefreq: 'daily',
  18. priority: 0.5
  19. });
  20. });
  21. res.header('Content-Type', 'application/xml');
  22. res.send( sitemap.toString() ); // 返回网站地图文件

3.最后增加路由规则;

  1. '/sitemap.xml': siteMapController.createSiteMap,

这样就完成了本站网站地图的制作,效果展示

robots.txt

我也采用了比较简便的方式来生成robots.txt。
1.首页是在工程根目录(也可以自定义)创建robots.txt;
2.可以在线生成此文件,网上搜索下“robots.txt 在线生成”,会有一些在线工具提供。也可以采用手动编辑的方式,具体规则可查看百度的描述
3.添加路由规则

  1. '/robots.txt': siteMapController.createRobot

这样就完成了本站robots.txt的制作,效果展示

写在最后

最后还要把sitemap.xml和robots.txt的链接地址提交给谷歌和百度等搜索引擎,这样爬虫才能尽快发现你的网站。

感谢您的阅读!
如果看完后有任何疑问,欢迎拍砖。
欢迎转载,转载请注明出处:http://www.yangrunwei.com/a/4.html
邮箱:glowrypauky@gmail.com
QQ: 892413924