·
TombaPublicWebCrawler网络爬虫 

关于TombaPublicWebCrawler的信息,我们的网络索引机器人在遵守robots.txt的同时收集公开的商业联系数据。
TombaPublicWebCrawler
我们的网络爬虫从互联网上的网站索引公开可用的商业联系信息。
技术详情
robots.textile
Version: 3.0
Obeys Robots.txt: Yes
User-Agent: Mozilla/5.0 (compatible; TombaPublicWebCrawler/3.0; +https://tomba.io)
什么是TombaPublicWebCrawler?
TombaPublicWebCrawler是我们商业联系搜索引擎的索引机器人。类似于Google索引网页的方式,我们的爬虫扫描公开可用的在线资源以发现专业联系信息。
我们的技术处理:
- 企业网站
- 新闻稿
- 电子新闻服务
- 公共商业目录
- 专业简介
使用先进的自然语言处理技术,我们构建了一个全面的商业专业人士及其联系信息数据库。
爬虫做什么?
爬虫:
- 仅访问公开可访问的网页
- 提取商业联系信息
- 索引专业电子邮件地址
- 遵守所有访问限制
重要: 我们仅分析公开网页。不访问任何私人或需要认证的内容。
Robots.txt合规
是的,我们严格遵守robots.txt。
我们尊重Disallow和Allow指令。我们的爬虫在访问您网站的任何页面之前都会读取robots.txt文件。
控制爬虫
调整爬取频率
要设置请求之间的最小延迟,请在您的robots.txt中添加:
robots.textile
User-agent: TombaPublicWebCrawler
Crawl-Delay: [秒数]
将[秒数]替换为您首选的延迟时间。
阻止爬虫
要完全阻止TombaPublicWebCrawler访问您的网站:
robots.textile
User-agent: TombaPublicWebCrawler
Disallow: /
重要说明
- robots.txt的更改可能需要时间才能被检测到
- robots.txt中的语法错误可能会阻止正确解析
- 如果指令无法识别,爬虫将继续之前的行为
了解更多
有关robots.txt格式和用法的更多信息:
问题或疑虑?
如果您认为TombaPublicWebCrawler在您的网站上行为不当,或者您有任何问题:
电子邮件: support@tomba.io
我们认真对待所有报告并将迅速调查。