Ray 的记录站

日常开发实践记录

0%

使用 Typescript 实现简单的网络爬虫

网络爬虫又称为网页蜘蛛或网络机器人,英文一般为 Web Crawler,Web Spider 或 Web Scraper。是一种遍历网站中所有网页内容的程序,爬虫的一个重要应用就是收集网站上的重要信息并汇总以便分析。

最近有一个评估官网上每个网页使用的 Title 关键字的需求,正好学习一下简单爬虫的实现,并通过本文进行记录。生产环境下更多使用的是 Python,因为轮子多且好用。

本文选择 Typescript 进行说明,以尽量通俗易懂的方式对整个爬取过程进行说明。

下面以一个简化版本的过程进行说明,从需求开始,明确要做什么以及怎么去做,最终进行编码实现。

概述

需求:要统计网站中所有页面 Title(H1~H6) 的内容。

明确要做什么:实现一个爬虫程序,遍历网站所有页面,并汇总每个页面内的所有 Title(H1~H6)

考虑是否有一些限制条件,汇总如下:

  • 网站是否需要登录后才能获取全部页面:否,网站是纯静态的,仅展示信息,没有登录注册能力。
  • 是否遵守该网站的 robot 规则:是(不过如下的讲解不涉及 robot 规则处理)。
  • 实现的爬虫是针对该特定网站(聚焦爬虫)还是通用爬虫:聚焦爬虫,目前仅针对该网站进行爬取。
  • 该网站是否有反爬措施:无,不需要使用代理池等手段进行爬取。
  • 是否有爬取速度的需求:可以最大以 100 Request/Round 的频率进行爬取。