爬虫 - JavaScript 编程网

 首页 >
标签 >
爬虫

支持 Selector API 的 HTML 解析器 node-html-parser

简介做爬虫解析 HTML，之前一直是用 cheerio，随着 jQuery 的渐行渐远，使用 cheerio 的类 jQuery API 已经成为一种负担，我使用这个支持 Selectors API 的解析器 node-html-parser 来代替 cheerio。前后端的 HTML Selectors API 终于统一了。官方地址：https://www.npmjs.com/package/node-html-parser在 npmjs.com 的周下载量是：1,777,505。 cheerio 的周下载量是 6,696,323。执行速度上：cheerio :12.072

像素鱼丸 2022-02-28 JavaScript Node.js 2615

使用 cheerio 解析 HTML

简介：cheerio 是一个HTML解析器，cheerio实现了核心jQuery的子集。常用来解析采集来的HTML数据。安装：npm install cheerio 基础使用：const cheerio = require('cheerio'); var htmlString = ` ul id="fruits" li class="apple" 苹果 /li li class="orange" 橙子 /li li class="pear" 梨 /li /ul `; $ = cheerio.load(htmlString); $('.apple', '#fruits'

像素鱼丸 2021-05-03 Node.js 2255

Node.js 爬虫常见问题

1，cheerio 获取一个文本节点，该节点没有html标签，比如想获取html中的“猪突猛进” a href="#" 猪突猛进 span 2021年3月12日 /span /a var text = $("#itemInfo").contents().filter(function () { return this.nodeType === 3; }).text(); 2，Node.js 获取 IP V6 内容出现超时问题的解决方法本地是IP V4，获取IP V6内容的时候，提示：Error: connect ETIMEDOUT 172.67.21

像素鱼丸 2021-03-19 Node.js 1641

使用Node.js http 模块采集数据时的日文 EUC-JP 乱码，使用 iconv-lite 转码

项目需要采集日文网站，该日文网站编码是 EUC-JP。原采集函数是： // 下载指定页面 HTML function getHtml(url) { var hp = http; if(url.substr(0,5) == "https"){ hp = https; } return new Promise(function (resolve, reject) { hp.get(url, function (res) { var html = ''; res.on('data', function (data) { h

像素鱼丸 2021-03-11 Node.js 2018

一个完整的 Node.js 爬虫

重写了爬虫，程序逻辑如下： 1，爬虫抓取文章列表第一页。 2，获取文章列表。 3，遍历文章。 4，把文章列表中文章的缩略图下载保存。 5，把文章内容中的图片全部下载保存，并用图片新路径，替换文章内容中的图片地址。 6，保存文章内容到数据库。 7，处理完文章列表后，递归执行下一页文章列表。 var http = require('http'); var http = require('https'); var fs = require('fs'); var cheerio = require('cheerio'); var pool = require('./mys

像素鱼丸 2019-05-03 Node.js 1703

Cheerio 中文文档

编写爬虫时，需要HTMLParser解析HTML，HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。现在流行很多解析器，综合一下比较看好 cheerio 和 jsdom。 cheerio简单好用速度快，JSDOM的目标是提供一个我们在浏览器里面看到的相同的 DOM 环境。支持最新的javascript选择器。安装npm install cheerio HTML示例 ul id=“fruits” li class=“apple” Apple /li li class=“orange” Orange /li

像素鱼丸 2018-08-25 Node.js 1957

Node.js 爬虫教程

网络爬虫，又称为网页蜘蛛、网络机器人或网页追逐者，是一种按照预定规则自动抓取万维网信息的程序或脚本。其核心功能在于能够自动化浏览网络并获取数据，这些数据可以是网页内容、图片、视频等多种形式的信息。爬虫在工作时会根据开发者设定的规则（爬虫算法）来遍历网页链接，获取页面内容，解析所需数据，并常常进一步存储或分析这些数据。爬虫的基本组成部分及流程：获取网页：爬虫首先向目标网站发送HTTP请求，就像我们在浏览器中输入网址并按下回车键一样。这个过程涉及遵循robots.txt文件规定，尊重网站的爬取规则。解析网页：获取到网页内容后，爬虫会使用HTML解析器（如BeautifulSoup、l

像素鱼丸 2018-08-25 Node.js 1924