Node.js 抓取非 utf-8 的中文网页时会出现乱码问题,比如网易的首页编码是 gb2312,抓取时会出现乱码
代码如下:
request(url,function (err,res,body) { console.log(body) })
安装
代码如下:
同时我们顺带把 user-agent 修改一下,以防网站屏蔽:
代码如下:
function request (url,callback) { var options = { url: url, encoding: null, headers: headers } originRequest(options,callback) }
request(url,body) { var html = iconv.decode(body,'gb2312') console.log(html) })
乱码问题解决
使用 cheerio 解析 HTML
可以简单粗暴的理解为服务器端 jQuery 选择器,有了它,比正则要更加直观许多
安装
代码如下:
输出如下
代码如下:
那么问题来了,$('h1').html() 输出的代码是经过 Unicode 编码的,网易变成了网易,给我们的字符处理带来了一些麻烦
解决 cheerio .html() 「乱码」问题
查阅可知,可以关闭这个转换实体编码的功能 代码如下:
相关文章
事件冒泡和事件捕获 起因:今天在封装一个bind函数的时候,发现el.addEventListener函数支持第三个参数...
js小数运算会出现精度问题 js number类型 JS 数字类型只有number类型,number类型相当于其他强类型语言...
什么是跨域 跨域 : 广义的跨域包含一下内容 : 1.资源跳转(链接跳转,重定向跳转,表单提交) 2.资源...
@ "TOC" 常见对base64的认知(不完全正确) 首先对base64常见的认知,也是须知的必须有...
搞懂:MVVM模式和Vue中的MVVM模式 MVVM MVVM : 的缩写,说都能直接说出来 :模型, :视图, :视图模...
首先我们需要一个html代码的框架如下: 我们的目的是实现ul中的内容进行横向的一点一点滚动。ul中的内容...