DIV CSS 佈局教程網

 DIV+CSS佈局教程網 >> 網頁腳本 >> JavaScript入門知識 >> 關於JavaScript >> Node.js抓取中文網頁亂碼問題和解決方法
Node.js抓取中文網頁亂碼問題和解決方法
編輯:關於JavaScript     

Node.js 抓取非 utf-8 的中文網頁時會出現亂碼問題,比如網易的首頁編碼是 gb2312,抓取時會出現亂碼
代碼如下:
var request = require('request') 
var url = 'http://www.163.com'

request(url, function (err, res, body) { 
    console.log(body)
})

可以使用 iconv-lite 來解決

安裝
代碼如下:
npm install iconv-lite 

同時我們順帶把 user-agent 修改一下,以防網站屏蔽:
代碼如下:
var originRequest = require('request') 
var iconv = require('iconv-lite') 
var headers = { 
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}

function request (url, callback) { 
  var options = {
    url: url,
    encoding: null,
    headers: headers
  }
  originRequest(options, callback)
}

request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    console.log(html)
})

亂碼問題解決

使用 cheerio 解析 HTML

cheerio 可以簡單粗暴的理解為服務器端 jQuery 選擇器,有了它,比正則要更加直觀許多

安裝
代碼如下:
npm install cheerio 
request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    var $ = cheerio.load(html)
    console.log($('h1').text())
    console.log($('h1').html())
})

輸出如下
代碼如下:
網易
网易

那麼問題來了,$('h1').html() 輸出的代碼是經過 Unicode 編碼的,網易變成了网易,給我們的字符處理帶來了一些麻煩

解決 cheerio .html() 「亂碼」問題
查閱文檔可知,可以關閉這個轉換實體編碼的功能
代碼如下:
var $ = cheerio.load(html) 

改成
代碼如下:
var $ = cheerio.load(html, {decodeEntities: false})

即可,完整代碼如下:
代碼如下:
var originRequest = require('request') 
var cheerio = require('cheerio') 
var iconv = require('iconv-lite') 
var headers = { 
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.65 Safari/537.36'
}

function request (url, callback) { 
  var options = {
    url: url,
    encoding: null,
    headers: headers
  }
  originRequest(options, callback)
}

var url = 'http://www.163.com'

request(url, function (err, res, body) { 
    var html = iconv.decode(body, 'gb2312')
    var $ = cheerio.load(html, {decodeEntities: false})
    console.log($('h1').text())
    console.log($('h1').html())
})

XML學習教程| jQuery入門知識| AJAX入門| Dreamweaver教程| Fireworks入門知識| SEO技巧| SEO優化集錦|
Copyright © DIV+CSS佈局教程網 All Rights Reserved