今天写个python爬虫时,发现一个有意思的问题,因为不同的目标网站的编码可能并不一样,所以再进行文本解析时,直接使用response.charset
返回的编码格式进行处理文本,结果出现了上面这个问题,解决方法也比较简单,改用gbk
即可
1 | fp = open(file, 'r', encoding='gb2312') |
今天写个python爬虫时,发现一个有意思的问题,因为不同的目标网站的编码可能并不一样,所以再进行文本解析时,直接使用response.charset
返回的编码格式进行处理文本,结果出现了上面这个问题,解决方法也比较简单,改用gbk
即可
1 | fp = open(file, 'r', encoding='gb2312') |
python3.7 通过pip进行安装时,提示ssl certificate问题
如下提示:
1 | pip is configured with locations that require TLS/SSL, however the ssl module in Python is not available. |
解决办法,用国内镜像源
1 | pip install aiohttp -i http://pypi.douban.com/simple --trusted-host pypi.douban.com |
记录一个代码中误用科学计数法导致所有的数据增大十倍的问题
科学计数法用e表示,后面跟上数字n,表示10的n次方;然后10^8用科学计算法怎么写?
正确写法
1 | 1e8 # 前面的1不能缺少 |
错误用法
1 | 10e8 # 这个实际上是10亿 |
beautifulsoup4 这个用于解析html的包,不同版本的使用姿势问题,导致解析数据异常
Update your browser to view this website correctly. Update my browser now