资源说明:第五节:python解析库
5.1文本清洗
1)编码解码:
编码是信息从一种形式或格式转换为另一种形式的过程,解码则是编码的逆过程
乱码的诞生就是编解码不一样造成的,只有编码和解码的方式一样才会正常显示
编码:Encode
解码:Decode
比如你新建一个文本文档,就可以在下方看到编码,如图
2)常见格式:
ASCII(补码形式)
计算机内部,所有信息最后都是一个二.进制
一个字节byte是8位二进制,二进制有0和1两种状态,所以一个字节有256种状态,每个状态对应一个符号。 asci-共256个符号。
上个世纪,美国制定了这套编码,英语字符和二进制一一对应,沿用到现在。
比如空格是
本源码包内暂不包含可直接显示的源代码文件,请下载源码包。
English
