#python之数据持久化
Python的数据持久化方式有很多种,JSON与Pickle是其中两种比较好用又相对轻量级的。两者的使用方式非常相近。
JSON
python中处理JSON的库就是json模块,需要用到的方法大致就是以下4个,其实它们的参数有很多这里暂且省略。
1 | import json |
可以看到,结尾带s就是在字符串层面上操作,如果不带s就是在文件层级操作。person是需要转化的对象,可以是一个字典或者列表。
dumps返回的是一个字符串,load和loads则会返回python的对象。
以上是最简单的一些使用方式,这里还有一些实用的参数可以选择。
1 | import json |
ensure_ascii参数,是在有中文的情况下,设置为False可以防止将其解码而得到乱码,在loads的时候可以指定encoding来保持编码。
indent参数如果不指定的话,输出的字符串就是紧凑的形式,indent指定为4就可以输出缩进为4的pretty形式,在需要给人看的时候用这个不错。
JSON序列化datetime问题
python自己的json.dumps不能序列化datetime对象,如果需要dump这类对象时可以自己定义JSONEncoder
1 | import json |
这样在dump时指定cls参数就可以完成序列化datetime的任务了,如果觉得麻烦的话,可以使用偏函数的方法自己封装一下。
1 | import functools |
Pickle
常用的函数和JSON的相同,这里只介绍一下dump与load。
函数说明
Python中可以使用 pickle 模块将对象转化为文件保存在磁盘上,在需要的时候再读取并还原。具体用法如下:
1 | `pickle.dump(obj, ``file``[, protocol])` |
这是将对象持久化的方法,参数的含义分别为:
obj: 要持久化保存的对象;
file: 一个拥有 write() 方法的对象,并且这个 write() 方法能接收一个字符串作为参数。这个对象可以是一个以写模式打开的文件对象或者一个 StringIO 对象,或者其他自定义的满足条件的对象。
protocol: 这是一个可选的参数,默认为 0 ,如果设置为 1 或 True,则以高压缩的二进制格式保存持久化后的对象,否则以ASCII格式保存,设置为负数与0相同。
对象被持久化后怎么还原呢?pickle 模块也提供了相应的方法,如下:
1 | `pickle.load(``file``)` |
只有一个参数 file ,对应于上面 dump 方法中的 file 参数。这个 file 必须是一个拥有一个能接收一个整数为参数的 read() 方法以及一个不接收任何参数的 readline() 方法,并且这两个方法的返回值都应该是字符串。这可以是一个打开为读的文件对象、StringIO 对象或其他任何满足条件的对象。
实例代码
1 | import pickle |
可以看出上面的程序在文件里存储了2个对象,load的时候可以执行2次,person_info得到的是之前person的对象,list_obj_info的是之前list_obj的对象。不要写成这样:
1 | person_info = pickle.load(open('person.pkl', 'rb')) |
这样得到的person_info,list_obj_info都是person_info的对象,原因嘛,可以想一想文件操作的方式,很好理解。
但存储了几个对象就只能load几次,如果load超过了存储的对象,会抛出EOFError异常。
可以用下面这种方式进行修改
1 | import pickle |
这里能够存储的对象可以是任意对象,字典、列表、元组、numpy数组、SocketServer…..
另外,pickle 模块还提供 dumps 和 loads 两个方法,用法与上面的 dump 和 load 方法类似,只是不需要输入 file 参数,输入及输出都是字符串对象,有些场景中使用这两个方法可能更为方便。
比较
官方文档中对于这2者也有一段比较的话,我就直接拿来用了
- JSON是文本形式的存储,Pickle则是二进制形式(至少常用二进制)
- JSON是人可读的,Pickle不可读
- JSON广泛应用于除Python外的其他领域,Pickle是Python独有的。
- JSON只能dump一些python的内置对象,Pickle可以存储几乎所有对象。
在我看来,如果偏向应用特别是web应用方面,可以常用JSON格式。如果偏向算法方面,尤其是机器学习,则应该使用cPickle,pylearn2库中保存model就是使用这项技术的。
至于重量级的那就很多了,基本都跟数据库有关。