python之JSON与Pickle

#python之数据持久化

Python的数据持久化方式有很多种，JSON与Pickle是其中两种比较好用又相对轻量级的。两者的使用方式非常相近。

JSON

python中处理JSON的库就是json模块，需要用到的方法大致就是以下4个，其实它们的参数有很多这里暂且省略。

import json
person = {'姓名': 'Jame', '年龄' : 27}
fp = open('person.json', 'w')
json.dump(person, fp)
fp.close()
person_info = json.dumps(person)
x = json.load(open('person.json', 'r'))
y = json.loads(person_info)

可以看到，结尾带s就是在字符串层面上操作，如果不带s就是在文件层级操作。person是需要转化的对象，可以是一个字典或者列表。

dumps返回的是一个字符串，load和loads则会返回python的对象。

以上是最简单的一些使用方式，这里还有一些实用的参数可以选择。

import json
obj = {u'姓名' : u'无名氏', u'国籍' : u'中国'}
s = json.dumps(obj, ensure_ascii=False, indent=4)
obj2 = json.loads(s, encoding='utf8')

ensure_ascii参数，是在有中文的情况下，设置为False可以防止将其解码而得到乱码，在loads的时候可以指定encoding来保持编码。

indent参数如果不指定的话，输出的字符串就是紧凑的形式，indent指定为4就可以输出缩进为4的pretty形式，在需要给人看的时候用这个不错。

JSON序列化datetime问题

python自己的json.dumps不能序列化datetime对象，如果需要dump这类对象时可以自己定义JSONEncoder

import json
from datetime import date, datetime

class AdvEncoder(json.JSONEncoder):
    def default(self, obj):
        if isinstance(obj, datetime):
            return obj.strftime('%Y-%m-%d %H:%M:%S')
        elif isinstance(obj, date):
            return obj.strftime('%Y-%m-%d')
        else:
            return super().default(self, obj)

obj = {}
json.dumps(obj, cls=MyEncoder)

这样在dump时指定cls参数就可以完成序列化datetime的任务了，如果觉得麻烦的话，可以使用偏函数的方法自己封装一下。

import functools
adumps = functools.partial(json.dumps, cls=AdvEncoder)
d = datetime.now()
adumps(d)

Pickle

常用的函数和JSON的相同，这里只介绍一下dump与load。

函数说明

Python中可以使用 pickle 模块将对象转化为文件保存在磁盘上，在需要的时候再读取并还原。具体用法如下：

1	`pickle.dump(obj, ``file``[, protocol])`

这是将对象持久化的方法，参数的含义分别为：
obj: 要持久化保存的对象；
file: 一个拥有 write() 方法的对象，并且这个 write() 方法能接收一个字符串作为参数。这个对象可以是一个以写模式打开的文件对象或者一个 StringIO 对象，或者其他自定义的满足条件的对象。
protocol: 这是一个可选的参数，默认为 0 ，如果设置为 1 或 True，则以高压缩的二进制格式保存持久化后的对象，否则以ASCII格式保存，设置为负数与0相同。

对象被持久化后怎么还原呢？pickle 模块也提供了相应的方法，如下：

1	`pickle.load(``file``)`

只有一个参数 file ，对应于上面 dump 方法中的 file 参数。这个 file 必须是一个拥有一个能接收一个整数为参数的 read() 方法以及一个不接收任何参数的 readline() 方法，并且这两个方法的返回值都应该是字符串。这可以是一个打开为读的文件对象、StringIO 对象或其他任何满足条件的对象。

实例代码

import pickle
person = {'姓名': 'Jame', '年龄' : 27}
list_obj = [0, 1, 1, 0, 1]
f = open('person.pkl', 'wb')
pickle.dump(person, f, protocol=-1)
pickle.dump(list_obj, f, protocol=-1)
f.close()

f = open('person.pkl', 'rb')
person_info = pickle.load(f)
list_obj_info = pickle.load(f)
f.close()

可以看出上面的程序在文件里存储了2个对象，load的时候可以执行2次，person_info得到的是之前person的对象，list_obj_info的是之前list_obj的对象。不要写成这样：

1 2	person_info = pickle.load(open('person.pkl', 'rb')) list_obj_info = pickle.load(open('person.pkl', 'rb'))

这样得到的person_info,list_obj_info都是person_info的对象，原因嘛，可以想一想文件操作的方式，很好理解。

但存储了几个对象就只能load几次，如果load超过了存储的对象，会抛出EOFError异常。

可以用下面这种方式进行修改

import pickle
person = {'姓名': 'Jame', '年龄' : 27}
list_obj = [0, 1, 1, 0, 1]
f = open('person.pkl', 'wb')
pickle.dump([person, list_obj], f, protocol=-1)
f.close()
# all_infos = pickle.load(open('person.pkl', 'rb'))
# person_info = all_infos[0]
# list_obj_info = all_infos[1]
person_info = pickle.load(open('person.pkl', 'rb'))[0]
list_obj_info = pickle.load(open('person.pkl', 'rb'))[1]