11. 标准简介 —— 第二部分

第二部分涵盖专业编程需要高级模块这些模块脚本
11.1.
格式化输出

reprlib
模块提供定制版本 repr() 函数用于缩略显示大型深层嵌套容器对象:
>>>

import reprlib

reprlib.repr(set('supercalifragilisticexpialidocious'))
"{'a', 'c', 'd', 'e', 'f', 'g', ...}"

pprint
模块提供更加复杂打印控制输出内置对象用户自定义对象能够解释器直接读取输出结果需要,“美化输出机制添加换行缩进清楚展示数据结构:
>>>

import pprint

t = [[[['black', 'cyan'], 'white', ['green', 'red']], [['magenta',

'yellow'], 'blue']]]


pprint.pprint(t, width=30)
[[[['black', 'cyan'],
'white',
['green', 'red']],
[['magenta', 'yellow'],
'blue']]]

textwrap
模块能够格式化文本段落适应给定屏幕宽度:
>>>

import textwrap

doc = """The wrap() method is just like fill() except that it returns

a list of strings instead of one big string with newlines to separate

the wrapped lines."""


print(textwrap.fill(doc, width=40))
The wrap() method is just like fill()
except that it returns a list of strings
instead of one big string with newlines
to separate the wrapped lines.

locale
模块处理特定地域文化相关数据格式。locale 模块 format 函数包含 grouping 属性直接数字格式化带有分隔样式:
>>>

import locale

locale.setlocale(locale.LC_ALL, 'English_United States.1252')
'English_United States.1252'

conv = locale.localeconv() #
获取语言区域设置映射

x = 1234567.8

locale.format_string("%d", x, grouping=True)
'1,234,567'

locale.format_string("%s%.*f", (conv['currency_symbol'],

conv['frac_digits'], x), grouping=True)
'$1,234,567.80'

11.2.
模板

string
模块包含通用 Template 具有适用最终用户简化语法允许用户更改应用逻辑情况定制自己应用

上述格式化操作通过占位符实现占位符 $ 加上合法 Python 标识只能包含字母数字下划线构成一旦使用花括号占位符起来可以后面直接跟上字母数字无需空格分割。$$ 转义单个字符 $:
>>>

from string import Template

t = Template('${village}folk send $$10 to $cause.')

t.substitute(village='Nottingham', cause='the ditch fund')
'Nottinghamfolk send $10 to the ditch fund.'

如果字典关键字参数提供占位符那么 substitute() 方法抛出 KeyError。对于邮件合并类型应用用户提供数据有可能完整此时使用 safe_substitute() 方法更加合适 —— 如果数据缺失直接占位符原样保留
>>>

t = Template('Return the $item to $owner.')

d = dict(item='unladen swallow')

t.substitute(d)
Traceback (most recent call last):
...
KeyError: 'owner'

t.safe_substitute(d)
'Return the unladen swallow to $owner.'

Template
可以自定义分隔例如以下照片浏览器批量重命名功能采用百分号作为日期照片序号照片格式占位符:
>>>

import time, os.path

photofiles = ['img_1074.jpg', 'img_1076.jpg', 'img_1077.jpg']

class BatchRename(Template):

delimiter = '%'


fmt = input('Enter rename style (%d-date %n-seqnum %f-format): ')
Enter rename style (%d-date %n-seqnum %f-format): Ashley_%n%f

t = BatchRename(fmt)

date = time.strftime('%d%b%y')

for i, filename in enumerate(photofiles):

base, ext = os.path.splitext(filename)

newname = t.substitute(d=date, n=i, f=ext)

print('{0} --> {1}'.format(filename, newname))

img_1074.jpg --> Ashley_0.jpg
img_1076.jpg --> Ashley_1.jpg
img_1077.jpg --> Ashley_2.jpg

模板另一应用程序逻辑多样格式化输出细节离开使得 XML 文件纯文本报表 HTML 网络报表使用自定义模板成为可能
11.3.
使用二进制数据记录格式

struct
模块提供 pack() unpack() 函数用于处理不定长度二进制记录格式下面例子展示使用 zipfile 模块情况如何循环遍历 ZIP 文件所有头信息。Pack 代码 "H" "I" 分别代表字节字节无符号整数。"<" 代表它们标准尺寸字节:

import struct

with open('myfile.zip', 'rb') as f:
data = f.read()

start = 0
for i in range(3): #
显示 3 文件
start += 14
fields = struct.unpack('<IIIHH', data[start:start+16])
crc32, comp_size, uncomp_size, filenamesize, extra_size = fields

start += 16
filename = data[start:start+filenamesize]
start += filenamesize
extra = data[start:start+extra_size]
print(filename, hex(crc32), comp_size, uncomp_size)

start += extra_size + comp_size #
跳过下一个

11.4.
线程

线程一种对于顺序依赖多个任务进行解耦技术线程可以提高应用响应效率接收用户输入同时保持其他任务后台运行有关应用场景 I/O 计算运行并行线程

以下代码展示高阶 threading 模块如何在后运行任务影响程序继续运行:

import threading, zipfile

class AsyncZip(threading.Thread):
def __init__(self, infile, outfile):
threading.Thread.__init__(self)
self.infile = infile
self.outfile = outfile

def run(self):
f = zipfile.ZipFile(self.outfile, 'w', zipfile.ZIP_DEFLATED)
f.write(self.infile)
f.close()
print('Finished background zip of:', self.infile)

background = AsyncZip('mydata.txt', 'myarchive.zip')
background.start()
print('The main program continues to run in foreground.')

background.join() #
等待背景任务结束
print('Main program waited until background was done.')

线程应用面临主要挑战相互协调多个线程之间需要共享数据其他资源为此,threading 模块提供多个同步操作原语包括线程事件条件变量信号

尽管这些工具非常强大小的设计错误可以导致一些难以复现问题因此实现任务协作首选方法所有资源请求集中线程然后使用 queue 模块线程供应来自其他线程请求应用程序使用 Queue 对象进行线程通信协调易于设计易读可靠
11.5.
日志记录

logging
模块提供功能齐全灵活日志记录系统简单情况日志消息发送文件 sys.stderr

import logging
logging.debug('Debugging information')
logging.info('Informational message')
logging.warning('Warning:config file %s not found', 'server.conf')
logging.error('Error occurred')
logging.critical('Critical error -- shutting down')

产生以下输出:

WARNING:root:Warning:config file server.conf not found
ERROR:root:Error occurred
CRITICAL:root:Critical error -- shutting down

默认情况,informational debugging 消息压制输出发送标准错误其他输出选项包括消息转发电子邮件数据 HTTP 服务器过滤器可以根据消息优先级选择不同路由方式:DEBUG,INFO,WARNING,ERROR, CRITICAL。

日志系统可以直接 Python 配置可以用户配置文件加载以便自定义日志记录无需更改应用程序
11.6.
引用

Python
自动进行内存管理大多数对象进行引用计数使用 garbage collection 清除循环引用)。 对象最后引用移除不久释放其所占用内存

方式大多数应用适用偶尔必须对象持续其他对象使用跟踪它们不幸跟踪它们创建永久引用。 weakref 模块提供工具可以不必创建引用跟踪对象对象不再需要自动引用移除引用对象触发回调典型应用包括创建开销较大对象进行缓存:
>>>

import weakref, gc

class A:

def __init__(self, value):

self.value = value

def __repr__(self):

return str(self.value)


a = A(10) #
创建引用

d = weakref.WeakValueDictionary()

d['primary'] = a #
创建引用

d['primary'] #
如果对象仍然存在获取
10

del a #
移除引用

gc.collect() #
立即运行垃圾回收
0

d['primary'] #
条目自动移除
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
d['primary'] #
条目自动移除
File "C:/python313/lib/weakref.py", line 46, in __getitem__
o = self.data[key]()
KeyError: 'primary'

11.7.
用于操作列表工具

许多对于数据结构需求可以通过内置列表类型满足但是有时需要具有不同替代实现

array
模块提供一种 array 对象类似列表只能存储类型一致数据存储密度下面例子显示存储字节无符号整数数字 (类型 "H") 组成元组不是常规 Python int 对象列表采用条目 16 字节:
>>>

from array import array

a = array('H', [4000, 10, 700, 22222])

sum(a)
26932

a[1:3]
array('H', [10, 700])

collections
模块提供一种 deque 对象类似列表添加弹出速度中间查找速度对象适用实现队列广度优先搜索:
>>>

from collections import deque

d = deque(["task1", "task2", "task3"])

d.append("task4")

print("Handling", d.popleft())
Handling task1

unsearched = deque([starting_node])
def breadth_first_search(unsearched):
node = unsearched.popleft()
for m in gen_moves(node):
if is_goal(m):
return m
unsearched.append(m)

替代列表实现以外标准提供其他工具例如 bisect 模块具有用于操作有序列表函数:
>>>

import bisect

scores = [(100, 'perl'), (200, 'tcl'), (400, 'lua'), (500, 'python')]

bisect.insort(scores, (300, 'ruby'))

scores
[(100, 'perl'), (200, 'tcl'), (300, 'ruby'), (400, 'lua'), (500, 'python')]

heapq
模块提供基于常规列表实现函数最小值条目总是保持位置对于需要重复访问元素希望运行完整列表排序应用非常有用:
>>>

from heapq import heapify, heappop, heappush

data = [1, 3, 5, 7, 9, 2, 4, 6, 8, 0]

heapify(data) #
列表重新调整顺序

heappush(data, -5) #
添加条目

[heappop(data) for i in range(3)] #
获取小的条目
[-5, 0, 1]

11.8.
十进制浮点运算

decimal
模块提供一种 Decimal 数据类型用于十进制浮点运算相比内置 float 二进制浮点实现特别适用

财务应用其他需要精确十进制表示用途

控制精度

控制四舍五入满足法律监管要求

跟踪有效数位

用户期望结果手工完成计算匹配应用程序

例如使用十进制浮点二进制浮点数计算70美分手机5%费用产生不同结果如果结果四舍五入接近分数差异:
>>>

from decimal import *

round(Decimal('0.70') * Decimal('1.05'), 2)
Decimal('0.74')

round(.70 * 1.05, 2)
0.73

Decimal
表示结果保留尾部根据具有有效被乘数自动推出有效。 Decimal 可以模拟手工运算避免二进制浮点数无法精确表示十进制导致问题

精确表示特性使得 Decimal 能够执行对于二进制浮点数适用运算相等检测:
>>>

Decimal('1.00') % Decimal('.10')
Decimal('0.00')


1.00 % 0.10
0.09999999999999995

sum([Decimal('0.1')]*10) == Decimal('1.0')
True

0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 + 0.1 == 1.0
False

decimal
模块提供运算需要足够精度:
>>>

getcontext().prec = 36

Decimal(1) / Decimal(7)
Decimal('0.142857142857142857142857142857142857')