详解详解Python中的文本处理中的文本处理
主要介绍了Python中的文本处理,包括从最基本的string模块的基础使用和更进一步的re模块的使用,本文来自IBM
官方开发者技术文档,需要的朋友可以参考下
字符串字符串 -- 不可改变的序列不可改变的序列
如同大多数高级编程语言一样,变长字符串是 Python 中的基本类型。Python 在“后台”分配内存以保存字符串(或其它值),
程序员不必为此操心。Python 还有一些其它高级语言没有的字符串处理功能。
在 Python 中,字符串是“不可改变的序列”。尽管不能“按位置”修改字符串(如字节组),但程序可以引用字符串的元素或子序
列,就象使用任何序列一样。Python 使用灵活的“分片”操作来引用子序列,字符片段的格式类似于电子表格中一定范围的行或
列。以下交互式会话说明了字符串和字符片段的的用法:
字符串和分片
>>> s =
"mary had a little lamb"
>>> s[0]
# index is zero-based
'm'
>>> s[3] =
'x'
# changing element in-place fails
Traceback (innermost last):
File
"<stdin>", line 1,
in
?
TypeError: object doesn't support item assignment
>>> s[11:18]
# 'slice' a subsequence
'little '
>>> s[:4]
# empty slice-begin assumes zero
'mary'
>>> s[4]
# index 4 is not included in slice [:4]
' '
>>> s[5:-5]
# can use "from end" index with negatives
'had a little'
>>> s[:5]+s[5:]
# slice-begin & slice-end are complimentary
'mary had a little lamb'
另一个功能强大的字符串操作就是简单的 in 关键字。它提供了两个直观有效的构造:
in 关键字
>>> s =
"mary had a little lamb"
>>>
for
c
in
s[11:18]:
print
c,
# print each char in slice
...
l i t t l e
>>>
if
'x'
in
s:
print
'got x'
# test for char occurrence
...
>>>