Python中定义字符串和修改字符串的原理

来源:互联网 时间:1970-01-01

  Python是用C语言开发的,在C语言中是没有字符串的概念,只有字符和字符数组,一般用字符数组表示字符串,所以在Python中定义一个字符串时,其实就是在内存中开辟一块空间, 
例如:
定义一个字 符串string1=hello  --------->5个字符
字符数组['h','e','l','l','o'],其在内存中存储的位置为:['h','e','l','l','o']
而如果想要修改该字符串为hellosb,在需要在内存中重新开辟一块数据空间为:['h','e','l','l','o','s','b']
同样:如果要修改hello字符串为hello0,则在内存中开辟空间为['h','e','l','l','o','0']
 
另外如果字符串相加:
 
"hello"+'sb'+"alex"
在内存中的原理可以理解为:
首先开辟一块地址空间000001存储:"hello"
因为“hello”+'sb',所以在接下来又要开辟一块内存空间000002存储 "hello"+'sb'
因为"hello"+'sb'后面还要加上另外一个字符串"alex"
所以还要开辟一块地址空间000003存储"hello"+'sb'+"alex"
综上所述:
如果要实现三个字符串"hello"+'sb'+"alex"相加,则需要开辟三块地址空间
000001-------->"hello"
000002--------->"hello" + 'sb'
000003--------->"hello"+'sb'+"alex"
 
提示:以上原理对C#和JAVA同样适用
 
以上的前面多余的空间对于C语言是可以自动释放,C#和JAVA是高级语言,他们则是通过虚拟机的垃圾回收机制来释放前面分配的多余空间(比如:000001,000002)
 
小结:
Python文件解释器执行经过的阶段:
1、加载内存--->词法分析--->语法分析--->经过编译生产成字节码--->通过虚拟机解释成机器码然后交给CPU运行
2、三种编码:
ascii:只能表示256个字符,因为它只用8位来表示,即2的8次方有256中可能
Unicode:最少用16位来表示字符,即最少用两个字节来表示字符
utf8:用utf8的原因是因为有些字符在Unicode中用8位就可以来表示,而用16位来表示则显得浪费,所以用utf8,可以说utf8是Unicode的一个改进版
3、脚本参数[获取参数用sys模块的argv功能]
4、字节码:即后缀为.pyc的文件,如果导入一个文件,并执行它,那么被导入的文件会自动生成.pyc文件;另外如果被导入的文件与其生成的.pyc内容相同时,在执行的过程中.pyc的优先级要高于被导入的文件(.py),如果被导入的文件做了修改,则需要重新编译再生成.pyc文件。
5、申明变量的注意事项:
①Python中的变量只能是数字、字母、和下划线
②Python中的变量开头不能是数字
③Python的变量名不能是系统规定的关键字
6、变量赋值
  如果对变量赋值之后,然后再对变量的赋值进行,则需要在内存重新开辟段地址空间,对于C语言而言是没有字符串的,C语言表示字符串的是字符数组;为什么不能让字符串动态的变化,而要每次进行分配?Python中字符数组表示数组的时候它的内存地址是连续的,如果不是连续的,那么后面的地址就要空出来,那对于一个未知长度的变量,后面的地址要空出来的话我们是不得而知的,也是无法预知的,所以Python中变量地址都是连续的。 在解决这种问题的时候,Python的内部有缓冲池或者数字池或者叫做字符串池的概念,Python它有一块空间它会自己经过计算,把你经常使用的数字它会放到这个区域里面,我们在来使用这种频繁被使用的字符串的时候就可以避免在内存中一次一次的开辟空间。
对于小数字的缓冲空间:-5~257
对于大数字的缓冲空间8~1000



相关阅读:
Top