窺探字符串的內(nèi)存
- 首先 ,我們定義一個(gè)短的字符串,如下所示,通過
MemoryLayout打印,我們知道了str1變量占用了16個(gè)字節(jié),那么這16個(gè)字節(jié)究竟存儲(chǔ)了什么呢 ,我們通過匯編來看一下
- 首先 ,我們定義一個(gè)短的字符串,如下所示,通過
var str1 = "0123456789"
print(MemoryLayout.stride(ofValue: str1)) 打印出來是16個(gè)字節(jié),也就是說str1占用了16字節(jié)
- 為了防止干擾,我們把打印的代碼注釋掉,只留下
var str1 = "0123456789",以下就是這句代碼的匯編代碼
- 為了防止干擾,我們把打印的代碼注釋掉,只留下
TestSwift`main:
0x100001390 <+0>: pushq %rbp
0x100001391 <+1>: movq %rsp, %rbp
0x100001394 <+4>: subq $0x10, %rsp
-> 0x100001398 <+8>: leaq 0x4361(%rip), %rax ; "0123456789"
0x10000139f <+15>: movl %edi, -0x4(%rbp)
0x1000013a2 <+18>: movq %rax, %rdi
0x1000013a5 <+21>: movl $0xa, %eax
0x1000013aa <+26>: movq %rsi, -0x10(%rbp)
0x1000013ae <+30>: movq %rax, %rsi
0x1000013b1 <+33>: movl $0x1, %edx
0x1000013b6 <+38>: callq 0x100005402 ; symbol stub for: Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String
0x1000013bb <+43>: xorl %ecx, %ecx
0x1000013bd <+45>: movq %rax, 0x5e24(%rip) ; TestSwift.str1 : Swift.String
0x1000013c4 <+52>: movq %rdx, 0x5e25(%rip) ; TestSwift.str1 : Swift.String + 8
0x1000013cb <+59>: movl %ecx, %eax
0x1000013cd <+61>: addq $0x10, %rsp
0x1000013d1 <+65>: popq %rbp
0x1000013d2 <+66>: retq
- 我們重點(diǎn)觀察一下下面兩句匯編,通過注釋和操作數(shù)
q(q代表操作8個(gè)字節(jié)的空間),就可以看出來第一句是操作了str1變量的前8個(gè)字節(jié),第二句操作了str1變量的后8個(gè)字節(jié)
- 我們重點(diǎn)觀察一下下面兩句匯編,通過注釋和操作數(shù)
0x1000013bd <+45>: movq %rax, 0x5e24(%rip) ; TestSwift.str1 : Swift.String
0x1000013c4 <+52>: movq %rdx, 0x5e25(%rip) ; TestSwift.str1 : Swift.String + 8
-
0x5e24(%rip)的意思就是將rip寄存器的值與0x5e24相加 ,我們知道rip寄存器存儲(chǔ)著下一條指令的地址,也就是0x1000013c4,與0x5e24相加,就是0x1000071E8,通過LLDB命令x/2xg,打印出從0x1000071E8地址開始的16個(gè)字節(jié)的數(shù)據(jù),來進(jìn)行觀察,如下所示
-
(lldb) x/2xg 0x1000071E8
0x1000071e8: 0x3736353433323130 0xea00000000003938
上面是小端模式讀取的,不好看,現(xiàn)在用另一種模式讀取,就很容易看出來
(lldb) x 0x1000071E8
0x1000071e8: 30 31 32 33 34 35 36 37 38 39 00 00 00 00 00 ea 0123456789......
0x1000071f8: 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 ................
- 我們發(fā)現(xiàn)
str1變量中存儲(chǔ)的數(shù)據(jù)就是字符串"0123456789"的ASCII值的十六進(jìn)制,也就是說短的字符串,數(shù)據(jù)直接會(huì)存放在變量的內(nèi)存里面(非常類似OC中的tagger pointer)。
- 我們發(fā)現(xiàn)
- 我們逐漸加長(zhǎng)字符串并且一一查看內(nèi)存,如下所示,就可以看出來,當(dāng)字符串的長(zhǎng)度
小于16時(shí),隨著字符串長(zhǎng)度的逐漸增加,最后一個(gè)字節(jié)存放著0xe不變,0xa逐漸增大到了0xf,也就說0xe很有可能代表字符串的類型,而0xa肯定就是字符串的長(zhǎng)度;當(dāng)字符串的長(zhǎng)度大于等于16時(shí),str1變量的內(nèi)存突然就發(fā)生了變化,那么此時(shí)字符串是怎么存儲(chǔ)的呢?
- 我們逐漸加長(zhǎng)字符串并且一一查看內(nèi)存,如下所示,就可以看出來,當(dāng)字符串的長(zhǎng)度
var str1 = "0123456789"時(shí), str1的內(nèi)存是:0x3736353433323130 0xea00000000003938
var str1 = "0123456789A"時(shí), str1的內(nèi)存是:0x3736353433323130 0xeb00000000413938
var str1 = "0123456789AB"時(shí), str1的內(nèi)存是:0x3736353433323130 0xec00000042413938
var str1 = "0123456789ABC"時(shí), str1的內(nèi)存是:0x3736353433323130 0xed00004342413938
var str1 = "0123456789ABCD"時(shí), str1的內(nèi)存是:0x3736353433323130 0xee00444342413938
var str1 = "0123456789ABCDE"時(shí), str1的內(nèi)存是:0x3736353433323130 0xef45444342413938
var str1 = "0123456789ABCDEF"時(shí),str1的內(nèi)存是:0xd000000000000010 0x80000001000056d0
- 我們來分析一下
var str1 = "0123456789ABCDEF"的匯編代碼,窺探一下字符串是怎么存儲(chǔ)的,下面就是這句代碼的匯編代碼
- 我們來分析一下
TestSwift`main:
0x100001380 <+0>: pushq %rbp
0x100001381 <+1>: movq %rsp, %rbp
0x100001384 <+4>: subq $0x10, %rsp
-> 0x100001388 <+8>: leaq 0x4361(%rip), %rax ; "0123456789ABCDEF"
0x10000138f <+15>: movl %edi, -0x4(%rbp)
0x100001392 <+18>: movq %rax, %rdi
0x100001395 <+21>: movl $0x10, %eax
0x10000139a <+26>: movq %rsi, -0x10(%rbp)
0x10000139e <+30>: movq %rax, %rsi
0x1000013a1 <+33>: movl $0x1, %edx
0x1000013a6 <+38>: callq 0x1000053f2 ; symbol stub for: Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String
0x1000013ab <+43>: xorl %ecx, %ecx
0x1000013ad <+45>: movq %rax, 0x5e34(%rip) ; TestSwift.str1 : Swift.String
0x1000013b4 <+52>: movq %rdx, 0x5e35(%rip) ; TestSwift.str1 : Swift.String + 8
0x1000013bb <+59>: movl %ecx, %eax
0x1000013bd <+61>: addq $0x10, %rsp
0x1000013c1 <+65>: popq %rbp
0x1000013c2 <+66>: retq
- 重點(diǎn)觀察這幾句匯編,我們來一句一句分析一下,如下所示
leaq指令是直接賦值地址,從注釋可以看出來是把"0123456789ABCDEF"的真實(shí)地址給了rax寄存器
通過rip+0x4361,可以算出字符串的真實(shí)地址是:0x1000056F0
0x100001388 <+8>: leaq 0x4361(%rip), %rax ; "0123456789ABCDEF"
又把rax寄存器的值給了rdi寄存器,也就是說rdi寄存器里存放著字符串的真實(shí)地址
0x100001392 <+18>: movq %rax, %rdi
把0x10給了eax寄存器,eax寄存器就是rax寄存器,也就是說rax寄存器里存儲(chǔ)著字符串的長(zhǎng)度(十六進(jìn)制0x10就是十進(jìn)制的16)
0x100001395 <+21>: movl $0x10, %eax
又把rax寄存器的值給了rsi寄存器,也就是說rsi寄存器里的值就是字符串的長(zhǎng)度
0x10000139e <+30>: movq %rax, %rsi
調(diào)用了函數(shù)String.init(),把rdi寄存器和rsi寄存器作為了參數(shù),也就說把字符串的真實(shí)地址和字符串長(zhǎng)度作為參數(shù),調(diào)用了String.init()
0x1000013a6 <+38>: callq 0x1000053f2 ; symbol stub for: Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String
把rax寄存器的值給了str1變量的前8個(gè)字節(jié)
0x1000013ad <+45>: movq %rax, 0x5e34(%rip) ; TestSwift.str1 : Swift.String
把rdx寄存器的值給了str1變量的后8個(gè)字節(jié)
0x1000013b4 <+52>: movq %rdx, 0x5e35(%rip) ; TestSwift.str1 : Swift.String + 8
- 從上面分析可以看出來,
rdi寄存器存放著字符串的真實(shí)地址,rsi寄存器存放著字符串的長(zhǎng)度,然后又把這兩個(gè)作為參數(shù),調(diào)用了String.init()函數(shù),最后函數(shù)的把返回值存在了rax寄存器和rdx寄存器中,又分別放到了str1變量的前8個(gè)字節(jié)和后8個(gè)字節(jié)中,那么我們?cè)賮矸治鲆幌?code>String.init()函數(shù)內(nèi)部究竟做了什么,我們來看一下String.init()函數(shù)的匯編代碼:
- 從上面分析可以看出來,
libswiftCore.dylib`Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String:
-> 0x7fff722e9c40 <+0>: pushq %rbp
0x7fff722e9c41 <+1>: movq %rsp, %rbp
0x7fff722e9c44 <+4>: pushq %r14
0x7fff722e9c46 <+6>: pushq %rbx
0x7fff722e9c47 <+7>: subq $0x10, %rsp
0x7fff722e9c4b <+11>: testq %rsi, %rsi
0x7fff722e9c4e <+14>: js 0x7fff722e9e31 ; <+497>
0x7fff722e9c54 <+20>: movl %edx, %eax
0x7fff722e9c56 <+22>: movabsq $-0x2000000000000000, %rdx ; imm = 0xE000000000000000
0x7fff722e9c60 <+32>: testq %rsi, %rsi
0x7fff722e9c63 <+35>: je 0x7fff722e9ca4 ; <+100>
0x7fff722e9c65 <+37>: cmpq $0xf, %rsi
0x7fff722e9c69 <+41>: jle 0x7fff722e9cab ; <+107>
0x7fff722e9c6b <+43>: movabsq $-0x4000000000000000, %rcx ; imm = 0xC000000000000000
0x7fff722e9c75 <+53>: orq %rsi, %rcx
0x7fff722e9c78 <+56>: testb $0x1, %al
0x7fff722e9c7a <+58>: cmoveq %rsi, %rcx
0x7fff722e9c7e <+62>: movabsq $0x1000000000000000, %rax ; imm = 0x1000000000000000
0x7fff722e9c88 <+72>: orq %rcx, %rax
0x7fff722e9c8b <+75>: movabsq $0x7fffffffffffffe0, %rdx ; imm = 0x7FFFFFFFFFFFFFE0
0x7fff722e9c95 <+85>: addq %rdx, %rdi
0x7fff722e9c98 <+88>: addq $0x20, %rdx
- 我們重點(diǎn)看下面三句匯編,在
String.init()函數(shù)內(nèi)部,它比較了0xf與rsi寄存器值的大小,前面說過rsi寄存器中存放著字符串的長(zhǎng)度,也就是比較了0xf與字符串的長(zhǎng)度;又把rdx寄存器的值變成了字符串的真實(shí)地址+$0x7fffffffffffffe0,從上面的分析我們知道rdx寄存器的值最后又給了str1變量的后8個(gè)字節(jié),也就是說現(xiàn)在str1變量的后8個(gè)字節(jié)存放的是字符串的真實(shí)地址+$0x7fffffffffffffe0
- 我們重點(diǎn)看下面三句匯編,在
比較0xf與rsi寄存器值的大小,前面說過rsi寄存器中存放著字符串的長(zhǎng)度
0x7fff722e9c65 <+37>: cmpq $0xf, %rsi
將立即數(shù)$0x7fffffffffffffe0放到rdx寄存器中
0x7fff722e9c8b <+75>: movabsq $0x7fffffffffffffe0, %rdx ; imm = 0x7FFFFFFFFFFFFFE0
將rdx寄存器中的值與rdi寄存器相加,并且放到rdx寄存器中,前面說過rdi寄存器放著字符串的真實(shí)地址
所以現(xiàn)在rdx寄存器中放著字符串的真實(shí)地址+$0x7fffffffffffffe0
0x7fff722e9c95 <+85>: addq %rdx, %rdi
- 通過以下兩種方式都可以算出來字符串的真實(shí)地址是
0x1000056F0,那么這個(gè)地址究竟指向內(nèi)存空間的哪里呢,我們通過MacOView工具來查看一下這個(gè)地址
- 通過以下兩種方式都可以算出來字符串的真實(shí)地址是
通過rip+0x4361,可以算出字符串的真實(shí)地址是:0x1000056F0
0x100001388 <+8>: leaq 0x4361(%rip), %rax ; "0123456789ABCDEF"
也可以通過str1后8個(gè)字節(jié)的數(shù)據(jù) - 0x7fffffffffffffe0 算出來,字符串的真實(shí)地址是0x1000056F0
var str1 = "0123456789ABCDEF"時(shí),str1的內(nèi)存是:0xd000000000000010 0x80000001000056d0
- MacOView中的地址是虛擬地址,需要加上
0x1000000才是內(nèi)存中的真實(shí)地址,也就是字符串的真實(shí)地址0x1000056F0,減去0x1000000,算出來的0x56F0才是在MacOView中的虛擬地址,從這個(gè)0x56F0地址存放的位置,從下圖可以看出,字符串在_TEXT,_cstring中,也就是常量區(qū),所以得出結(jié)論:當(dāng)字符串的長(zhǎng)度大于等于16時(shí),字符串會(huì)存儲(chǔ)在常量區(qū)。
0x56F0的位置
- MacOView中的地址是虛擬地址,需要加上
- 其實(shí)無(wú)論字符串長(zhǎng)短,
初始化時(shí)的字符串都會(huì)在常量區(qū),當(dāng)字符串長(zhǎng)度小于16時(shí),會(huì)把常量區(qū)的字符串直接放到變量的內(nèi)存中;當(dāng)字符串長(zhǎng)度大于等于16時(shí),會(huì)把常量區(qū)的地址加上某個(gè)立即數(shù),然后放在變量的后8個(gè)字節(jié)中。
- 其實(shí)無(wú)論字符串長(zhǎng)短,
- 我們知道
當(dāng)程序運(yùn)行時(shí),常量區(qū)的值就不能更改了,那么當(dāng)我們拼接字符串時(shí),字符串又是如何存儲(chǔ)的呢?來看看下面的代碼
- 我們知道
var str1 = "0123456789ABCDEF"
str1.append("G")
- 這兩句代碼的匯編是這樣的 :
TestSwift`main:
0x100001300 <+0>: pushq %rbp
0x100001301 <+1>: movq %rsp, %rbp
0x100001304 <+4>: pushq %r13
0x100001306 <+6>: subq $0x38, %rsp
-> 0x10000130a <+10>: leaq 0x43df(%rip), %rax ; "0123456789ABCDEF"
0x100001311 <+17>: movl %edi, -0x24(%rbp)
0x100001314 <+20>: movq %rax, %rdi
0x100001317 <+23>: movl $0x10, %eax
0x10000131c <+28>: movq %rsi, -0x30(%rbp)
0x100001320 <+32>: movq %rax, %rsi
0x100001323 <+35>: movl $0x1, %edx
0x100001328 <+40>: callq 0x1000053d2 ; symbol stub for: Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String
0x10000132d <+45>: movq %rax, 0x5ec4(%rip) ; TestSwift.str1 : Swift.String
0x100001334 <+52>: movq %rdx, 0x5ec5(%rip) ; TestSwift.str1 : Swift.String + 8
0x10000133b <+59>: leaq 0x43bf(%rip), %rdi ; "'G'"
0x100001342 <+66>: movl $0x1, %esi
0x100001347 <+71>: movl $0x1, %edx
0x10000134c <+76>: callq 0x1000053d2 ; symbol stub for: Swift.String.init(_builtinStringLiteral: Builtin.RawPointer, utf8CodeUnitCount: Builtin.Word, isASCII: Builtin.Int1) -> Swift.String
0x100001351 <+81>: leaq 0x5ea0(%rip), %rsi ; TestEnumMemory.str1 : Swift.String
0x100001358 <+88>: xorl %ecx, %ecx
0x10000135a <+90>: movq %rsi, %rdi
0x10000135d <+93>: leaq -0x20(%rbp), %rsi
0x100001361 <+97>: movl $0x21, %r8d
0x100001367 <+103>: movq %rdx, -0x38(%rbp)
0x10000136b <+107>: movq %r8, %rdx
0x10000136e <+110>: movq %rax, -0x40(%rbp)
0x100001372 <+114>: callq 0x10000547a ; symbol stub for: swift_beginAccess
0x100001377 <+119>: movq -0x40(%rbp), %rdi
0x10000137b <+123>: movq -0x38(%rbp), %rsi
0x10000137f <+127>: leaq 0x5e72(%rip), %r13 ; TestSwift.str1 : Swift.String
0x100001386 <+134>: callq 0x1000053d8 ; symbol stub for: Swift.String.append(Swift.String) -> ()
0x10000138b <+139>: leaq -0x20(%rbp), %rdi
0x10000138f <+143>: callq 0x100005498 ; symbol stub for: swift_endAccess
0x100001394 <+148>: movq -0x38(%rbp), %rdi
0x100001398 <+152>: callq 0x100005480 ; symbol stub for: swift_bridgeObjectRelease
0x10000139d <+157>: xorl %eax, %eax
0x10000139f <+159>: addq $0x38, %rsp
0x1000013a3 <+163>: popq %r13
0x1000013a5 <+165>: popq %rbp
0x1000013a6 <+166>: retq
- 重點(diǎn)觀察這一句
0x10000137f <+127>: leaq 0x5e72(%rip), %r13 ; TestEnumMemory.str1 : Swift.String,str1變量的地址時(shí)在r13寄存器中的,我們打印r13寄存器中的值,就可以得出str1變量的地址,讀取str1變量的后 8個(gè)字節(jié),我們發(fā)現(xiàn)從第33個(gè)字節(jié)開始,就是我們存儲(chǔ)的字符串了,有經(jīng)驗(yàn)的話,一眼就可以看出,str1變量的后8個(gè)字節(jié),存放的是堆空間的地址。
- 重點(diǎn)觀察這一句
str1變量的地址從0x00000001000071f8開始的
(lldb) register read r13
r13 = 0x00000001000071f8 TestEnumMemory`TestEnumMemory.str1 : Swift.String
從0x00000001000071f8開始,讀取16個(gè)字節(jié)
(lldb) x/2xg 0x00000001000071f8
0x1000071f8: 0xf000000000000011 0x000000010070ac40
讀取 str1變量的后8個(gè)字節(jié)
(lldb) x/10xg 0x000000010070ac40
0x10070ac40: 0x00007fff9cc0fca8 0x0000000000000002
0x10070ac50: 0x0000000000000018 0xf000000000000011
0x10070ac60: 0x3736353433323130 0x4645444342413938
0x10070ac70: 0x00007fff93e30047 0x0000000000000000
0x10070ac80: 0x0000000000000000 0x0000000000000000
- 這里總結(jié)一下字符串的內(nèi)存
如果一開始初始化時(shí),字符串長(zhǎng)度
小于16時(shí),會(huì)直接把常量區(qū)字符串的內(nèi)容 ,拷貝到str1變量的內(nèi)存中,例如:var str1 = "0123456789",字符串的內(nèi)容就以ASCII的形式存儲(chǔ)在str1變量的內(nèi)存中如果一開始初始化時(shí),字符串長(zhǎng)度
大于等于16時(shí),字符串內(nèi)容會(huì)存放在常量區(qū)(__TEXT.cstring),變量的前8個(gè)字節(jié)存放標(biāo)識(shí)符和字符串長(zhǎng)度,會(huì)把字符串的常量區(qū)的真實(shí)地址加上某個(gè)立即數(shù),存放在變量的后8個(gè)字節(jié)中,例如:var str1 = "0123456789ABCDEF",str1變量的前8個(gè)字節(jié)存放標(biāo)識(shí)符和字符串長(zhǎng)度,后8個(gè)字節(jié)就存放著字符串的常量區(qū)地址+某個(gè)立即數(shù)如果字符串拼接之后如果仍然
小于16時(shí),字符串的內(nèi)容還是存放在str1變量的內(nèi)存中,例如:var str1 = "012345"; str1.append("ABCDE"),拼接后字符串的內(nèi)容仍然在str1變量的內(nèi)存中如果字符串拼接之后長(zhǎng)度
大于等于16,會(huì)開辟堆空間,變量的后8個(gè)字節(jié)存放著這個(gè)堆空間的地址信息,堆空間的前32個(gè)字節(jié)存放描述信息,后面才是真正的字符串內(nèi)容,例如:var str1 = "012345678"; str1.append("ABCDEFGHEFSJ"),拼接之后,就會(huì)開辟堆空間,str1變量的 后8個(gè)字節(jié)就是這個(gè)堆空間的地址,堆空間里的前32個(gè)字節(jié)存放描述信息,往后就是字符串的內(nèi)容
