[轉(zhuǎn)]C++ 之 stl::string 寫時拷貝導(dǎo)致的問題

前幾天在開發(fā)某些數(shù)據(jù)結(jié)構(gòu)到文件的 Dump 和 Load 功能的時候, 遇到的一個 bug 。

問題復(fù)現(xiàn)###

問題主要出在 Load 過程中,從文件讀取數(shù)據(jù)的時候, 直接使用 fread 的去操作 string 的內(nèi)部指針地址 (char)s.c_str() 。 簡化后的示例代碼如下(testdata1文件內(nèi)容是12345)
<pre>
void Load(string& s, size_t offset, size_t size) {
s.resize(size);
FILE
fp = fopen("testdata1", "r");
assert(fp != NULL);
fseek(fp, offset, SEEK_SET);
fread((char*)s.c_str(), sizeof(char), size, fp);
fclose(fp);
}
</pre>

通過 string::resize() 分配內(nèi)存空間。 通過 string::c_str() 直接獲取內(nèi)存空間的起始地址并寫入數(shù)據(jù)。

這樣的用法是典型的使用 string 當數(shù)據(jù)緩沖區(qū)的用法, 省去了 malloc(new) 和 free(delete) 的過程。 通常來講不會遇到什么問題。

不過這次遇到問題了。

簡化問題代碼示例如下:
<pre>
string s;
Load(s, 0, 3);
assert(s == "123"); // success

string s2 = s;
Load(s2, 1, 3);
assert(s2 == "234"); // success
assert(s == "123"); // failed
</pre>

注: 因為 testdata1 文件內(nèi)容是 12345 的純文本文件。 所以 Load(s, 0, 3) 內(nèi)容就是 “123” ,依此類推。

但是當后面的 string s2 = s; 定義了一個和 string 變量 s2 。 此時 Load(s2, 1, 3); 時 s2 內(nèi)容是 “234” 符合預(yù)期。

但是問題出在之后 s 的內(nèi)容也變成了 “234” , 而不是保持原來的 “123” 。

原因分析###

其實示例代碼寫成那樣,問題也清楚了很多了, 問題就出在

string s2 = s;

和之前 Load 函數(shù)中的
<pre>
fread((char*)s.c_str(), sizeof(char), size, fp);
</pre>
也就是 string 的 copy-on-write 實現(xiàn)上。

(之前的問題是隱藏在各種代碼之間,甚至都很難定位到原來是 string 的問題。)

C++ stl::string 有兩種常見的主流實現(xiàn)方式:

<strong>eager-copy</strong>
每個 string 都是一個獨立申請的內(nèi)存空間,每次拷貝都是深拷貝, 哪怕內(nèi)容是一模一樣的, 所以每個 string 的 c_str() 指針地址都是不一樣的。 這樣的優(yōu)點是內(nèi)存空間互不干擾, 缺點是內(nèi)存浪費。

<strong>copy-on-write</strong>
string 之間拷貝時不是深拷貝,只拷貝了指針, 也就是共享同一個字符串內(nèi)容, 只有在內(nèi)容被修改的時候, 才真正分配了新的內(nèi)存并 copy 。 比如 s[0]='1' 之類的修改字符串內(nèi)容的一些write操作, 就會申請新的內(nèi)容,和之前的共享內(nèi)存獨立開。 所以稱之為 『copy-on-write』

最顯然的就是 string s2 = s; 拷貝后, s 和 s2 的 c_str() 返回的指針地址是 一樣 的。 這樣的優(yōu)點就是節(jié)省內(nèi)存開銷, 當string字符串占用內(nèi)存較大時, 也可以省去深拷貝時較大的性能開銷。

不同的stl標準庫實現(xiàn)不同, 比如 Centos 6.5 默認的 stl::string 實現(xiàn)就是 『copy-on-write』, 而 Mac OS X (10.10.5) 實現(xiàn)就是 『eager-copy』。

而這次的 bug 就是和 『copy-on-write』有關(guān),

因為 s2 和 s 的 c_str() 指針是同一個, 所以 Load 函數(shù)里面的這行代碼:
<pre>
fread((char*)s.c_str(), sizeof(char), size, fp);
</pre>

我們以為只是在操作一個字符串, 其實是 s 和 s2 兩個字符串的內(nèi)容都被修改了。 所以就會導(dǎo)致一系列的問題。

完整示例代碼請看 stringload

總結(jié)###

總之,原因的源頭在于 (char*)s.c_str() , 雖然我在 StackOverFlow 上有些高票答案也經(jīng)常使用類似的把 string 當成內(nèi)存緩沖區(qū)的寫法。 畢竟方便嘛。但是考慮到 stl 的 copy-on-write 實現(xiàn),會導(dǎo)致把 stl 容器當內(nèi)存緩沖區(qū)的寫法變得有隱藏陷阱。

雖然我在解決這個 bug 之前就知道 stl 有 『copy-on-write』 實現(xiàn)這么一說。 但是開發(fā)時候往往出現(xiàn)問題的地方并不是直接在有問題的代碼那里就出現(xiàn)問題, 導(dǎo)致很難查,更何況不知道 『copy-on-write』這回事的開發(fā)者,可能就容易踩大坑了。

原文地址:http://blog.jobbole.com/100844/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1. Java基礎(chǔ)部分 基礎(chǔ)部分的順序:基本語法,類相關(guān)的語法,內(nèi)部類的語法,繼承相關(guān)的語法,異常的語法,線程的語...
    子非魚_t_閱讀 34,692評論 18 399
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 136,554評論 19 139
  • 從三月份找實習(xí)到現(xiàn)在,面了一些公司,掛了不少,但最終還是拿到小米、百度、阿里、京東、新浪、CVTE、樂視家的研發(fā)崗...
    時芥藍閱讀 42,798評論 11 349
  • 住在我頭腦里的詞語很少,彼此之間也不互相串門。唯一能夠使他們到遼闊的廣場上升起篝火圍坐的原因,也只有當我在調(diào)配所謂...
    小島上會飛的多多洛閱讀 806評論 6 3
  • 今天看的書籍是《關(guān)中大書房的故事》,看的時候又哭又笑,深受感動,我像是被這一群愛書的人所感動,為他們的精神家園惋惜...
    周興哲閱讀 305評論 0 3

友情鏈接更多精彩內(nèi)容