Java中字串物件建立有兩種形式,一種為字面量形式,如String str = "droid";,另一種就是使用new這種標準的建構物件的方法,如String str = new String(" droid");,這兩種方式我們在程式碼編寫時都經常使用,尤其是字面量的方式。然而這兩種實現其實存在著一些效能和記憶體佔用的差異。這一切都是源自於JVM為了減少字串物件的重複創建,其維護了一個特殊的內存,這段記憶體被成為字串常數池或字串字面量池。
工作原理
當程式碼中出現字面量形式建立字串物件時,JVM首先會對這個字面量進行檢查,如果字串常數池中存在相同內容的字串物件的引用,則將這個引用返回,否則新的字串物件被創建,然後將這個引用放入字串常數池,並傳回該引用。
舉例說明
字面量創建形式
複製代碼代碼如下:
String str1 = "droid";
JVM偵測這個字面量,這裡我們認為沒有內容為droid的物件存在。 JVM透過字串常數池查找不到內容為droid的字串物件存在,那麼會建立這個字串對象,然後將剛建立的物件的引用放入到字串常數池中,並且將引用傳回給變數str1 。
如果接下來有這樣一段程式碼
複製代碼代碼如下:
String str2 = "droid";
同樣JVM還是要檢測這個字面量,JVM透過查找字串常數池,發現內容為」droid」字串物件存在,於是將已經存在的字串物件的引用回傳給變數str2。注意這裡不會重新建立新的字串物件。
驗證是否為str1和str2是否指向同一對象,我們可以透過這段程式碼
複製代碼代碼如下:
System.out.println(str1 == str2);
結果為true。
使用new創建
複製代碼代碼如下:
String str3 = new String("droid");
當我們使用了new來建構字串物件的時候,不管字串常數池中有沒有相同內容的物件的引用,新的字串物件都會創建。因此我們使用下面程式碼測試一下,
複製代碼代碼如下:
String str3 = new String("droid");
System.out.println(str1 == str3);
結果如我們所想,為false,表示這兩個變數指向的為不同的物件。
intern
對於上面使用new建立的字串對象,如果想將這個物件的參考加入到字串常數池,可以使用intern方法。
呼叫intern後,首先檢查字串常數池中是否有該物件的引用,如果存在,則將這個引用傳回給變量,否則將引用加入並傳回給變數。
複製代碼代碼如下:
String str4 = str3.intern();
System.out.println(str4 == str1);
輸出的結果為true。
疑難問題
前提條件?
字串常數池實作的前提條件就是Java中String物件是不可變的,這樣可以安全保證多個變數共享同一個物件。如果Java中的String物件可變的話,一個引用運算改變了物件的值,那麼其他的變數也會受到影響,顯然這樣是不合理的。
引用or 對象
字串常數池中存放的時引用還是對象,這個問題是最常見的。字串常數池存放的是物件引用,不是物件。在Java中,物件都創建在堆疊記憶體中。
更新驗證,收到的許多評論也在討論這個問題,我簡單的進行了驗證。 驗證環境:
複製代碼代碼如下:
22:18:54-androidyue~/Videos$ cat /etc/os-release
NAME=Fedora
VERSION="17 (Beefy Miracle)"
ID=fedora
VERSION_ID=17
PRETTY_NAME="Fedora 17 (Beefy Miracle)"
ANSI_COLOR="0;34"
CPE_NAME="cpe:/o:fedoraproject:fedora:17"
22:19:04-androidyue~/Videos$ java -version
java version "1.7.0_25"
OpenJDK Runtime Environment (fedora-2.3.12.1.fc17-x86_64)
OpenJDK 64-Bit Server VM (build 23.7-b01, mixed mode)
驗證思路:以下的Java程式讀取一個大小為82M的視訊文件,以字串形式進行intern操作。
複製代碼代碼如下:
22:01:17-androidyue~/Videos$ ll -lh | grep why_to_learn.mp4
-rw-rw-r--. 1 androidyue androidyue 82M Oct 20 2013 why_to_learn.mp4
驗證程式碼
複製代碼代碼如下:
import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
public class TestMain {
private static String fileContent;
public static void main(String[] args) {
fileContent = readFileToString(args[0]);
if (null != fileContent) {
fileContent = fileContent.intern();
System.out.println("Not Null");
}
}
private static String readFileToString(String file) {
BufferedReader reader = null;
try {
reader = new BufferedReader(new FileReader(file));
StringBuffer buff = new StringBuffer();
String line;
while ((line = reader.readLine()) != null) {
buff.append(line);
}
return buff.toString();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} finally {
if (null != reader) {
try {
reader.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
return null;
}
}
由於字串常數池存在於堆疊記憶體中的永久代,因此適用於Java8之前。我們透過設定永久代一個很小的值來進行驗證。如果字串物件存在字串常數池中,那麼必然拋出java.lang.OutOfMemoryError permgen space錯誤。
複製代碼代碼如下:
java -XX:PermSize=6m TestMain ~/Videos/why_to_learn.mp4
運行證明程式沒有拋出OOM,其實這個不能很好的證明儲存的是物件還是引用。
但是這個至少證明了字串的實際內容物件char[]不存放在字串常數池中。既然這樣的話,其實字串常數池儲存字串物件還是字串物件的參考反而不是那麼重要。但個人還是傾向於儲存的為引用。
優缺點
字串常數池的好處是減少相同內容字串的創建,節省記憶體空間。
如果硬要說弊端的話,就是犧牲了CPU運算時間來換空間。 CPU計算時間主要用於在字串常數池中尋找是否有對內容相同物件的參考。不過其內部實作為HashTable,所以計算成本較低。
GC回收?
因為字串常數池中持有了共享的字串物件的引用,這就是說是不是會導致這些物件無法回收?
首先問題中共享的物件一般情況下都比較小。據我查證了解,在早期的版本中確實存在這樣的問題,但是隨著弱引用的引入,目前這個問題應該沒有了。
關於這個問題,可以具體了解這片文章interned Strings : Java Glossary
intern使用?
關於使用intern的前提就是你清楚自己確實需要使用。例如,我們這裡有一份百萬的記錄,其中記錄的某個值多次為美國加利福尼亞州,我們不想創建上百萬個這樣的字符串對象,我們可以使用intern只在內存中保留一份即可。關於intern更深入的了解請參考深入解析String#intern。
總有例外?
你知道下面的程式碼,會創建幾個字串對象,在字串常數池中保存幾個引用麼?
複製代碼代碼如下:
String test = "a" + "b" + "c";
答案是只創建了一個對象,在常數池中也只保存一個引用。我們使用javap反編譯看一下即可得知。
複製代碼代碼如下:
17:02 $ javap -c TestInternedPoolGC
Compiled from "TestInternedPoolGC.java"
public class TestInternedPoolGC extends java.lang.Object{
public TestInternedPoolGC();
Code:
0: aload_0
1: invokespecial #1; //Method java/lang/Object."<init>":()V
4: return
public static void main(java.lang.String[]) throws java.lang.Exception;
Code:
0: ldc #2; //String abc
2: astore_1
3: return
看到了麼,實際上在編譯期間,已經將這三個字面量合成了一個。這樣做實際上是一種最佳化,避免了創建多餘的字串對象,也沒有發生字串拼接問題。關於字串拼接,可以查看Java細節:字串的拼接。