平日忙於專案的邏輯實現,週六有點時間,從書櫃裡拿出厚厚的英文版Thinking In Java,讀到了字串物件的拼接。參考這本書做個翻譯,加上自己思考的東西,寫上這篇文章記錄。
不可變的String對象
在Java中,String物件是不可變的(Immutable)。在程式碼中,可以建立多個某一個String物件的別名。但是這些別名都是的引用是相同的。
例如s1和s2都是”droidyue.com”物件的別名,別名則保存到真實物件的引用。所以s1 = s2
複製代碼代碼如下:
String s1 = "droidyue.com";
String s2 = s1;
System.out.println("s1 and s2 has the same reference =" + (s1 == s2));
Java中僅有的重載運算符
在Java中,唯一被重載的運算子就是字串的拼接相關的。 +,+=。除此之外,Java設計者不允許重載其他的運算子。
拼接剖析
真的有性能代價麼
了解了上面兩點,可能會有這樣的思考,既然Sting物件不可變,那麼多(三個以上)字串拼接必然產生多餘的中間String物件。
複製代碼代碼如下:
String userName = "Andy";
String age = "24";
String job = "Developer";
String info = userName + age + job;
要得到上面的info,就會userName和age拼接生成臨時一個String物件t1,內容為Andy24,然後有t1和job拼接產生最終我們需要的info對象,這其中,產生了一個中間的t1,而且t1創建之後,沒有主動回收,勢必會佔據一定的空間。如果是一個很多(假設上百個,多見於對物件的toString的呼叫)字串的拼接,那麼代價就更大了,效能一下會降低很多。
編譯器的最佳化處理
真的會有上面的效能代價麼,字串拼接這麼常用,沒有特殊的處理優化麼,答案是有的,這個優化進行在編譯器編譯.java到bytecode時。
一個Java程式如果想要運作起來,需要經過兩個時期,編譯時和執行時。在編譯時,Java 編譯器(Compiler)將java檔轉換成字節碼。在執行時,Java虛擬機器(JVM)會執行編譯時產生的字節碼。透過這樣兩個時期,Java做到了所謂的一個編譯,處處運作。
我們實驗一下編譯期都做了哪些最佳化,我們製造一段可能會出現效能代價的程式碼。
複製代碼代碼如下:
public class Concatenation {
public static void main(String[] args) {
String userName = "Andy";
String age = "24";
String job = "Developer";
String info = userName + age + job;
System.out.println(info);
}
}
對Concatenation.java進行編譯一下。得到Concatenation.class
複製代碼代碼如下:
javac Concatenation.java
然後我們使用javap反編譯一下編譯出來的Concatenation.class檔。 javap -c Concatenation。如果沒有找到javap指令,請考慮將javap所在目錄加入環境變數或使用javap的完整路徑。
複製代碼代碼如下:
17:22:04-androidyue~/workspace_adt/strings/src$ javap -c Concatenation
Compiled from "Concatenation.java"
public class Concatenation {
public Concatenation();
Code:
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return
public static void main(java.lang.String[]);
Code:
0: ldc #2 // String Andy
2: astore_1
3: ldc #3 // String 24
5: astore_2
6: ldc #4 // String Developer
8: astore_3
9: new #5 // class java/lang/StringBuilder
12: dup
13: invokespecial #6 // Method java/lang/StringBuilder."<init>":()V
16: aload_1
17: invokevirtual #7 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
20: aload_2
21: invokevirtual #7 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
24: aload_3
25: invokevirtual #7 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
28: invokevirtual #8 // Method java/lang/StringBuilder.toString:()Ljava/lang/String;
31: astore 4
33: getstatic #9 // Field java/lang/System.out:Ljava/io/PrintStream;
36: aload 4
38: invokevirtual #10 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
41: return
}
其中,ldc,astore等為java字節碼的指令,類似組譯指令。後面的註解使用了Java相關的內容進行了說明。 我們可以看到上面有很多StringBuilder,但是我們在Java程式碼裡並沒有顯示地調用,這就是Java編譯器所做的最佳化,當Java編譯器遇到字串拼接的時候,會建立一個StringBuilder對象,後面的拼接,實際上是呼叫StringBuilder物件的append方法。這樣就不會出現我們上面擔心的問題了。
僅靠編譯器優化?
既然編譯器幫我們做了最佳化,是不是只靠編譯器的最佳化就夠了呢,當然不是。
下面我們來看一段未優化效能較低的程式碼
複製代碼代碼如下:
public void implicitUseStringBuilder(String[] values) {
String result = "";
for (int i = 0 ; i < values.length; i ++) {
result += values[i];
}
System.out.println(result);
}
使用javac編譯,使用javap查看
複製代碼代碼如下:
public void implicitUseStringBuilder(java.lang.String[]);
Code:
0: ldc #11 // String
2: astore_2
3: iconst_0
4: istore_3
5: iload_3
6: aload_1
7: arraylength
8: if_icmpge 38
11: new #5 // class java/lang/StringBuilder
14: dup
15: invokespecial #6 // Method java/lang/StringBuilder."<init>":()V
18: aload_2
19: invokevirtual #7 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
22: aload_1
23: iload_3
24: aaload
25: invokevirtual #7 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
28: invokevirtual #8 // Method java/lang/StringBuilder.toString:()Ljava/lang/String;
31: astore_2
32: iinc 3, 1
35: goto 5
38: getstatic #9 // Field java/lang/System.out:Ljava/io/PrintStream;
41: aload_2
42: invokevirtual #10 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
45: return
其中8: if_icmpge 38 和35: goto 5構成了一個循環。 8: if_icmpge 38的意思是如果JVM操作數棧的整數對比大於等於(i < values.length的相反結果)成立,則跳到第38行(System.out)。 35: goto 5則表示直接跳到第5行。
但這裡面有一個很重要的就是StringBuilder物件建立發生在迴圈之間,也就是代表有多少次迴圈會建立多少個StringBuilder對象,這樣明顯不好。赤裸裸地低水平代碼啊。
稍微優化一下,瞬間提升逼格。
複製代碼代碼如下:
public void explicitUseStringBuider(String[] values) {
StringBuilder result = new StringBuilder();
for (int i = 0; i < values.length; i ++) {
result.append(values[i]);
}
}
對應的編譯後的訊息
複製代碼代碼如下:
public void explicitUseStringBuider(java.lang.String[]);
Code:
0: new #5 // class java/lang/StringBuilder
3: dup
4: invokespecial #6 // Method java/lang/StringBuilder."<init>":()V
7: astore_2
8: iconst_0
9: istore_3
10: iload_3
11: aload_1
12: arraylength
13: if_icmpge 30
16: aload_2
17: aload_1
18: iload_3
19: aaload
20: invokevirtual #7 // Method java/lang/StringBuilder.append:(Ljava/lang/String;)Ljava/lang/StringBuilder;
23: pop
24: iinc 3, 1
27: goto 10
30: return
從上面可以看出,13: if_icmpge 30和27: goto 10構成了一個loop循環,而0: new #5位於循環之外,所以不會多次創建StringBuilder.
總的來說,我們在循環體中需要盡量避免隱式或明確創建StringBuilder. 所以那些了解程式碼如何編譯,內部如何執行的人,寫的程式碼檔次都比較高。
以上文章,如有錯誤,請批評指正。