Java中的變數分為兩類:局部變數和類別變數。局部變數是指在方法內定義的變量,如在run方法中定義的變數。對於這些變數來說,並不存在執行緒之間共享的問題。因此,它們不需要進行資料同步。類別變數是在類別中定義的變量,作用域是整個類別。這類變數可以被多個執行緒共享。因此,我們需要對這類變數進行資料同步。
資料同步是指在同一時間,只能由一個執行緒來存取被同步的類別變量,當前執行緒存取完這些變數後,其他執行緒才能繼續存取。這裡說的訪問是指有寫入操作的訪問,如果所有訪問類別變數的執行緒都是讀取操作,一般是不需要資料同步的。那麼如果不對共享的類別變數進行資料同步,會發生什麼事呢?讓我們先看看下面的程式碼會發生什麼樣的事情:
複製代碼代碼如下:
package test;
public class MyThread extends Thread
{
public static int n = 0;
public void run()
{
int m = n;
yield();
m++;
n = m;
}
public static void main(String[] args) throws Exception
{
MyThread myThread = new MyThread ();
Thread threads[] = new Thread[100];
for (int i = 0; i < threads.length; i++)
threads[i] = new Thread(myThread);
for (int i = 0; i < threads.length; i++)
threads[i].start();
for (int i = 0; i < threads.length; i++)
threads[i].join();
System.out.println("n = " + MyThread.n);
}
}
在執行上面程式碼的可能結果如下:
複製代碼代碼如下:
n = 59
看到這個結果,可能很多讀者會感到奇怪。這個程式明明是啟動了100個線程,然後每個線程將靜態變數n加1。最後使用join方法讓這100個執行緒都運行完後,再輸出這個n值。照正常來講,結果應該是n = 100。可偏偏結果小於100。
其實產生這種結果的罪魁禍首就是我們常提到的「髒數據」。而run方法中的yield()語句就是產生“臟數據”的始作俑者(不加yield語句也可能會產生“臟數據”,但不會這麼明顯,只有將100改成更大的數,才會經常產生“髒數據”,在本例中調用yield就是為了放大“髒數據”的效果)。 yield方法的作用是讓執行緒暫停,也就是讓呼叫yield方法的執行緒暫時放棄CPU資源,讓CPU有機來執行其他的執行緒。為了說明這個程式如何產生“髒數據”,我們假設只創建了兩個線程:thread1和thread2。由於先呼叫了thread1的start方法,因此,thread1的run方法一般會先運行。當thread1的run方法運行到第一行(int m = n;)時,將n的值賦給m。當執行到第二行的yield方法後,thread1就會暫時停止執行,而當thread1暫停時,thread2獲得了CPU資源後開始運行(之前thread2一直處於就緒狀態),當thread2執行到第一行(int m = n;)時,由於thread1在執行到yield時n仍然是0,因此,thread2中的m所獲得的值也是0。這樣就造成了thread1和thread2的m獲得的都是0。在它們執行完yield方法後,都是從0開始加1,因此,無論誰先執行完,最後n的值都是1,只是這個n被thread1和thread2各賦了一遍值。也許有人會問,如果只有n++,會產生「髒數據」嗎?答案是肯定的。那麼n++只是一條語句,又如何在執行過程中將CPU交給其他的執行緒呢?其實這只是表面現象,n++在被Java編譯器編譯成中間語言(也叫字節碼)後,並不是語言。讓我們看看下面的Java程式碼將會被編譯成什麼樣的Java中間語言。
複製代碼代碼如下:
public void run()
{
n++;
}
被編譯後的中間語言程式碼
複製代碼代碼如下:
public void run()
{
aload_0
dup
getfield
iconst_1
iadd
putfield
return
}
大家可以看到在run方法中只有n++一條語句,而編譯後,卻有7個中間語言語句。我們並不需要知道這些語句的功能是什麼,只看第005、007和008行語句。在005行是getfield,根據它的英文意義可知是要得到某個值,因為這裡只有一個n,所以毫無疑問,是要得到n的值。而在007行的iadd也不難猜測是將這個得到的n值加1。在008行的putfield的意思我想大家可能已經猜出來了,它負責將這個加1後的n再更新回類別變數n。說到這,可能大家還有一個疑惑,執行n++時直接將n加1不就行了,為什麼要如此費周折。其實這裡牽涉到一個Java記憶體模型的問題。
Java的記憶體模型分為主儲存區和工作儲存區。主儲存區保存了Java中所有的實例。也就是說,在我們使用new來建立一個物件後,這個物件及它內部的方法、變數等都保存在這一區域,在MyThread類別中的n就保存在這個區域。主儲存區可以被所有執行緒共用。而工作儲存區就是我們前面所講的執行緒棧,在這個區域裡保存了在run方法以及run方法所呼叫的方法中定義的變量,也就是方法變數。在執行緒要修改主儲存區中的變數時,並不是直接修改這些變量,而是將它們先複製到目前執行緒的工作儲存區,在修改完後,再將這個變數值覆蓋主儲存區的對應的變數值。
在了解了Java的記憶體模型後,就不難理解為什麼n++也不是原子操作了。它必須經過一個拷貝、加1和覆蓋的過程。這個過程和在MyThread類別中模擬的過程類似。大家可以想像,如果在執行到getfield時,thread1會因為某些原因而中斷,那麼就會發生和MyThread類別的執行結果類似的情況。要徹底解決這個問題,就必須使用某種方法對n進行同步,也就是在同一時間只能有一個執行緒操作n,這也稱為對n的原子操作。