地統計模擬的重要概念

發布時間:2020-05-11

模擬概念

模擬在廣義上是指使用模型復制現實的過程。在地統計中,模擬是隨機函數(表面)的實現,其與生成該模擬的樣本數據擁有相同的地統計要素(使用均值、方差和半變異函數來度量)。更具體地說,高斯地統計模擬 (GGS) 適用于連續數據,并假設數據或數據的變換具有正態(高斯)分布。GGS 所依托的主要假設是數據是靜態的 - 均值、方差和空間結構(半變異函數)在數據空間域上不發生改變。GGS 的另一個主要假設是建模的隨機函數為多元高斯隨機函數。

 

同克里金法相比,GGS 具有優勢。由于克里金法是基于數據的局部平均值的,因此,其可生成平滑的輸出。另一方面,GGS 生成的局部變異性的制圖表達比較好,因為 GGS 將克里金法中丟失的局部變異性重新添加到了其生成的表面中。對于由 GGS 實現添加到特定位置的預測值中的變異性,其平均值為零,這樣,很多 GGS 實現的平均值會趨向于克里金預測。下圖對此概念進行了說明。各種實現以一組堆疊輸出圖層的形式表示出來,并且特定坐標位置的值服從高斯分布,其平均值等于該位置的克里金估計值,而擴散程度則由該位置上的克里金法方差給出。

特定位置的模擬值的變異性

對 GGS 的使用在地統計實際操作中日益呈現出一種趨勢,它不是追求獲得每個未采樣位置的最佳無偏預測結果(正如克里金法所體現的),而是強調對決策分析和風險分析的不確定性的特證描述,這樣更適合于呈現數據中的全局趨勢 (Deutsch and Journel 1998, Goovaerts 1997)。模擬還會克服克里金估計值中的條件偏差帶來的問題(高值區域預測值通常偏低,而低值區域預測值通常偏高)。

 

對于所研究屬性的空間分布,地統計模擬可為其生成多個具有同等可能性的制圖表達??苫谶@些制圖表達來測量未采樣位置的不確定性,這些未采樣位置在空間上被一起選取,而不是逐個被選?。ㄈ缤ㄟ^克里金法方差進行測量一樣)。此外,克里金法方差通常獨立于數據值,且通常不能用作估計精度的測量值。另一方面,可以通過使用多個模擬實現(該實現用呈正態分布的輸入數據通過簡單克里金模型進行構建,即,數據呈正態分布或已使用常態得分變換或其他類型的變換對數據進行了變換)為未采樣位置的估計值構建分布來測量估計精度。對于使用估計數據值的風險評估和決策分析而言,這些不確定性的分布很關鍵。

 

GGS 假設數據呈正態分布,但在實際中,很少會出現這種情況。對數據執行常態得分變換,使得數據符合標準正態分布(均值 = 0,方差 = 1)。然后對此正態分布數據進行模擬,并對結果做反向變換,以便以原始單位獲得模擬輸出。對正態分布數據使用簡單克里金法時,該克里金法所提供的克里金估計值和方差可完全定義研究區域中每個位置的條件分布。這樣,您可以在只知道每個位置的這兩個參數的情況下繪制隨機函數(未知采樣表面)的模擬實現,這也是 GGS 基于簡單克里金模型和正態分布數據的原因。

 

模擬示例

示例 1

在世界上的許多城市和地區,空氣質量都是令人關注的重要健康指標之一。在美國,眾所周知,洛杉磯的空氣質量不是很好,分布密集的監控網絡每半天就對臭氧、微粒物質和其他污染物等數據進行一次收集?;诖丝諝赓|量數據,可獲得每種污染物的濃度以及污染物每年超過州空氣質量標準和聯邦空氣質量標準的天數。由于這兩個測量值均支持對在某個特定區域內生活進行感染風險的局部評估,因此,每年超過臨界閾值的天數可用來建立顯示超過閾值概率的內插地圖。

 

在本示例中,對 2005 年加利福尼亞州每個監測站臭氧超過閾值的天數做了調查,并通過擬合該數據創建了一個半變異函數。并使用條件模擬生成了多個實現。每個實現都是一個地圖,用于表示 2005 年污染物超過閾值的天數。然后對這些實現進行后處理,以估計污染物每年超過州閾值的天數多于 10 天、20 天、30 天、40 天、50 天、60 天和 70 天的概率(所有監測站記錄的超過閾值的最大天數為 80 天)。下面的動畫顯示了生成的南海岸空氣盆地地區(其中包括洛杉磯和內陸城市)的臭氧地圖。海岸附近的空氣質量明顯好于內陸地區,主要是因為在這一地區,風向主要是由西向東吹。

 

這類地圖可用于確定污染減輕策略的優先級,通過解答諸如“我可以忍受多少污染?”、“生活在某一特定區域我需要忍受多少污染?”等問題, 來研究健康與環境質量之間的關系并幫助人們確定適宜居住的地點。

臭氧超標 10 - 70 天。

示例 2

在很多應用中,都使用與空間相關的變量作為模型的輸入(例如,石油工程中的流動模擬)。在此類情況中,模型結果的不確定性是通過以下過程生成大量模擬來進行評估的:

  • 1. 為變量模擬大量具有同等可能性的實現。
  • 2. 使用模擬變量作為輸入來運行模型(通常稱為傳輸函數)。
  • 3. 匯總模型運行以評估模型輸出的變異性。

用來評估模型輸出不確定性的模擬

輸出的統計數據可用來測量模型的不確定性。

 

上述過程的一個實際示例是:為在新墨西哥州東南部成立一個廢品隔離試驗工場 (WIPP) 作為超鈾廢物的存儲設施而進行的研究。

 

科學家曾對位于地表以下 2000 多英尺的鹽礦床進行了評估,以便將其用作廢料的潛在存儲設施。然而,礦床剛好位于蓄水層之上,因此,擔心地下水可能會傳輸站點泄露的廢棄物。為了證明 WIPP 的安全性,科學家不得不說服美國 環境保護局:流經蓄水層中的地下水流速非常之低,污染周圍環境的可能性微乎其微。

 

導水系數值決定了蓄水層中的水流流速,并針對擬建的 WIPP 站點附近蓄水層獲得了多個此類值。使用以數字方式求解的水文方程為地下水流建模,該方程需要導水系數值,該值在常規格網上進行預測。如果使用了導水系數的克里金估計值,則導水系數值將基于鄰近導水系數值的(加權)平均值,而已建模的地下水的流動時間將只會基于這些平均值。由于克里金法將生成平滑地圖,所以插值表面會缺少導水系數值極高或極低的區域。要正確地對風險進行分析,科學家必須考慮可能出現的最壞情況,因此需要生成流動時間值的整個概率分布。通過此分布,科學家將能夠使用地下水流動時間分布的較低尾值(對應極高流速),而不是平均流動時間,來評估 WIPP 的適宜性。曾使用條件模擬來生成流動時間值的概率分布。

 

廢品通過地下水進行傳輸的概率只是評估 WIPP 適宜性時考慮的眾多危及人類健康情形中的一種。復雜風險分析在評估 WIPP 是否適宜進行核廢料處理以及使公眾和政府監管部門確信其適宜性方面起了很大作用。在長達 20 多年的時間里,在進行了大量的科學研究、公眾意見收集以及進行了大量監管工作之后,WIPP 最終于 1999 年 3 月 26 日開始運作。

 

應該生成多少實現?

模擬研究的結果不應取決于所生成實現的數量。確定生成多少實現的其中一種方法是:在一小部分數據屬性域中對比不同實現數的統計數據(使用子集以節省時間)。隨著實現數量的增加,統計數據將趨向于一個固定值。下面的示例中檢查的統計數據是第一個分位數和第三個分位數,它們是為美國斯威康星州的一小部分(子集)模擬高程表面(在海平面以上,以英尺為單位)而計算的值。

 

上方的圖顯示的是前 100 個實現的高程波動。下方的圖顯示的是 1000 個實現的結果。

模擬數量對輸出參數值的影響;前 100 個模擬的圖形

模擬數量對輸出參數值的影響;1000 個模擬的圖形

 在本例中,值在大約 20 個模擬之后穩定下來。在很多情況下,至少需要運行 100 個實現才能確定超出閾值的均值和概率所需的足夠信息。如果使用數量更多的實現,則可為匯總統計數據和模型輸出變量提供更高程度的確定性,但所需計算時間也更長。

參考文獻

Deutsch, C.V., and A. G. Journel. 1998. GSLIB Geostatistical Software Library and User's Guide. 2nd Ed. Oxford University Press, New York, pages 119–122.

 

Goovaerts, P. 1997. Geostatistics for Natural Resource Evaluation. Oxford University Press, New York, pages 369–376.