Econ. Environ. Geol. 2022; 55(4): 353-366
Published online August 30, 2022
https://doi.org/10.9719/EEG.2022.55.4.353
© THE KOREAN SOCIETY OF ECONOMIC AND ENVIRONMENTAL GEOLOGY
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided original work is properly cited.
Spatial estimation of geoscience data (geo-data) is challenging due to spatial heterogeneity, data scarcity, and high dimensionality. A novel spatial estimation method is needed to consider the characteristics of geo-data. In this study, we proposed the application of Gaussian Mixture Model (GMM) among machine learning algorithms with multivariate data for robust spatial predictions. The performance of the proposed approach was tested through soil chemical concentration data from a former smelting area. The concentrations of As and Pb determined by ex-situ ICP-AES were the primary variables to be interpolated, while the other metal concentrations by ICP-AES and all data determined by in-situ portable X-ray fluorescence (PXRF) were used as auxiliary variables in GMM and ordinary cokriging (OCK). Among the multidimensional auxiliary variables, important variables were selected using a variable selection method based on the random forest. The results of GMM with important multivariate auxiliary data decreased the root mean-squared error (RMSE) down to 0.11 for As and 0.33 for Pb and increased the correlations (r) up to 0.31 for As and 0.46 for Pb compared to those from ordinary kriging and OCK using univariate or bivariate data. The use of GMM improved the performance of spatial interpretation of anthropogenic metals in soil. The multivariate spatial approach can be applied to understand complex and heterogeneous geological and geochemical features.
Keywords Gaussian Mixture Model (GMM), multivariate, geoscience data (geo-data), machine learning, soil contamination
김호림1 · 유순영2 · 윤성택2 · 김경호3 · 이군택4 · 이정호1 · 허철호1 · 류동우1*
1한국지질자원연구원
2고려대학교
3한국환경연구원
4서울대학교 NICEM
지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용하여 공간 예측 방법을 제공하고자 하였다. 제안된 기법의 성능을 검증하기 위해, 옛 제련소 부지에서 휴대용 X선 형광분석기(PXRF) 및 유도결합플라즈마-원자방출분광법(ICPAES)을 이용하여 분석된 토양 농도 자료를 활용하였다. ICP-AES를 이용해 분석된 As와 Pb를 주변수로 하고, 나머지 자료는 보조변수로 활용하였다. 다차원의 보조변수 중 중요 변수를 선별하기 위해 랜덤포레스트 기반의 변수선택법을 적용하였다. ICPAES 및 PXRF를 통해 구축된 다변량 데이터를 사용한 GMM의 결과를 단변량 및 이변량 데이터를 사용한 정규 크리깅(Ordinary Kriging; OK) 및 정규 공동크리깅(Ordinary Co-Kriging; OCK)의 결과와 비교하였다. GMM의 결과는 OK 및 OCK의 결과보다 낮은 평균 제곱근 편차(RMSE; 비소는 최대 0.11 및 납은 0.33까지 향상)와 높은 상관관계(r; 비소는 최대 0.31 및 납은 0.46까지 향상)를 제공하였다. 이는 GMM을 사용할 경우 토양 오염의 범위 해석의 성능을 향상시킬 수 있음을 지시한다. 본 연구는 다변량 공간추정 접근법이복잡하고 이질적인 지질 및 지구 화학자료의 특징을 이해하는 데 효과적으로적용될 수 있음을증명하였다.
주요어 가우시안 혼합모형, 다변량, 지구과학데이터(지오데이터), 기계학습, 토양오염
Econ. Environ. Geol. 2022; 55(4): 353-366
Published online August 30, 2022 https://doi.org/10.9719/EEG.2022.55.4.353
Copyright © THE KOREAN SOCIETY OF ECONOMIC AND ENVIRONMENTAL GEOLOGY.
Ho-Rim Kim1, Soonyoung Yu2, Seong-Taek Yun2, Kyoung-Ho Kim3, Goon-Taek Lee4, Jeong-Ho Lee1, Chul-Ho Heo1, Dong-Woo Ryu1,*
1Korea Institute of Geoscience and Mineral Resources, Republic of Korea
2Korea University, Republic of Korea
3Korea Environment Institute, Republic of Korea
4National Instrumentation Center for Environmental Management, Seoul National University, Republic of Korea
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided original work is properly cited.
Spatial estimation of geoscience data (geo-data) is challenging due to spatial heterogeneity, data scarcity, and high dimensionality. A novel spatial estimation method is needed to consider the characteristics of geo-data. In this study, we proposed the application of Gaussian Mixture Model (GMM) among machine learning algorithms with multivariate data for robust spatial predictions. The performance of the proposed approach was tested through soil chemical concentration data from a former smelting area. The concentrations of As and Pb determined by ex-situ ICP-AES were the primary variables to be interpolated, while the other metal concentrations by ICP-AES and all data determined by in-situ portable X-ray fluorescence (PXRF) were used as auxiliary variables in GMM and ordinary cokriging (OCK). Among the multidimensional auxiliary variables, important variables were selected using a variable selection method based on the random forest. The results of GMM with important multivariate auxiliary data decreased the root mean-squared error (RMSE) down to 0.11 for As and 0.33 for Pb and increased the correlations (r) up to 0.31 for As and 0.46 for Pb compared to those from ordinary kriging and OCK using univariate or bivariate data. The use of GMM improved the performance of spatial interpretation of anthropogenic metals in soil. The multivariate spatial approach can be applied to understand complex and heterogeneous geological and geochemical features.
Keywords Gaussian Mixture Model (GMM), multivariate, geoscience data (geo-data), machine learning, soil contamination
김호림1 · 유순영2 · 윤성택2 · 김경호3 · 이군택4 · 이정호1 · 허철호1 · 류동우1*
1한국지질자원연구원
2고려대학교
3한국환경연구원
4서울대학교 NICEM
지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용하여 공간 예측 방법을 제공하고자 하였다. 제안된 기법의 성능을 검증하기 위해, 옛 제련소 부지에서 휴대용 X선 형광분석기(PXRF) 및 유도결합플라즈마-원자방출분광법(ICPAES)을 이용하여 분석된 토양 농도 자료를 활용하였다. ICP-AES를 이용해 분석된 As와 Pb를 주변수로 하고, 나머지 자료는 보조변수로 활용하였다. 다차원의 보조변수 중 중요 변수를 선별하기 위해 랜덤포레스트 기반의 변수선택법을 적용하였다. ICPAES 및 PXRF를 통해 구축된 다변량 데이터를 사용한 GMM의 결과를 단변량 및 이변량 데이터를 사용한 정규 크리깅(Ordinary Kriging; OK) 및 정규 공동크리깅(Ordinary Co-Kriging; OCK)의 결과와 비교하였다. GMM의 결과는 OK 및 OCK의 결과보다 낮은 평균 제곱근 편차(RMSE; 비소는 최대 0.11 및 납은 0.33까지 향상)와 높은 상관관계(r; 비소는 최대 0.31 및 납은 0.46까지 향상)를 제공하였다. 이는 GMM을 사용할 경우 토양 오염의 범위 해석의 성능을 향상시킬 수 있음을 지시한다. 본 연구는 다변량 공간추정 접근법이복잡하고 이질적인 지질 및 지구 화학자료의 특징을 이해하는 데 효과적으로적용될 수 있음을증명하였다.
주요어 가우시안 혼합모형, 다변량, 지구과학데이터(지오데이터), 기계학습, 토양오염
Table 1 . The descriptive statistics of metal (loid) contents in soil samples by ex-situ (ICP-AES) and in-situ (Portable XRF) measurements.
Unit: mg kg-1 | Laboratory analysis using ICP-AES (n=153) | Portable XRF (PXRF) measurements in the field (n=156) | ||||||||
---|---|---|---|---|---|---|---|---|---|---|
As | Pb | Cu | Ni | Zn | As | Pb | Cu | Ni | Zn | |
Minimum | 4.41 | 13.71 | 6.21 | 3.87 | 16.00 | 0.50 | 12.00 | 12.00 | 14.60 | 137.00 |
Maximum | 236.70 | 961.67 | 167.70 | 33.70 | 112.83 | 143.00 | 430.00 | 145.00 | 25.00 | 205.00 |
Range | 232.29 | 947.96 | 161.49 | 29.83 | 96.83 | 142.50 | 418.00 | 133.00 | 10.40 | 68.00 |
Median | 66.33 | 160.47 | 53.23 | 11.47 | 43.47 | 22.00 | 60.50 | 34.00 | 20.30 | 163.00 |
Mean | 74.48 | 196.93 | 56.02 | 11.45 | 43.25 | 27.95 | 74.33 | 38.05 | 20.30 | 164.40 |
SE.mean* | 4.17 | 13.42 | 2.67 | 0.30 | 1.14 | 2.04 | 4.77 | 1.46 | 0.17 | 0.79 |
CI.mean** | 8.24 | 26.51 | 5.27 | 0.60 | 2.26 | 4.04 | 9.41 | 2.89 | 0.33 | 1.57 |
Var.*** | 2662.33 | 27540.86 | 1087.04 | 13.89 | 200.45 | 651.63 | 3542.20 | 333.70 | 4.49 | 98.59 |
Std.dev.**** | 51.60 | 165.95 | 32.97 | 3.73 | 14.16 | 25.53 | 59.52 | 18.27 | 2.12 | 9.93 |
Coef.var***** | 0.69 | 0.84 | 0.59 | 0.33 | 0.33 | 0.91 | 0.80 | 0.48 | 0.10 | 0.06 |
* SE.mean: the standard error of the mean; ** CI.mean: the confidence interval of the mean at the p level of 0.95; *** Var: the variance; **** Std.dev: the standard deviation; ***** Coef.var: the variation coefficient defined as the standard deviation divided by the mean.
Table 2 . Correlation coefficient (r) and root mean-squared error (RMSE) between the measured and predicted values using the validation data (n=30 determined by ICE-AES) at different sampling densities for training (n=30 to 107 determined by ICP-AES) by each model: OK (ordinary kriging), OCK (ordinary co-kriging), GMM (Gaussian mixture model).
As | Pb | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
Sampling density | Prediction method | r | RMSE | rGMM ‒ rgeost.* | RMSEGMM‒RMSEgeost.** | Sampling density | Prediction method | r | RMSE | rGMM ‒ rgeost.* | RMSEGMM‒RMSEgeost.** |
30 | OK | 0.59 | 0.28 | 0.27 | -0.05 | 30 | OK | 0.46 | 0.37 | 0.46 | -0.2 |
OCK | 0.64 | 0.26 | 0.22 | -0.03 | OCK | 0.6 | 0.5 | 0.32 | -0.33 | ||
GMM | 0.86 | 0.23 | GMM | 0.92 | 0.17 | ||||||
49 | OK | 0.61 | 0.28 | 0.31 | -0.11 | 49 | OK | 0.52 | 0.34 | 0.39 | -0.17 |
OCK | 0.66 | 0.26 | 0.26 | -0.09 | OCK | 0.61 | 0.31 | 0.3 | -0.14 | ||
GMM | 0.92 | 0.17 | GMM | 0.91 | 0.17 | ||||||
61 | OK | 0.67 | 0.25 | 0.26 | -0.09 | 61 | OK | 0.54 | 0.33 | 0.43 | -0.25 |
OCK | 0.72 | 0.24 | 0.21 | -0.08 | OCK | 0.62 | 0.31 | 0.35 | -0.23 | ||
GMM | 0.93 | 0.16 | GMM | 0.97 | 0.08 | ||||||
76 | OK | 0.73 | 0.24 | 0.11 | -0.01 | 76 | OK | 0.58 | 0.32 | 0.38 | -0.2 |
OCK | 0.76 | 0.22 | 0.08 | 0.01 | OCK | 0.66 | 0.29 | 0.3 | -0.17 | ||
GMM | 0.84 | 0.23 | GMM | 0.96 | 0.12 | ||||||
91 | OK | 0.73 | 0.24 | 0.22 | -0.1 | 91 | OK | 0.61 | 0.31 | 0.37 | -0.23 |
OCK | 0.77 | 0.22 | 0.18 | -0.08 | OCK | 0.68 | 0.29 | 0.3 | -0.21 | ||
GMM | 0.95 | 0.14 | GMM | 0.98 | 0.08 | ||||||
107 | OK | 0.75 | 0.23 | 0.21 | -0.1 | 107 | OK | 0.62 | 0.31 | 0.35 | -0.2 |
OCK | 0.79 | 0.21 | 0.17 | -0.08 | OCK | 0.68 | 0.28 | 0.29 | -0.17 | ||
GMM | 0.96 | 0.13 | GMM | 0.97 | 0.11 |
*rGMM ‒ rgeost.: performance comparison (r) between GMM and geostatistical approach (OK or OCK);.
**RMSEGMM ‒RMSEgeost: performance comparison (RMSE) between GMM and geostatistical approach (OK or OCK)..
Kyoungeun Lee, Jaehyung Yu, Chanhyeok Park, Trung Hieu Pham
Econ. Environ. Geol. 2024; 57(4): 353-362Kalaivanan K, Vellingiri J
Econ. Environ. Geol. 2024; 57(3): 329-342Jongpil Won, Jungkyun Shin, Jiho Ha, Hyunggu Jun
Econ. Environ. Geol. 2024; 57(1): 51-71