Econ. Environ. Geol. 2023; 56(3): 331-341
Published online June 30, 2023
https://doi.org/10.9719/EEG.2023.56.3.331
© THE KOREAN SOCIETY OF ECONOMIC AND ENVIRONMENTAL GEOLOGY
Correspondence to : *jangwonsuh@kangwon.ac.kr; jangwonsuh@hanmail.net
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided original work is properly cited.
When creating a soil contamination map using geostatistical techniques, there are various sources that can affect prediction errors. In this study, a grid-based soil contamination map was created from the sampling data of heavy metal concentrations in soil in abandoned mine areas using Ordinary Kriging. Five factors that were judged to affect the prediction error of the soil contamination map were selected, and the variation of the root mean squared error (RMSE) between the predicted value and the actual value was analyzed based on the Leave-one-out technique. Then, using a machine learning algorithm, derived the top three factors affecting the RMSE. As a result, it was analyzed that Variogram Model, Minimum Neighbors, and Anisotropy factors have the largest impact on RMSE in the Standard interpolation. For the variogram models, the Spherical model showed the lowest RMSE, while the Minimum Neighbors had the lowest value at 3 and then increased as the value increased. In the case of Anisotropy, it was found to be more appropriate not to consider anisotropy. In this study, through the combined use of geostatistics and machine learning, it was possible to create a highly reliable soil contamination map at the local scale, and to identify which factors have a significant impact when interpolating a small amount of soil heavy metal data.
Keywords soil contamination map, prediction error, variogram, Ordinary Kriging, machine learning
한호상1 · 서장원2,* · 최요순3
1강원대학교 에너지자원융합공학과
2강원대학교 에너지자원화학공학과
3부경대학교 에너지자원공학과
지구통계 기법을 기반으로 토양오염지도를 작성하는 경우 예측 오차가 발생하며 이에 영향을 미치는 다양한 원인이 존재한다. 본 연구에서는 정규 크리깅을 활용하여 폐광산지역의 토양 내 중금속 농도 샘플링 데이터로부터 격자형 기반의 토양오염지도를 작성하였다. 해당 지도의 예측 오차에 영향을 미친다고 판단된 5개 인자를 선정하고, Leave-one-out 기법을 기반으로 인자의 옵션과 설정값의 변화에 따른 예측값과 실측값 간의 평균제곱근오차(root mean square error, RMSE) 변화를 분석하였다. 이후 머신러닝 알고리즘을 이용하여 RMSE에 영향을 미치는 상위 3개 인자를 도출하였다. 그 결과, Standard interpolation에서는 Variogram Model, Minimum Neighbors, Anisotropy 인자가 RMSE에 가장 큰 영향을 미치는 것으로 분석되었다. 베리오그램 모델에서는 Spherical 모델이 가장 낮은 RMSE를 보였으며, Minimum Neighbors는 3에서 최젓값을 보인 후 값이 증가함에 따라 증가하였다. Anisotropy의 경우 이방성을 고려하지 않는 것이 더 적합한 것으로 나타났다. 본 연구에서는 지구통계와 머신러닝의 복합 활용을 통해 지역 규모에서 높은 신뢰성을 갖는 토양오염지도를 작성할 수 있었고, 적은 수의 토양 샘플링 데이터의 보간 작업 시 어떠한 요인들이 큰 영향을 미치는지 파악할 수 있었다.
주요어 토양오염지도, 예측 오차, 베리오그램, 정규 크리깅, 머신러닝
Econ. Environ. Geol. 2023; 56(3): 331-341
Published online June 30, 2023 https://doi.org/10.9719/EEG.2023.56.3.331
Copyright © THE KOREAN SOCIETY OF ECONOMIC AND ENVIRONMENTAL GEOLOGY.
Hosang Han1, Jangwon Suh2,*, Yosoon Choi3
1Energy and Mineral Resources Engineering, Kangwon National University, Samcheok 25913, Republic of Korea
2Energy Resources and Chemical Engineering, Kangwon National University, Samcheok 25913, Republic of Korea
3Energy Resources Engineering, Pukyong National University, Busan 48513, Republic of Korea
Correspondence to:*jangwonsuh@kangwon.ac.kr; jangwonsuh@hanmail.net
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided original work is properly cited.
When creating a soil contamination map using geostatistical techniques, there are various sources that can affect prediction errors. In this study, a grid-based soil contamination map was created from the sampling data of heavy metal concentrations in soil in abandoned mine areas using Ordinary Kriging. Five factors that were judged to affect the prediction error of the soil contamination map were selected, and the variation of the root mean squared error (RMSE) between the predicted value and the actual value was analyzed based on the Leave-one-out technique. Then, using a machine learning algorithm, derived the top three factors affecting the RMSE. As a result, it was analyzed that Variogram Model, Minimum Neighbors, and Anisotropy factors have the largest impact on RMSE in the Standard interpolation. For the variogram models, the Spherical model showed the lowest RMSE, while the Minimum Neighbors had the lowest value at 3 and then increased as the value increased. In the case of Anisotropy, it was found to be more appropriate not to consider anisotropy. In this study, through the combined use of geostatistics and machine learning, it was possible to create a highly reliable soil contamination map at the local scale, and to identify which factors have a significant impact when interpolating a small amount of soil heavy metal data.
Keywords soil contamination map, prediction error, variogram, Ordinary Kriging, machine learning
한호상1 · 서장원2,* · 최요순3
1강원대학교 에너지자원융합공학과
2강원대학교 에너지자원화학공학과
3부경대학교 에너지자원공학과
지구통계 기법을 기반으로 토양오염지도를 작성하는 경우 예측 오차가 발생하며 이에 영향을 미치는 다양한 원인이 존재한다. 본 연구에서는 정규 크리깅을 활용하여 폐광산지역의 토양 내 중금속 농도 샘플링 데이터로부터 격자형 기반의 토양오염지도를 작성하였다. 해당 지도의 예측 오차에 영향을 미친다고 판단된 5개 인자를 선정하고, Leave-one-out 기법을 기반으로 인자의 옵션과 설정값의 변화에 따른 예측값과 실측값 간의 평균제곱근오차(root mean square error, RMSE) 변화를 분석하였다. 이후 머신러닝 알고리즘을 이용하여 RMSE에 영향을 미치는 상위 3개 인자를 도출하였다. 그 결과, Standard interpolation에서는 Variogram Model, Minimum Neighbors, Anisotropy 인자가 RMSE에 가장 큰 영향을 미치는 것으로 분석되었다. 베리오그램 모델에서는 Spherical 모델이 가장 낮은 RMSE를 보였으며, Minimum Neighbors는 3에서 최젓값을 보인 후 값이 증가함에 따라 증가하였다. Anisotropy의 경우 이방성을 고려하지 않는 것이 더 적합한 것으로 나타났다. 본 연구에서는 지구통계와 머신러닝의 복합 활용을 통해 지역 규모에서 높은 신뢰성을 갖는 토양오염지도를 작성할 수 있었고, 적은 수의 토양 샘플링 데이터의 보간 작업 시 어떠한 요인들이 큰 영향을 미치는지 파악할 수 있었다.
주요어 토양오염지도, 예측 오차, 베리오그램, 정규 크리깅, 머신러닝
Table 1 . The parameter setting of each contributory factor in ordinary kriging.
Neighborhood Type | Model | Anisotropy | Maximum Neighbors | Minimum Neighbors | Sector type |
---|---|---|---|---|---|
Standard | Spherical / Exponential / Gaussian | False / True | Min 5 Max 15 Step 2 | Min 2 Max 10 Step 1 | 4 Sector / 4 Sector with 45° offset / 8 Sector |
Smooth | Smoothing function | ||||
Min 0.1 | Max 1.0 | Step 0.1 |
Table 2 . Discriptive statistics data of soil contaminant (Cu) (unit: mg/kg).
Min | Max | Median | Mean | Skewness | Standard deviation |
---|---|---|---|---|---|
18 | 957 | 105 | 171 | 2.37 | 183.63 |
Table 3 . RMSE of option selections for each parameter based on sensitivity analysis..
Neighborhood Type | Model | Anisotropy | Maximum Neighbors | Minimum Neighbors | Sector Type | RMSE (mg/kg) | Remarks |
---|---|---|---|---|---|---|---|
Standard | Spherical | False | 5 - 15* | 3 | 4 Sector with 45ο offset | 112.53 | Lowest |
Exponential | False | 5 | 4 | 4 Sector with 45ο offset | 117.17 | ||
Gaussian | False | 5 – 15* | 3 | 4 Sector with 45ο offset | 116.44 | ||
Spherical | True | 5 | 3 | 8 Sector | 118.36 | ||
Exponential | True | 5 | 4 | 4 Sector | 117.35 | ||
Gaussian | True | 5 | 4 | 8 Sector | 124.66 | ||
Spherical | False | 11 – 15* | 10 | 4 Sector with 45ο offset | 121.24 | Highest | |
Exponential | False | 9 | 6 | 4 Sector with 45ο offset | 119.13 | ||
Gaussian | False | 11 | 10 | 4 Sector with 45ο offset | 120.98 | ||
Spherical | True | 11 – 15* | 10 | 4 Sector with 45ο offset | 123.04 | ||
Exponential | True | 11 | 6 | 4 Sector | 118.62 | ||
Gaussian | True | 11 – 15* | 10 | 4 Sector with 45ο offset | 128.20 | ||
Model | Anisotropy | Smoothing function | RMSE | Remarks | |||
Smooth | Sperhical | False | 0.1 | 120.86 | Lowest | ||
Sperhical | True | 0.4 | 121.84 | ||||
Exponential | False | 0.3 | 118.49 | ||||
Exponential | True | 0.5 | 118.01 | ||||
Gaussian | False | 0.2 | 122.52 | ||||
Gaussian | True | 0.4 | 126.97 | ||||
Sperhical | False | 1.0 | 132.66 | Highest | |||
Sperhical | True | 1.0 | 125.73 | ||||
Exponential | False | 1.0 | 120.55 | ||||
Exponential | True | 1.0 | 118.99 | ||||
Gaussian | False | 1.0 | 132.20 | ||||
Gaussian | True | 1.0 | 129.36 |
*Maximum Neighbors가 변화함에도 RMSE는 동일.
Kyoungeun Lee, Jaehyung Yu, Chanhyeok Park, Trung Hieu Pham
Econ. Environ. Geol. 2024; 57(4): 353-362Kalaivanan K, Vellingiri J
Econ. Environ. Geol. 2024; 57(3): 329-342Jongpil Won, Jungkyun Shin, Jiho Ha, Hyunggu Jun
Econ. Environ. Geol. 2024; 57(1): 51-71