Research Paper

Split Viewer

Econ. Environ. Geol. 2023; 56(3): 331-341

Published online June 30, 2023

https://doi.org/10.9719/EEG.2023.56.3.331

© THE KOREAN SOCIETY OF ECONOMIC AND ENVIRONMENTAL GEOLOGY

Optimization of Soil Contamination Distribution Prediction Error using Geostatistical Technique and Interpretation of Contributory Factor Based on Machine Learning Algorithm

Hosang Han1, Jangwon Suh2,*, Yosoon Choi3

1Energy and Mineral Resources Engineering, Kangwon National University, Samcheok 25913, Republic of Korea
2Energy Resources and Chemical Engineering, Kangwon National University, Samcheok 25913, Republic of Korea
3Energy Resources Engineering, Pukyong National University, Busan 48513, Republic of Korea

Correspondence to : *jangwonsuh@kangwon.ac.kr; jangwonsuh@hanmail.net

Received: April 8, 2023; Revised: May 3, 2023; Accepted: May 4, 2023

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided original work is properly cited.

Abstract

When creating a soil contamination map using geostatistical techniques, there are various sources that can affect prediction errors. In this study, a grid-based soil contamination map was created from the sampling data of heavy metal concentrations in soil in abandoned mine areas using Ordinary Kriging. Five factors that were judged to affect the prediction error of the soil contamination map were selected, and the variation of the root mean squared error (RMSE) between the predicted value and the actual value was analyzed based on the Leave-one-out technique. Then, using a machine learning algorithm, derived the top three factors affecting the RMSE. As a result, it was analyzed that Variogram Model, Minimum Neighbors, and Anisotropy factors have the largest impact on RMSE in the Standard interpolation. For the variogram models, the Spherical model showed the lowest RMSE, while the Minimum Neighbors had the lowest value at 3 and then increased as the value increased. In the case of Anisotropy, it was found to be more appropriate not to consider anisotropy. In this study, through the combined use of geostatistics and machine learning, it was possible to create a highly reliable soil contamination map at the local scale, and to identify which factors have a significant impact when interpolating a small amount of soil heavy metal data.

Keywords soil contamination map, prediction error, variogram, Ordinary Kriging, machine learning

지구통계 기법을 이용한 토양오염 분포 예측 오차 최적화 및 머신러닝 알고리즘 기반의 영향인자 해석

한호상1 · 서장원2,* · 최요순3

1강원대학교 에너지자원융합공학과
2강원대학교 에너지자원화학공학과
3부경대학교 에너지자원공학과

요 약

지구통계 기법을 기반으로 토양오염지도를 작성하는 경우 예측 오차가 발생하며 이에 영향을 미치는 다양한 원인이 존재한다. 본 연구에서는 정규 크리깅을 활용하여 폐광산지역의 토양 내 중금속 농도 샘플링 데이터로부터 격자형 기반의 토양오염지도를 작성하였다. 해당 지도의 예측 오차에 영향을 미친다고 판단된 5개 인자를 선정하고, Leave-one-out 기법을 기반으로 인자의 옵션과 설정값의 변화에 따른 예측값과 실측값 간의 평균제곱근오차(root mean square error, RMSE) 변화를 분석하였다. 이후 머신러닝 알고리즘을 이용하여 RMSE에 영향을 미치는 상위 3개 인자를 도출하였다. 그 결과, Standard interpolation에서는 Variogram Model, Minimum Neighbors, Anisotropy 인자가 RMSE에 가장 큰 영향을 미치는 것으로 분석되었다. 베리오그램 모델에서는 Spherical 모델이 가장 낮은 RMSE를 보였으며, Minimum Neighbors는 3에서 최젓값을 보인 후 값이 증가함에 따라 증가하였다. Anisotropy의 경우 이방성을 고려하지 않는 것이 더 적합한 것으로 나타났다. 본 연구에서는 지구통계와 머신러닝의 복합 활용을 통해 지역 규모에서 높은 신뢰성을 갖는 토양오염지도를 작성할 수 있었고, 적은 수의 토양 샘플링 데이터의 보간 작업 시 어떠한 요인들이 큰 영향을 미치는지 파악할 수 있었다.

주요어 토양오염지도, 예측 오차, 베리오그램, 정규 크리깅, 머신러닝

  • It is necessary to remove subjectivity from the various option selection and value setting in ordinary kriging that can affect the prediction error.

  • Soil contamination map with the lowest prediction errors was generated using ordinary kriging technique depending on the numerous combination of different options and set values.

  • Machine learning algorithm identified key factors (parameters) affecting prediction error of ordinary kriging in mapping soil contaminants

과거 폐쇄된 광산 지역에서 적절한 광해 방지 처리를 시행하지 않아 토양오염 등과 같은 광산 피해가 발생하는 사례가 다수 존재한다(Jung and Lee, 2001, Lee et al., 2003, Jung et al., 2004). 특히 토양오염은 오염 경로가 다양하고, 발생 범위가 지역적이며, 피해 발생이 완만하게 나타나 이에 적절한 광해 방지 사업이 필수적이다. 하지만 이미 오염이 발생한 지역의 경우 현지의 토양오염 정도를 조사 및 평가하고, 해당 토양오염이 주변 생태계에 미치는 영향이 심각하다면 이에 적절한 복원대책을 수립하기 위하여 신뢰성 높은 토양오염지도를 작성해야한다(Lee et al., 2022).

토양오염지도를 작성하기 위해서는 오염의 개연성이 예상되는 지역에서 채취된 시료를 바탕으로 작성하지만, 소량으로 수집된 시료들을 통하여 작성한 보간 지도는 대체로 낮은 신뢰도를 가진다. 따라서 이를 해결하기 위해 정확한 토양오염 예측 지도를 제작해야 하며, 채집된 소량의 시료를 기반으로 높은 신뢰성을 갖춘 토양오염지도를 작성할 수 있어야 한다. 그러나 신뢰도를 평가하기 위해 기준으로 삼은 예측 오차에 영향을 미칠 수 있는 다양한 원인이 존재하므로, 이를 파악하여 보간 작업을 시행하는 도중 어떠한 요인들이 큰 영향을 미치는지 평가하고 분석할 필요가 있다(Kim et al., 2022).

지구통계 기법을 통해 토양 내 중금속 분포를 예측하는 연구들은 다수의 국내·외 연구자들이 제안한 바 있다(Lee and Choi, 2008, Kim et al., 2012a, Kim et al., 2012b). 특히 지리정보시스템(geographic information systems, GIS) 환경에서 지구통계 분석을 이용하여 보간하는 방법들이 주를 이루며, 그중에서도 정규 크리깅(ordinary kriging)을 활용해 추정(Jeong and Jang, 2011)하거나 보완(Chung et al., 2001)하는 연구들이 다수 존재하였다. 또한 크리깅을 통해 예측된 값을 검정하기 위해 교차 타당성 검정 기법 중 Leave-one-out을 적용한 연구사례(Park et al., 2006, Park and Jang, 2008, Park et al., 2012)도 사례도 발표되었다. 추가로 정규 크리깅을 이용하여 보간 지도를 작성하는 사례(Chung et al., 2000, Choi et al., 2003, Kim and Jo, 2012)도 다수 발표된 바 있다. Kim et al. (2010)에서는 Lag distance를 변화시키면서 예측 오차의 변화를 분석하였다. 그러나 토양오염지도 작성을 위한 크리깅 적용 시 설정 가능한 옵션과 파라미터의 변화에 따라 최소의 예측 오차를 찾고자 하는 사례는 미비하였다.

따라서 본 연구에서는 지구통계 기법 중 정규 크리깅을 이용하여 토양 내 중금속 농도 분포를 기존보다 심도있게 예측하고, 이를 Leave-one-out 기법을 통해 검정한다. 또한 예측 오차에 영향을 미치는 인자들을 검토하여 머신러닝 알고리즘을 통해 각 옵션과 파라미터의 영향계수를 분석하고, 이후 옵션 최적화를 진행하여 가장 낮은 예측 오차를 보이는 옵션을 검색한다. 이를 통해 크리깅의 파라미터를 최적화하고, 이때의 각 옵션과 파라미터에 따라 가장 낮은 예측 오차와 가장 높은 예측 오차의 토양오염지도를 작성하여 비교·분석한다.

Fig. 1은 정규 크리깅 기법을 이용한 토양오염지도 작성 시 보간 영향인자(또는 파라미터)의 옵션이나 입력값 설정에 따른 예측 오차의 평가와 최적화를 수행하기 위한 연구 절차를 보여준다. 이는 연구지역의 데이터 취득과 탐색적 데이터 분석, 정규 크리깅 보간 시 다양한 인자의 설정 조합에 따른 예측 오차 평가와 최적화, 머신러닝 알고리즘을 이용한 예측 오차 영향인자의 기여도 평가, 최대 및 최소 예측 오차를 갖는 토양오염지도 작성 및 비교 등의 과정으로 구성된다. 본 연구에서는 보간법 기반의 토양오염지도 작성을 위해 대표적인 상용 GIS 소프트웨어인 ArcGIS Pro를, 머신러닝 분석을 위해 Python 언어 기반의 오픈소스 소프트웨어인 Orange Data Mining을 활용하였다.

Fig. 1. Flowchart to illustrate the research procedure in this study.

2.1. 연구지역 및 데이터

연구지역은 부산광역시 기장군에 위치하는 금속 폐광산 일대로, 해당 지역의 지리 좌표는 북위 35°18′31.36′′, 동경 129°13′25.56′′이다. 1938년부터 1945년 사이에 국내 최대 규모로 구리를 생산하던 광산 중 하나였으며, 구리 이외에도 다양한 광물자원을 생산한 후 1990년에 폐광되었다. 폐광 이후 부지에 적절한 광해 복구 및 관리 작업이 진행되지 않아 중금속이 포함된 광산 유출수와 다량의 폐석 등이 발생하였고, 이로부터 광산 인근 토양이 고농도의 구리(Cu)에 의해 오염된 것으로 조사되었다(Suh et al., 2016).

Fig. 2는 연구지역의 토양 샘플링 위치 분포를 보여준다. 황색 사각형 영역은 전체 연구지역을, 적색 사각형 영역은 획득한 데이터들의 보간 영역(토양오염지도 작성 영역)을 나타낸다. 토양 내 구리 농도는 휴대용 X-선 형광 분석기(Portable X-Ray Fluorescence Spectroscopy, PXRF)를 이용하여 측정되었으며, 총 40개의 표본이 수집되었다.

Fig. 2. Location of soil contaminant sampling points in the study area.

2.2. 베리오그램 모델링 및 파라미터 설정에 따른 예측 오차 분석

토양오염지도 작성을 위하여 보간법에 관한 기존 연구문헌을 검토하고, 대표적인 지구통계 기법인 크리깅(kriging)을 적용하였다. 크리깅은 임의의 공간에서 획득한 시료값으로부터 시료 주변에 대해 최소 분산의 불편선형추정치(best linear unbiased estimator)를 구하는 방법으로 단순, 정규, 일반, 구역 크리깅 등으로 나눠진다. 본 연구에서는 다양한 크리깅 기법 중에서도 가장 범용적으로 이용(Hammam et al., 2022, Heuvelink and Webster, 2022, Abuzaid et al., 2023)되고 있는 정규 크리깅을 보간 방법으로 사용하였다. 정규 크리깅은 모집단의 평균을 알지 못하나 값을 고정된 것으로 가정하며, 일반 크리깅에 추정식이 편향되지 않는 조건이 추가된 기법이다. 특징으로는 가중치의 합이 1이라는 제약 조건으로 오차분산이 최소가 되도록 값을 예측하고, 모집단의 평균을 알 수 없으나 해당 값이 일정하다는 전제하에 사용된다는 점이 있다. 그러나 한계점으로는 모든 모집단의 평균이 같다고 가정하므로 현실성이 떨어질 수 있다.

정규 크리깅을 통해 보간을 수행하기 위해서는 중간 과정에서 옵션과 값 설정이 필요하며, 해당 부분에는 Model, Anisotropy, Neighborhood Type, Maximum Neighbors, Minimum Neighbors, Sector Type 등이 있다. 우선 정규 크리깅을 설정할 때, 이론적 베리오그램 모델에는 다양한 옵션이 존재한다. 본 연구에서는 가장 범용적으로 이용되는 모델들인 Spherical, Exponential, Gaussian을 적용하였다. 세 가지 모델 모두 문턱값이 존재하며, 동일하게 분리 거리가 증가하면서 데이터 간의 상관성이 감소해 세미베리오그램(semi-variogram) 값이 상관 거리 이상에서는 값이 일정해지는 형태를 띤다. Spherical 모델은 분리 거리 h가 0일 때 그은 접선이 상관 거리의 3분의 2가 되는 위치에서 문턱값과 교차하며, Exponential 모델과 Gaussian 모델의 경우 상관 거리 a에서 정확한 문턱값을 갖지 않으나 분리 거리가 증가할수록 문턱값에 수렴한다. 두 모델은 문턱값의 95%에 해당하는 세미베리오그램 값의 분리 거리를 실제 상관 거리로 가정하여 적용하며, 특히 Gaussian 모델은 작은 분리 거리에서의 데이터들이 강한 상관성을 갖거나 연속성이 강할 때 사용된다.

크리깅을 적용할 때 주변 데이터의 영향을 얼마나 받게 하는지에 대하여 설정하는 것은 매우 중요하다. 해당 부분을 사용 소프트웨어에서는 Searching Neighborhood 라고 이르며, 원본 데이터 간에 영향을 설정하는 부분이기에 실험자의 주관적인 해석이 포함된다. 해당 설정 단계에서의 대표적인 옵션값으로 Neighborhood Type이 존재하며, 옵션의 선택 유형은 Standard와 Smooth로 나뉜다. Standard interpolation은 입력된 주변 이웃 값 자체를 이용하여 산술평균을 계산하는 방법으로, 이웃 값들의 편차를 반영하지 않고 그대로 사용하여 결과적으로 고해상도의 출력 데이터가 생성된다. 반면 Smooth interpolation의 경우, Standard와 동일하게 입력된 주변 이웃 값을 활용하여 산술평균을 계산하나 이웃 간의 편차를 고려하여 주변 값들이 평활화되고 출력 데이터의 공간적 연속성이 증가한다(Franke, 1982). 본 연구에서는 두 옵션을 함께 진행하여 예측 정확도를 평가하였다.

Table 1은 정규 크리깅을 수행하기 위해 변화시킨 영향인자의 옵션 또는 입력값을 정리한 것이다. 이와 같이 옵션과 입력값을 다양하게 변화시킨 것은 각 모델에 대하여 최소의 예측 오차(실측값과 예측값의 차이)를 나타내는 설정을 찾아내기 위한 과정이며, 우선 Neighborhood Type에 따라 Standard와 Smooth를 구분하였다. Standard의 경우 3가지 모델과 2가지의 Anisotropy, 6단계의 Maximum Neighbors, 9단계의 Minimum Neighbors, 3가지의 Sector type 등 5가지 영향인자에 대한 총 810개 경우의 수에 대한 보간을 수행하고, 토양오염지도의 예측 오차를 분석하였다. 만약 원칙대로 진행할 시 총 972개 경우의 수가 나타나지만, Minimum Neighbors를 증가시키면 이에 따라 Maximum Neighbors의 최소 한계 또한 증가하였기에 162개 경우의 수는 제외하였다. Smooth의 경우 3가지 모델과 2가지의 Anisotropy, 10단계의 Smoothing function을 적용해 60개 조합에 대한 보간을 수행하고, 예측 오차를 평가하였다.

Table 1 The parameter setting of each contributory factor in ordinary kriging

Neighborhood TypeModelAnisotropyMaximum NeighborsMinimum NeighborsSector type
StandardSpherical / Exponential / GaussianFalse / TrueMin 5 Max 15 Step 2Min 2 Max 10 Step 14 Sector / 4 Sector with 45° offset / 8 Sector
SmoothSmoothing function
Min 0.1Max 1.0Step 0.1


보간 기법을 적용한 후에는 보간을 통해 예측한 값이 참값에 얼마나 근접하는지의 정도를 조사해야 한다. 이를 위해 본 연구에서는 예측 정확도 평가 기준을 산정하는 단계에서 교차검증법(cross validation) 중 하나로써 유사 주제의 연구에서 널리 활용되어온 Leave-one-out 기법(Park, 2009; 2010; 2013)을 적용하였다. 이 기법은 이미 알고 있는 값(참값 또는 측정값)에서 하나의 자료를 제외한 후 나머지 모든 데이터를 이용하여 보간을 수행하고, 예측된 값과 제외된 데이터의 값을 비교함으로써 예측 오차를 평가한다. 모든 데이터에 대하여 이 과정을반복하고, 평균 편차를 계산하는 기법이다. 모델의 예측 정확도를 얼마나 신뢰할 수 있는지를 평가하는 것은 연구에서 필수적으로 진행되어야 하며, 예측 정확도의 성능에 대한 의미를 빠르게 해석하기 위해서는 요약된 정보가 필요하다. 이 요약 정보를 나타내는 기준은 다양하다. 본 연구에서는 보간 모델이 관심 지역의 값을 얼마나 정확하게 예측하였는가를 나타내는 값 중 가장 범용적으로 활용되는 평균 제곱근 오차(root mean square error, RMSE)를 평가 기준으로 이용하였다. RMSE는 그 수치가 낮을수록 예측 오차가 작다고 평가할 수 있으며 보간법 결과의 관점에서는 예측 성능이 뛰어나다고 평가할 수 있다.

2.3. 머신러닝 알고리즘을 이용한 정규 크리깅 예측 오차 영향인자 평가

정규 크리깅을 적용하는 단계에서 영향인자 별(Model, Anisotropy, Neighborhood type, Maximum neighbors, Minimum neighbors, Sector type 등) 옵션 또는 설정값의 조합에 따른 예측 오차를 계산하였다. 그러나 이는 5개(standard) 또는 3개(smooth)의 영향인자의 옵션 및 설정값에 대한 수백개 조합에 따른 예측 오차를 나타내기 때문에 이것만으로 각 인자가 예측 오차에 미치는 영향 정도를 파악할 수는 없다. 따라서 본 연구에서는 머신러닝 알고리즘을 이용하여 옵션 및 설정값 조합에 따른 RMSE를 중심으로 각 인자의 영향력(기여도)을 평가하였다. 이전 단계를 통해 Standard 유형 810개, Smooth 유형 60개의 옵션 및 입력값 설정에 따른 예측 오차를 계산하였다. 여기서 예측 오차를 종속 변수로, 옵션 및 입력값을 독립 변수로 두고 머신러닝 알고리즘을 적용하여 독립 변수의 영향 정도를 분석하고자 하였다. 종속 변수와 독립 변수 모두 회귀형 데이터이고, 해당 변수의 영향력(기여도)을 모르기 때문에 본 연구에서는 독립 변수인 영향 인자들의 영향 정도를 분석하는 데에 Relief의 개선형인 RReliefF 알고리즘을 적용하였다.

머신러닝 분야에서 Feature selection을 위해 개발된 Relief 알고리즘은 본래 불연속형이나 이진 분류 문제에 적용하기 위해 설계되었으며, 각 Feature(영향인자)에 대한 점수를 계산한 후 순위를 결정하는 데 주로 이용된다. 이는 휴리스틱에 의존하지 않고 옵션 간의 상호작용이 존재하더라도 정확하며, 노이즈에 대한 내성을 가진다(Kira and Rendell, 1992). 해당 알고리즘을 회귀형 데이터에 더욱 적합하도록 수정된 RReliefF는 Robnik-Šikonja와 Kononenko에 의해 제시되었다. 해당 계수는 Feature 간의 강력한 종속성을 발견하고, 종속성이 없는 도메인의 경우 평균제곱오차(mean squared error, MSE)와 같은 성능을 발휘한다(Robnik-Šikonja and Kononenko, 1997). 본 연구에서 RReliefF는 회귀선과 선택 옵션 간의 MSE 값 비교를 통해 옵션의 영향력을 산출하며, 0과 1 사이의 값을 나타낸다. 해당 수치는 0에 가까울수록 상관성이 낮고, 1에 가까울수록 상관성이 높은 것으로 해석할 수 있다. 따라서 본 연구에서는 RReliefF 계수를 이용하여 RMSE에 영향을 미치는 크리깅 인자들의 순위를 평가하였다.

3.1. 탐색적 데이터 분석 결과

Table 2는 본 연구대상지역의 구리 농도에 대한 기술 통계량을 요약한 것이다. 중앙값이 평균값보다 작고, 왜도가 양수이기 때문에 로그-정규분포를 보이는 것으로 분석되었다. Fig. 3(a)은 토양 샘플링 자료 40개의 구리 농도 분포를 보여준다. 최곳값 1개를 제외한 다수의 구리 농도가 500 mg/kg 이하인 것으로 나타났다. 구리 농도 분포를 확인한 결과, 본 연구에 사용된 구리 농도의 분포 데이터는 전형적인 양의 왜도를 따르는 것으로 나타났으며 원본을 통해 토양오염지도를 작성하면 편향된 결과를 나타낼 수 있다고 판단하였다. 따라서 정규 크리깅을 적용하기 전, 로그 변환(log transformation)을 통해 정규화를 시행하였고, 이를 확인할 수 있는 QQ-plot의 작성 결과는 Fig. 3(b)과 같다. 이후 정규분포를 따르는 데이터를 이용하여 정규 크리깅 기법을 적용하고 토양오염지도를 작성하였다.

Table 2 Discriptive statistics data of soil contaminant (Cu) (unit: mg/kg)

MinMaxMedianMeanSkewnessStandard deviation
189571051712.37183.63

Fig. 3. Result of exploratory data analysis. (a) Distribution of Cu; (b) QQ-plot.

3.2. 베리오그램 파라미터 설정에 따른 예측 오차 평가

정규 크리깅의 다양한 옵션 및 입력값 설정에 따른 RMSE가 최저치와 최대치일 때의 설정을 Table 3에 나타내었다. Neighborhood Type에 따라 적용하는 영향인자 일부가 상이하므로 Standard와 Smooth 유형으로 구분하여 작성하였다. 3가지의 베리오그램 모델에 Anisotropy 적용 여부를 구분 지어 가장 우측 비고 칸에 각 모델의 예측 오차 최저치와 최대치 결과를 나타내었다.

Table 3 RMSE of option selections for each parameter based on sensitivity analysis.

Neighborhood TypeModelAnisotropyMaximum NeighborsMinimum NeighborsSector TypeRMSE (mg/kg)Remarks
StandardSphericalFalse5 - 15*34 Sector with 45ο offset112.53Lowest
ExponentialFalse544 Sector with 45ο offset117.17
GaussianFalse5 – 15*34 Sector with 45ο offset116.44
SphericalTrue538 Sector118.36
ExponentialTrue544 Sector117.35
GaussianTrue548 Sector124.66
SphericalFalse11 – 15*104 Sector with 45ο offset121.24Highest
ExponentialFalse964 Sector with 45ο offset119.13
GaussianFalse11104 Sector with 45ο offset120.98
SphericalTrue11 – 15*104 Sector with 45ο offset123.04
ExponentialTrue1164 Sector118.62
GaussianTrue11 – 15*104 Sector with 45ο offset128.20
ModelAnisotropySmoothing functionRMSERemarks
SmoothSperhicalFalse0.1120.86Lowest
SperhicalTrue0.4121.84
ExponentialFalse0.3118.49
ExponentialTrue0.5118.01
GaussianFalse0.2122.52
GaussianTrue0.4126.97
SperhicalFalse1.0132.66Highest
SperhicalTrue1.0125.73
ExponentialFalse1.0120.55
ExponentialTrue1.0118.99
GaussianFalse1.0132.20
GaussianTrue1.0129.36

*Maximum Neighbors가 변화함에도 RMSE는 동일



Neighborhood Type이 Standard일 때의 RMSE 최저치 설정은 Spherical 모델과 Anisotropy는 False, Minimum Neighbors는 3, Sector Type은 4 Sector with 45o offset일 때 112.53으로 가장 낮았다. 반면 RMSE 최대치 모델의 경우 Gaussian 모델과 Anisotropy는 True, Minimum Neighbors는 10, Sector Type은 4 Sector with 45o offset으로 설정하였을 때 128.20을 보여주었다. 이외에도 3가지 모델에 대한 각각의 RMSE 최저치와 최대치도 표에 작성하였다.

Neighborhood Type이 Smooth일 때 예측 정확도가 가장 높았던 모델은 Exponential로 Anisotropy는 True, Smoothing function은 0.5로 설정하였을 때 118.01의 수치를 나타내었다. 그러나 예측 정확도가 가장 낮았던 모델은 Spherical로 Anisotropy는 False, Smoothing function은 1.0으로 지정하였을 때 132.66을 보여주었다. Smooth일 때의 RMSE값 또한 3가지 모델 모두 표에 나타내었다. 반면 RMSE 최대치와 최소치, 그리고 그때의 옵션 및 입력값 설정에 관한 내용은 뒷부분에 언급하였다.

3.3. 정규 크리깅 예측 오차 영향인자 평가 결과

Fig. 4는 머신러닝 알고리즘을 이용한 정규 크리깅 예측오차 영향인자 분석 결과를 보여준다. 영향인자와 예측 오차 간의 상관성 정도를 나타내는 RReliefF 계수에 따라 각각의 옵션을 큰 순서대로 표현하고, Neighborhood 유형에 따라 Standard(Fig. 4(a))와 Smooth(Fig. 4(b))로 구분하였다. Standard의 경우 Model(0.263)이 가장 큰 영향을 미쳤으며, 이후 Minimum Neighbors(0.196)와 Antisotropy(0.126), Maximum Neighbors(0.108), Sector Type(0.070) 순으로 영향을 미치는 것으로 분석되었다. Smooth의 경우 또한 Model(0.729)이 가장 큰 영향력을 갖는 것으로 분석되었으며, Anisotropy(0.349)와 Smoothing function(0.282)이 뒤를 이었다. 이에 따라 RMSE에 영향을 미치는 옵션들의 상위 3개를 선택하여 예측 정확도의 평가를 진행하였다. Standard와 Smooth 옵션 모두에 가장 큰 영향을 미친

Fig. 4. RReliefF coefficient of parameters considered to affect the ordinary kriging prediction error. (a) Standard; (b) Smooth.

다고 판단된 모델을 기준으로 각각 차순위와 3순위 옵션을 변화시키며 그래프를 도시하였다(Fig. 5). Fig. 5(a)는 Neighborhood Type이 Standard일 때 Minimum Neighbors를 증가시키며 RMSE의 변화를 그래프로 작성하였으며, Fig. 5(b)의 경우 Smooth일 때 Smoothing function을 증가시키며 RMSE의 변화를 그래프로 나타내었다. Anisotropy 옵션은 False와 True로 구분되기에 최적화 이후에 적용하였다.

Fig. 5. The variation in RMSE for each model between the second- and third-ranked options. (a) Standard; (b) Smooth.

Standard Neighborhood Type의 경우 모델별 RMSE 평균값은 Exponential 모델이 가장 낮은 수치(118.23)를 나타냈으며, Spherical(119.20)과 Gaussian(122.54) 순으로 증가하였다. 반면 전 모델별 최저치는 Spherical은 Minimum Neighbors 값이 3일 때 RMSE가 117.24를 나타냈으며, 최대치는 Gaussian이 Minimum Neighbors가 10일 때 가장 높은 RMSE 값(123.31)을 보였다. 또한 S p herical과 Gaussian은 Minimum Neighbors가 증가함에 따라 대체로 RMSE 수치도 증가하는 모습을 보였다. 이는 Fig. 1에서 제시된 샘플링 데이터의 분포를 고려할 때, 전체 데이터 40개 중 절반은 모서리 부근에 위치한다. 해당 데이터들은 인접한 데이터의 개수가 3개 내외이기 때문에 Minimum Neighbors 수치가 증가하면 인접하지 않은 데이터까지 포함하게 되므로 예측 오차가 증가하는 것으로 해석된다. 반면 Exponential의 경우 해당 인자를 변화시키더라도 큰 변화는 없는 것으로 분석되었다.

Smooth Neighborhood Type의 모델별 RMSE 평균값 또한 Standard와 동일하게 Exponential 모델이 가장 낮은 값(118.57)을 나타냈으며, Spherical(125.61)과 Gaussian(127.73)이 뒤를 이었다. 그러나 Standard와 달리 모델별 RMSE 최저치는 Smoothing function이 0.5일 때 Exponential(118.01)이 가장 낮았으며, 최대치는 Smoothing function을 1.0으로 설정하였을 때 Gaussian이 가장 높은 수치(130.78)를 보였다. 추가로 Smooth도 Standard와 같이 Spherical과 Gaussian은 Smoothing function이 증가함에 따라 예측 오차도 급격히 증가하는 경향을 보였으나, Exponential은 타 모델에 비하여 큰 변화가 없는 것으로 분석되었다. 베리오그램 모델은 원점 근처의 곡선이 가파를수록 최근접 이웃이 예측에 더 큰 영향을 받는데, 이때 가장 가파른 형태를 띠는 Exponential과 같은 경우 작은 수치에도 이미 큰 영향을 받아 일정값에 수렴하기 때문이라고 판단하였다.

3.4. 정규 크리깅을 이용한 토양오염지도 작성 결과

정규 크리깅 적용시 특정 옵션 및 입력값 설정을 따르는 토양오염지도를 Neighborhood Type에 따라 나누어 작성하였다. Neighborhood Type이 Standard일 때 예측 오차 최소치 및 최대치를 갖는 옵션 및 입력값 설정을 적용하여 토양오염지도를 작성하고 이를 비교분석하였다(Fig. 6). 예측 오차가 최소치일 때(Fig. 6(a))와 최대치일 때(Fig. 6(b))의 최저와 최고의 RMSE 차이는 8.71 mg/kg로 분석되었다. 좌측에 있는 RMSE 최소치일 때의 토양오염지도는 RMSE 최대치일 때의 토양오염지도보다 구리의 토양오염대책기준(≥450 mg/kg) 면적이 넓은 것으로 나타났다.

Fig. 6. Soil contamination mapping based on RMSE of standard interpolation. (a) Lowest; (b) Highest.

Smooth 기반의 토양오염지도(Fig. 7) 경우, 예측 오차가 최소치(Fig. 7(a))와 최대치(Fig. 7(b))일 때의 토양오염지도를 각각 작성하여 비교분석하였으며, 최저와 최고의 RMSE 차이는 14.65 mg/kg로 분석되었다. Standard 기반의 토양오염지도와 비교하였을 때 Smooth의 토양오염지도는 좀 더 부드러워졌음을 알 수 있으며, 토양 내에 포함된 구리 농도의 구간별 경계 또한 부드러워진 것을 확인할 수 있었다.

Fig. 7. Soil contamination mapping based on RMSE of smooth interpolation. (a) Lowest; (b) Highest.

Fig. 8은 각각 Standard(Fig. 8(a))와 Smooth(Fig. 8(b))일 때의 RMSE 최소치와 최대치일 때의 토양오염농도 차이를 나타낸다. Standard의 경우 2.2.3절에서 언급한 바와 같이 이웃 값들의 편차를 반영하지 않기에 Smooth보다 고해상도의 출력 데이터가 생성되었다고 분석하였으며, Smooth의 경우 이웃 값들의 편차를 고려하였기 때문에 주변 값들이 평활화되고 공간적 연속성이 증가한 출력데이터를 출력하였다. 또한 Standard의 차이는 최대 345.80에서 –45.80 mg/kg이었으며, Smooth는 169.80 mg/kg에서 –74.30 mg/kg으로 분석되었다.

Fig. 8. Difference between the lowest and highest soil contamination maps based on the RMSE. (a) Standard; (b) Smooth.

본 연구에서는 적은 양의 샘플링 데이터를 기반으로 정규 크리깅을 통해 토양오염지도를 작성할 시 베리오그램 모델 옵션과 입력값의 변화에 따른 예측 오차를 평가하였다. 이론적 베리오그램 모델로는 가장 범용적으로 활용되는 Spherical, Exponential, Gaussian을 채택하였지만, 실제 정규 크리깅에서 적용할 수 있는 베리오그램 모델 옵션은 이외에도 다양하다. 따라서 추후 연구에는 기본적인 3가지 모델에 더하여 J-Bessel이나 K-Bessel, Tetraspherical, Pentaspherical, Rational Quadratic, Hole Effect 등과 같은 세미베리오그램 모델의 특징을 고려하고 적용하여 예측 오차를 평가할 필요가 있다.

일반적으로 베리오그램 모델 옵션과 입력값을 결정하는 데에는 연구자의 주관성이 개입된다. 본 연구에서는 이를 최소화하기 위해 예측 오차에 대한 영향인자를 분석하는 과정에서 머신러닝 알고리즘을 접목하여 객관성을 확보하고자 하였다. 그러나 전술한 바와 같이 범용적으로 사용되는 3가지 이론적 베리오그램 모델을 선택한 부분에서 주관성이 반영되었으므로, 해당 부분에서 또한 객관적 요소를 반영해야 한다. 이를 위해서는 단편적인 머신러닝 알고리즘의 접목이 아닌 크리깅 적용 전 과정에서의 머신러닝 결합을 통해 주관적 요소를 최소화할 필요가 있다고 판단된다.

또한 본 연구에서 진행된 연구 방법은 토양오염의 범위와는 관계없이 적용할 수 있을 것으로 판단되며, 이는 본 연구에서 중점으로 꼽은 부분이 소량의 데이터를 기반으로 토양오염지도를 작성하는 것이기 때문이다. 반면 예측 오차와 영향인자 해석이 변화하는 것에 큰 영향을 미치리라 생각되는 것은 데이터의 수량으로 생각된다. Standard interpolation 같은 경우, Minimum Neighbors가 두 번째로 높은 영향력을 갖는 인자로 분석된 바와 함께 고찰하였을 때 예측값을 계산하는 데 이용되는 주변 이웃을 몇 개로 설정하느냐에 따라 크게 달라질 것이다. 예시로 본 연구에서 3으로 설정하였을 때의 RMSE가 가장 낮았으나, 값을 증가시킴에 따라 예측 오차 또한 증가하는 모습을 보였다. 이는 데이터가 소량이므로 주변에 있는 값들의 거리가 급격하게 멀어짐을 의미하여, 데이터의 수가 많아진다면 영향을 받을 수 있는 값들이 더욱 가까이 위치하게 되어 RMSE가 더 낮아질 것으로 사료된다.

추가로 본 연구에서 적용된 구리 농도 데이터는 분석 결과 Anisotropy를 False로 적용하는 것이 더 높은 예측 오차를 보였으나, 이는 지역적 특성(이방성)에 따라 영향 정도가 달라질 것으로 생각된다. 예를 들어 외부 요인(예, 수계, 지형 등)에 의한 영향을 받는 지역에서는 Anisotropy의 여부 또한 더 큰 영향을 미칠 것으로 판단되며, 이에 따라 옵션과 입력값을 설정할 때 Sector Type이 변화함에 따라 RMSE가 어떠한 방향으로 달라지는지 파악할 필요가 있다고 사료된다.

본 연구에서는 정규 크리깅을 기반으로 옵션 및 입력값의 설정 변화를 통해 최소 예측 오차를 갖는 토양오염지도를 작성하여 기존보다 심도 있는 고찰을 진행하였다. 또한, 정규 크리깅 기법의 적용 과정에서 각 인자의 옵션과 입력값이 예측 오차에 미치는 영향 정도를 머신러닝 알고리즘을 통해 비교·분석하였다. 예측 오차는 Leave-one-out 기법을 기반으로 RMSE를 계산하였다. 본 연구지역에서는 Model, Anisotropy, Minimum Neighbors/Smoothing function이 예측 오차에 큰 영향을 미치는 것으로 분석되었다. 이후 최소치 및 최대치의 RMSE를 보일 때의 옵션 및 입력값 설정에 따른 토양오염지도를 작성하고, 구리농도의 분포를 비교분석하였다. 그 결과 해당 연구지역에서는 Neighborhood Type이 Standard type일 때 Spherical 모델이 가장 높은 예측 성능(112.53)을 나타내었으며, 이때의 옵션은 Anisotropy는 False, Minimum Neighbors는 3, Sector Type은 4 Sector with 45° offset이었다.

정규 크리깅에서 범용적으로 사용되는 이론적 베리오그램 모델 3가지를 이용하여 토양오염지도를 작성하였으나, 사용된 모델 이외에도 다양한 모델이 존재하므로 추가적인 모델에 대한 평가와 검증이 필요하다. 또한 각 옵션과 입력값을 설정하는 과정에 연구자의 주관적 의견이 포함될 경우, 연구 결과 도출에서의 객관성이 저하될 수 있다. 따라서 주관적 요소를 최소화하기 위해서는 전체 보간 과정에서 머신러닝 기법의 결합을 통해 분석을 수행하는 등의 작업이 필요할 것으로 판단된다. 추가로, 지역 내 수계가 존재하는 경우 특정 방향성이 발현될 것이므로 이에 따른 영향을 함께 고려해야 할 것으로 사료된다.

본 연구를 통해 지구통계 기법과 머신러닝 알고리즘을 접목함으로써 지역 규모에서 적절하게 토양오염지도를 작성할 수 있음을 확인할 수 있었으며, 적은 양의 데이터를 기반으로 보간 작업을 시행할 때 어떠한 요인들이 큰 영향을 미치는지 파악할 수 있었다. 이는 예측 오차가 낮고 신뢰도 높은 토양오염지도 작성에 유용한 자료를 제공할 수 있을 것으로 판단되며, 이에 따라 토양오염이 발생한 지역에서 기존보다 정확하게 광해 오염 구역을 판별하고 적절한 방지사업과 복원대책을 수립하는데 도움을 줄 수 있을 것으로 기대한다.

본 연구는 2021년도 정부(산업통상자원부)의 재원으로 해외자원개발협회의 지원을 받아 수행된 연구임(데이터사이언스 기반 석유·가스 탐사 컨소시엄).

  1. Abuzaid, A.S., Jahin, H.S., Shokr, M.S., El Baroudy, A.A., Mohamed, E.S., Rebouh, N.Y. and Bassouny, M.A. (2023) A Novel Regional-Scale Assessment of Soil Metal Pollution in Arid Agroecosystems. Agronomy, v.13(1). doi: 10.3390/agronomy13010161
    CrossRef
  2. Choi, S., Go, W., Yoon, W., Hwang, S. and Kang, M. (2003) Analysis of the Distribution Pattern of Seawater Intrusion in Coastal Area using the Geostatistics and GIS. The Journal of GIS Assosiation of Korea, v.11(3), p.251-260.
  3. Chung, S., Kang, D., Park, H. and Shim, B. (2000) Application of Geostatistical Methods for the Analysis of Groundwater Contamination in Pusan. The Journal of Engineering Geology, v.10(3), p.247-261.
  4. Chung, S., Shim, B., Kang, D., Kim, B., Park, H., Won, J. and Kim, G. (2001) Interpolation of Missing Groundwater Level Data Using Kriging at a National Groundwater Monitoring Well. Journal of the Geological Society of Korea, v.37(3), p.421-430.
  5. Franke, R. (1982) Smooth Interpolation of Scattered Data by Local Thin Plate Splines. Computers & Mathematics with Applications, v.8(4), p.273-281. doi: 10.1016/0898-1221(82)90009-8
    CrossRef
  6. Hammam, A.A., Mohamed, W.S., Sayed, S.E.E., Kucher, D.E. and Mohamed, E.S. (2022) Assessment of Soil Contamination Using GIS and Multi-Variate Analysis: A Case Study in El-Minia Governorate, Egypt. Agronomy, v.12(5). doi: 10.3390/agronomy12051197
    CrossRef
  7. Heuvelink, G.B.M. and Webster, R. (2022) Spatial Statistics and Soil Mapping: A Blossoming Partnership under Pressure. Spatial Statistics, v.50. doi: 10.1016/j.spasta.2022.100639
    CrossRef
  8. Jeong, J. and Jang, W. (2011) Estimation of Distribution of the Weak Soil Layer for Using Geostatistics. Journal of the Korean Society of Marine Engineering, v.35(8), p.1132-1140. doi: 10.5916/jkosme.2011.35.8.1132
    CrossRef
  9. Jung, M., Jung, M. and Choi, Y. (2004) Environmental Assessment of Heavy Metals Anna Abandoned Metalliferous Mine in Korea. Economic and Environmental Geology, v.37(1), p.21-33.
  10. Jung, Y. and Lee, S. (2001) Potential Contamination of Soil and Groundwater from the Residual Mine Tailings in the Restored Abandoned Mine Area : Shihung Mine Area. Economic and Environmental Geology, v.34(5), p.461-470.
  11. Kira K. and Rendell L. A. (1992) The feature selection problem: traditional methods and a new algorithm. In Proceedings of the tenth national conference on Artificial intelligence (AAAI' 92), AAAI Press, p.129-134.
  12. Kim, J., Choi, J. and Kim, C. (2010) Comparative Evaluation of Interpolation Accuracy for CO2 Emission using GIS. Journal of Environmental Impact Assessment, v.19(6), p.647-656.
  13. Kim, H. and Jo, W. (2012) Assessment of PM-10 Monitoring Stations in Daegu using GIS Interpolation. Journal of Korean Society for Geospatial Information System, v.20(2), p.3-13. doi: 10.7319/kogsis.2012.20.2.003
    CrossRef
  14. Kim, H., Kim, K., Yun, S., Hwang, S., Kim, H., Lee, G. and Kim, Y. (2012a) Evaluation of Geostatistical Approaches for better Estimation of Polluted Soil Volume with Uncertainty Evaluation. Journal of Soil and Groundwater Environment, v.17(6), p.69-81. doi: 10.7857/jsge.2012.17.6.069
    CrossRef
  15. Kim, S., Lee, W., Kim, J., Shin, K., Kwon, T., Hyun, S. and Yang, J. (2012b) Prediction of Spatial Distribution Trends of Heavy Metals in Abandoned Gangwon Mine Site by Geostatistical Technique. Spatial Information Research, v.20(4), p.17-27. doi: 10.12672/ksis.2012.20.4.017
    CrossRef
  16. Kim, H., Yu, S., Yun, S., Kim, K., Lee, G., Lee, J., Heo, C. and Ryu, D. (2022) Estimation of Spatial Distribution Using the Gaussian Mixture Model with Multivariate Geoscience Data. Economic and Environmental Geology, v.55(4), p.353-366. doi: 10.9719/EEG.2022.55.4.353
    CrossRef
  17. Lee, Y., Park, M. and Hyun, S. (2022) Leaching Behavior of Metallic Elements from Abandoned Mine Sites in Varying Environmental Factors. Institute of Life Science and Natural Resources, v.30, p.87-100. doi: 10.33147/LSNRR.2022.30.1.87
    CrossRef
  18. Lee, I. and Choi, S. (2008) Characteristics of Stream and Soil Contamination from the Tailing Disposal and Waste Rocks at the Abandoned Uljin Mine. Economic and Environmental Geology, v.41(1), p.63-79.
  19. Lee, M., Choi, J. and Kim, J. (2003) Distribution and remediation design of heavy metal contamination in farm-land soils and river deposits in the vicinity of the Goro abandoned mine. Economic and Environmental Geology, v.36(2), p.89-101.
  20. Park, N. (2009) Comparison of Univariate Kriging Algorithms for GIS-based Thematic Mapping with Ground Survey Data. Korean Journal of Remote Sensing, v.25(4), p.321-338.
  21. Park, N. (2010) Application of Indicator Geostatistics for Probabilistic Uncertainty and Risk Analyses of Geochemical Data. Journal of Korean Earth Science Society, v.31(4), p.301-312. doi: 10.5467/JKESS.2010.31.4.301
    CrossRef
  22. Park, N. (2013) Geostatistical Downscaling of Coarse Scale Remote Sensing Data and Integration with Precise Observation Data for Generation of Fine Scale Thematic Information. Korean Journal of Remote Sensing, v.29(1), p.69-79. doi: 10.7780/kjrs.2013.29.1.7
    CrossRef
  23. Park, H., Shin, H., Roh, Y., Kim, K. and Park, K. (2012) Estimating Forest Carbon Stocks in Danyang Using Kriging Methods for Aboveground Biomass. Journal of the Korean Association of Geographic Information Studies, v.15(1), p.16-33.
    CrossRef
  24. Park, N., Jang, D. and Chi, K. (2006) Geostatistical Integration of Ground Survey Data and Secondary Data for Geological Thematic Mapping. Korean Journal of Remote Sensing, v.22(6), p.581-593.
  25. Park, N. and Jang, D. (2008) Mapping of Temperature and Rainfall Using DEM and Multivariate Kriging. Journal of the Korean Geographical Society, v.43(6), p.1002-1015.
  26. Robnik-Sikonja, M. and Kononenko, I. (1997) An Adaptation of Relief for Attribute Estimation in Regression. Machine Learning: Proceedings of the Fourteenth International Conference (ICML’97), p.296-304.
  27. Suh, J., Lee, H., Choi, Y. (2016) A rapid, accurate and efficient method to map heavy metal contaminated soils of abandoned mine sites using converted portable XRF data and GIS. International Journal of Environmental Research and Public Health, v.13(12), p.1191-1208. doi: 10.3390/ijerph13121191
    Pubmed KoreaMed CrossRef

Article

Research Paper

Econ. Environ. Geol. 2023; 56(3): 331-341

Published online June 30, 2023 https://doi.org/10.9719/EEG.2023.56.3.331

Copyright © THE KOREAN SOCIETY OF ECONOMIC AND ENVIRONMENTAL GEOLOGY.

Optimization of Soil Contamination Distribution Prediction Error using Geostatistical Technique and Interpretation of Contributory Factor Based on Machine Learning Algorithm

Hosang Han1, Jangwon Suh2,*, Yosoon Choi3

1Energy and Mineral Resources Engineering, Kangwon National University, Samcheok 25913, Republic of Korea
2Energy Resources and Chemical Engineering, Kangwon National University, Samcheok 25913, Republic of Korea
3Energy Resources Engineering, Pukyong National University, Busan 48513, Republic of Korea

Correspondence to:*jangwonsuh@kangwon.ac.kr; jangwonsuh@hanmail.net

Received: April 8, 2023; Revised: May 3, 2023; Accepted: May 4, 2023

This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided original work is properly cited.

Abstract

When creating a soil contamination map using geostatistical techniques, there are various sources that can affect prediction errors. In this study, a grid-based soil contamination map was created from the sampling data of heavy metal concentrations in soil in abandoned mine areas using Ordinary Kriging. Five factors that were judged to affect the prediction error of the soil contamination map were selected, and the variation of the root mean squared error (RMSE) between the predicted value and the actual value was analyzed based on the Leave-one-out technique. Then, using a machine learning algorithm, derived the top three factors affecting the RMSE. As a result, it was analyzed that Variogram Model, Minimum Neighbors, and Anisotropy factors have the largest impact on RMSE in the Standard interpolation. For the variogram models, the Spherical model showed the lowest RMSE, while the Minimum Neighbors had the lowest value at 3 and then increased as the value increased. In the case of Anisotropy, it was found to be more appropriate not to consider anisotropy. In this study, through the combined use of geostatistics and machine learning, it was possible to create a highly reliable soil contamination map at the local scale, and to identify which factors have a significant impact when interpolating a small amount of soil heavy metal data.

Keywords soil contamination map, prediction error, variogram, Ordinary Kriging, machine learning

지구통계 기법을 이용한 토양오염 분포 예측 오차 최적화 및 머신러닝 알고리즘 기반의 영향인자 해석

한호상1 · 서장원2,* · 최요순3

1강원대학교 에너지자원융합공학과
2강원대학교 에너지자원화학공학과
3부경대학교 에너지자원공학과

Received: April 8, 2023; Revised: May 3, 2023; Accepted: May 4, 2023

요 약

지구통계 기법을 기반으로 토양오염지도를 작성하는 경우 예측 오차가 발생하며 이에 영향을 미치는 다양한 원인이 존재한다. 본 연구에서는 정규 크리깅을 활용하여 폐광산지역의 토양 내 중금속 농도 샘플링 데이터로부터 격자형 기반의 토양오염지도를 작성하였다. 해당 지도의 예측 오차에 영향을 미친다고 판단된 5개 인자를 선정하고, Leave-one-out 기법을 기반으로 인자의 옵션과 설정값의 변화에 따른 예측값과 실측값 간의 평균제곱근오차(root mean square error, RMSE) 변화를 분석하였다. 이후 머신러닝 알고리즘을 이용하여 RMSE에 영향을 미치는 상위 3개 인자를 도출하였다. 그 결과, Standard interpolation에서는 Variogram Model, Minimum Neighbors, Anisotropy 인자가 RMSE에 가장 큰 영향을 미치는 것으로 분석되었다. 베리오그램 모델에서는 Spherical 모델이 가장 낮은 RMSE를 보였으며, Minimum Neighbors는 3에서 최젓값을 보인 후 값이 증가함에 따라 증가하였다. Anisotropy의 경우 이방성을 고려하지 않는 것이 더 적합한 것으로 나타났다. 본 연구에서는 지구통계와 머신러닝의 복합 활용을 통해 지역 규모에서 높은 신뢰성을 갖는 토양오염지도를 작성할 수 있었고, 적은 수의 토양 샘플링 데이터의 보간 작업 시 어떠한 요인들이 큰 영향을 미치는지 파악할 수 있었다.

주요어 토양오염지도, 예측 오차, 베리오그램, 정규 크리깅, 머신러닝

Research Highlights

  • It is necessary to remove subjectivity from the various option selection and value setting in ordinary kriging that can affect the prediction error.

  • Soil contamination map with the lowest prediction errors was generated using ordinary kriging technique depending on the numerous combination of different options and set values.

  • Machine learning algorithm identified key factors (parameters) affecting prediction error of ordinary kriging in mapping soil contaminants

1. 서 론

과거 폐쇄된 광산 지역에서 적절한 광해 방지 처리를 시행하지 않아 토양오염 등과 같은 광산 피해가 발생하는 사례가 다수 존재한다(Jung and Lee, 2001, Lee et al., 2003, Jung et al., 2004). 특히 토양오염은 오염 경로가 다양하고, 발생 범위가 지역적이며, 피해 발생이 완만하게 나타나 이에 적절한 광해 방지 사업이 필수적이다. 하지만 이미 오염이 발생한 지역의 경우 현지의 토양오염 정도를 조사 및 평가하고, 해당 토양오염이 주변 생태계에 미치는 영향이 심각하다면 이에 적절한 복원대책을 수립하기 위하여 신뢰성 높은 토양오염지도를 작성해야한다(Lee et al., 2022).

토양오염지도를 작성하기 위해서는 오염의 개연성이 예상되는 지역에서 채취된 시료를 바탕으로 작성하지만, 소량으로 수집된 시료들을 통하여 작성한 보간 지도는 대체로 낮은 신뢰도를 가진다. 따라서 이를 해결하기 위해 정확한 토양오염 예측 지도를 제작해야 하며, 채집된 소량의 시료를 기반으로 높은 신뢰성을 갖춘 토양오염지도를 작성할 수 있어야 한다. 그러나 신뢰도를 평가하기 위해 기준으로 삼은 예측 오차에 영향을 미칠 수 있는 다양한 원인이 존재하므로, 이를 파악하여 보간 작업을 시행하는 도중 어떠한 요인들이 큰 영향을 미치는지 평가하고 분석할 필요가 있다(Kim et al., 2022).

지구통계 기법을 통해 토양 내 중금속 분포를 예측하는 연구들은 다수의 국내·외 연구자들이 제안한 바 있다(Lee and Choi, 2008, Kim et al., 2012a, Kim et al., 2012b). 특히 지리정보시스템(geographic information systems, GIS) 환경에서 지구통계 분석을 이용하여 보간하는 방법들이 주를 이루며, 그중에서도 정규 크리깅(ordinary kriging)을 활용해 추정(Jeong and Jang, 2011)하거나 보완(Chung et al., 2001)하는 연구들이 다수 존재하였다. 또한 크리깅을 통해 예측된 값을 검정하기 위해 교차 타당성 검정 기법 중 Leave-one-out을 적용한 연구사례(Park et al., 2006, Park and Jang, 2008, Park et al., 2012)도 사례도 발표되었다. 추가로 정규 크리깅을 이용하여 보간 지도를 작성하는 사례(Chung et al., 2000, Choi et al., 2003, Kim and Jo, 2012)도 다수 발표된 바 있다. Kim et al. (2010)에서는 Lag distance를 변화시키면서 예측 오차의 변화를 분석하였다. 그러나 토양오염지도 작성을 위한 크리깅 적용 시 설정 가능한 옵션과 파라미터의 변화에 따라 최소의 예측 오차를 찾고자 하는 사례는 미비하였다.

따라서 본 연구에서는 지구통계 기법 중 정규 크리깅을 이용하여 토양 내 중금속 농도 분포를 기존보다 심도있게 예측하고, 이를 Leave-one-out 기법을 통해 검정한다. 또한 예측 오차에 영향을 미치는 인자들을 검토하여 머신러닝 알고리즘을 통해 각 옵션과 파라미터의 영향계수를 분석하고, 이후 옵션 최적화를 진행하여 가장 낮은 예측 오차를 보이는 옵션을 검색한다. 이를 통해 크리깅의 파라미터를 최적화하고, 이때의 각 옵션과 파라미터에 따라 가장 낮은 예측 오차와 가장 높은 예측 오차의 토양오염지도를 작성하여 비교·분석한다.

2. 연구 방법

Fig. 1은 정규 크리깅 기법을 이용한 토양오염지도 작성 시 보간 영향인자(또는 파라미터)의 옵션이나 입력값 설정에 따른 예측 오차의 평가와 최적화를 수행하기 위한 연구 절차를 보여준다. 이는 연구지역의 데이터 취득과 탐색적 데이터 분석, 정규 크리깅 보간 시 다양한 인자의 설정 조합에 따른 예측 오차 평가와 최적화, 머신러닝 알고리즘을 이용한 예측 오차 영향인자의 기여도 평가, 최대 및 최소 예측 오차를 갖는 토양오염지도 작성 및 비교 등의 과정으로 구성된다. 본 연구에서는 보간법 기반의 토양오염지도 작성을 위해 대표적인 상용 GIS 소프트웨어인 ArcGIS Pro를, 머신러닝 분석을 위해 Python 언어 기반의 오픈소스 소프트웨어인 Orange Data Mining을 활용하였다.

Figure 1. Flowchart to illustrate the research procedure in this study.

2.1. 연구지역 및 데이터

연구지역은 부산광역시 기장군에 위치하는 금속 폐광산 일대로, 해당 지역의 지리 좌표는 북위 35°18′31.36′′, 동경 129°13′25.56′′이다. 1938년부터 1945년 사이에 국내 최대 규모로 구리를 생산하던 광산 중 하나였으며, 구리 이외에도 다양한 광물자원을 생산한 후 1990년에 폐광되었다. 폐광 이후 부지에 적절한 광해 복구 및 관리 작업이 진행되지 않아 중금속이 포함된 광산 유출수와 다량의 폐석 등이 발생하였고, 이로부터 광산 인근 토양이 고농도의 구리(Cu)에 의해 오염된 것으로 조사되었다(Suh et al., 2016).

Fig. 2는 연구지역의 토양 샘플링 위치 분포를 보여준다. 황색 사각형 영역은 전체 연구지역을, 적색 사각형 영역은 획득한 데이터들의 보간 영역(토양오염지도 작성 영역)을 나타낸다. 토양 내 구리 농도는 휴대용 X-선 형광 분석기(Portable X-Ray Fluorescence Spectroscopy, PXRF)를 이용하여 측정되었으며, 총 40개의 표본이 수집되었다.

Figure 2. Location of soil contaminant sampling points in the study area.

2.2. 베리오그램 모델링 및 파라미터 설정에 따른 예측 오차 분석

토양오염지도 작성을 위하여 보간법에 관한 기존 연구문헌을 검토하고, 대표적인 지구통계 기법인 크리깅(kriging)을 적용하였다. 크리깅은 임의의 공간에서 획득한 시료값으로부터 시료 주변에 대해 최소 분산의 불편선형추정치(best linear unbiased estimator)를 구하는 방법으로 단순, 정규, 일반, 구역 크리깅 등으로 나눠진다. 본 연구에서는 다양한 크리깅 기법 중에서도 가장 범용적으로 이용(Hammam et al., 2022, Heuvelink and Webster, 2022, Abuzaid et al., 2023)되고 있는 정규 크리깅을 보간 방법으로 사용하였다. 정규 크리깅은 모집단의 평균을 알지 못하나 값을 고정된 것으로 가정하며, 일반 크리깅에 추정식이 편향되지 않는 조건이 추가된 기법이다. 특징으로는 가중치의 합이 1이라는 제약 조건으로 오차분산이 최소가 되도록 값을 예측하고, 모집단의 평균을 알 수 없으나 해당 값이 일정하다는 전제하에 사용된다는 점이 있다. 그러나 한계점으로는 모든 모집단의 평균이 같다고 가정하므로 현실성이 떨어질 수 있다.

정규 크리깅을 통해 보간을 수행하기 위해서는 중간 과정에서 옵션과 값 설정이 필요하며, 해당 부분에는 Model, Anisotropy, Neighborhood Type, Maximum Neighbors, Minimum Neighbors, Sector Type 등이 있다. 우선 정규 크리깅을 설정할 때, 이론적 베리오그램 모델에는 다양한 옵션이 존재한다. 본 연구에서는 가장 범용적으로 이용되는 모델들인 Spherical, Exponential, Gaussian을 적용하였다. 세 가지 모델 모두 문턱값이 존재하며, 동일하게 분리 거리가 증가하면서 데이터 간의 상관성이 감소해 세미베리오그램(semi-variogram) 값이 상관 거리 이상에서는 값이 일정해지는 형태를 띤다. Spherical 모델은 분리 거리 h가 0일 때 그은 접선이 상관 거리의 3분의 2가 되는 위치에서 문턱값과 교차하며, Exponential 모델과 Gaussian 모델의 경우 상관 거리 a에서 정확한 문턱값을 갖지 않으나 분리 거리가 증가할수록 문턱값에 수렴한다. 두 모델은 문턱값의 95%에 해당하는 세미베리오그램 값의 분리 거리를 실제 상관 거리로 가정하여 적용하며, 특히 Gaussian 모델은 작은 분리 거리에서의 데이터들이 강한 상관성을 갖거나 연속성이 강할 때 사용된다.

크리깅을 적용할 때 주변 데이터의 영향을 얼마나 받게 하는지에 대하여 설정하는 것은 매우 중요하다. 해당 부분을 사용 소프트웨어에서는 Searching Neighborhood 라고 이르며, 원본 데이터 간에 영향을 설정하는 부분이기에 실험자의 주관적인 해석이 포함된다. 해당 설정 단계에서의 대표적인 옵션값으로 Neighborhood Type이 존재하며, 옵션의 선택 유형은 Standard와 Smooth로 나뉜다. Standard interpolation은 입력된 주변 이웃 값 자체를 이용하여 산술평균을 계산하는 방법으로, 이웃 값들의 편차를 반영하지 않고 그대로 사용하여 결과적으로 고해상도의 출력 데이터가 생성된다. 반면 Smooth interpolation의 경우, Standard와 동일하게 입력된 주변 이웃 값을 활용하여 산술평균을 계산하나 이웃 간의 편차를 고려하여 주변 값들이 평활화되고 출력 데이터의 공간적 연속성이 증가한다(Franke, 1982). 본 연구에서는 두 옵션을 함께 진행하여 예측 정확도를 평가하였다.

Table 1은 정규 크리깅을 수행하기 위해 변화시킨 영향인자의 옵션 또는 입력값을 정리한 것이다. 이와 같이 옵션과 입력값을 다양하게 변화시킨 것은 각 모델에 대하여 최소의 예측 오차(실측값과 예측값의 차이)를 나타내는 설정을 찾아내기 위한 과정이며, 우선 Neighborhood Type에 따라 Standard와 Smooth를 구분하였다. Standard의 경우 3가지 모델과 2가지의 Anisotropy, 6단계의 Maximum Neighbors, 9단계의 Minimum Neighbors, 3가지의 Sector type 등 5가지 영향인자에 대한 총 810개 경우의 수에 대한 보간을 수행하고, 토양오염지도의 예측 오차를 분석하였다. 만약 원칙대로 진행할 시 총 972개 경우의 수가 나타나지만, Minimum Neighbors를 증가시키면 이에 따라 Maximum Neighbors의 최소 한계 또한 증가하였기에 162개 경우의 수는 제외하였다. Smooth의 경우 3가지 모델과 2가지의 Anisotropy, 10단계의 Smoothing function을 적용해 60개 조합에 대한 보간을 수행하고, 예측 오차를 평가하였다.

Table 1 . The parameter setting of each contributory factor in ordinary kriging.

Neighborhood TypeModelAnisotropyMaximum NeighborsMinimum NeighborsSector type
StandardSpherical / Exponential / GaussianFalse / TrueMin 5 Max 15 Step 2Min 2 Max 10 Step 14 Sector / 4 Sector with 45° offset / 8 Sector
SmoothSmoothing function
Min 0.1Max 1.0Step 0.1


보간 기법을 적용한 후에는 보간을 통해 예측한 값이 참값에 얼마나 근접하는지의 정도를 조사해야 한다. 이를 위해 본 연구에서는 예측 정확도 평가 기준을 산정하는 단계에서 교차검증법(cross validation) 중 하나로써 유사 주제의 연구에서 널리 활용되어온 Leave-one-out 기법(Park, 2009; 2010; 2013)을 적용하였다. 이 기법은 이미 알고 있는 값(참값 또는 측정값)에서 하나의 자료를 제외한 후 나머지 모든 데이터를 이용하여 보간을 수행하고, 예측된 값과 제외된 데이터의 값을 비교함으로써 예측 오차를 평가한다. 모든 데이터에 대하여 이 과정을반복하고, 평균 편차를 계산하는 기법이다. 모델의 예측 정확도를 얼마나 신뢰할 수 있는지를 평가하는 것은 연구에서 필수적으로 진행되어야 하며, 예측 정확도의 성능에 대한 의미를 빠르게 해석하기 위해서는 요약된 정보가 필요하다. 이 요약 정보를 나타내는 기준은 다양하다. 본 연구에서는 보간 모델이 관심 지역의 값을 얼마나 정확하게 예측하였는가를 나타내는 값 중 가장 범용적으로 활용되는 평균 제곱근 오차(root mean square error, RMSE)를 평가 기준으로 이용하였다. RMSE는 그 수치가 낮을수록 예측 오차가 작다고 평가할 수 있으며 보간법 결과의 관점에서는 예측 성능이 뛰어나다고 평가할 수 있다.

2.3. 머신러닝 알고리즘을 이용한 정규 크리깅 예측 오차 영향인자 평가

정규 크리깅을 적용하는 단계에서 영향인자 별(Model, Anisotropy, Neighborhood type, Maximum neighbors, Minimum neighbors, Sector type 등) 옵션 또는 설정값의 조합에 따른 예측 오차를 계산하였다. 그러나 이는 5개(standard) 또는 3개(smooth)의 영향인자의 옵션 및 설정값에 대한 수백개 조합에 따른 예측 오차를 나타내기 때문에 이것만으로 각 인자가 예측 오차에 미치는 영향 정도를 파악할 수는 없다. 따라서 본 연구에서는 머신러닝 알고리즘을 이용하여 옵션 및 설정값 조합에 따른 RMSE를 중심으로 각 인자의 영향력(기여도)을 평가하였다. 이전 단계를 통해 Standard 유형 810개, Smooth 유형 60개의 옵션 및 입력값 설정에 따른 예측 오차를 계산하였다. 여기서 예측 오차를 종속 변수로, 옵션 및 입력값을 독립 변수로 두고 머신러닝 알고리즘을 적용하여 독립 변수의 영향 정도를 분석하고자 하였다. 종속 변수와 독립 변수 모두 회귀형 데이터이고, 해당 변수의 영향력(기여도)을 모르기 때문에 본 연구에서는 독립 변수인 영향 인자들의 영향 정도를 분석하는 데에 Relief의 개선형인 RReliefF 알고리즘을 적용하였다.

머신러닝 분야에서 Feature selection을 위해 개발된 Relief 알고리즘은 본래 불연속형이나 이진 분류 문제에 적용하기 위해 설계되었으며, 각 Feature(영향인자)에 대한 점수를 계산한 후 순위를 결정하는 데 주로 이용된다. 이는 휴리스틱에 의존하지 않고 옵션 간의 상호작용이 존재하더라도 정확하며, 노이즈에 대한 내성을 가진다(Kira and Rendell, 1992). 해당 알고리즘을 회귀형 데이터에 더욱 적합하도록 수정된 RReliefF는 Robnik-Šikonja와 Kononenko에 의해 제시되었다. 해당 계수는 Feature 간의 강력한 종속성을 발견하고, 종속성이 없는 도메인의 경우 평균제곱오차(mean squared error, MSE)와 같은 성능을 발휘한다(Robnik-Šikonja and Kononenko, 1997). 본 연구에서 RReliefF는 회귀선과 선택 옵션 간의 MSE 값 비교를 통해 옵션의 영향력을 산출하며, 0과 1 사이의 값을 나타낸다. 해당 수치는 0에 가까울수록 상관성이 낮고, 1에 가까울수록 상관성이 높은 것으로 해석할 수 있다. 따라서 본 연구에서는 RReliefF 계수를 이용하여 RMSE에 영향을 미치는 크리깅 인자들의 순위를 평가하였다.

3. 연구 결과 및 해석

3.1. 탐색적 데이터 분석 결과

Table 2는 본 연구대상지역의 구리 농도에 대한 기술 통계량을 요약한 것이다. 중앙값이 평균값보다 작고, 왜도가 양수이기 때문에 로그-정규분포를 보이는 것으로 분석되었다. Fig. 3(a)은 토양 샘플링 자료 40개의 구리 농도 분포를 보여준다. 최곳값 1개를 제외한 다수의 구리 농도가 500 mg/kg 이하인 것으로 나타났다. 구리 농도 분포를 확인한 결과, 본 연구에 사용된 구리 농도의 분포 데이터는 전형적인 양의 왜도를 따르는 것으로 나타났으며 원본을 통해 토양오염지도를 작성하면 편향된 결과를 나타낼 수 있다고 판단하였다. 따라서 정규 크리깅을 적용하기 전, 로그 변환(log transformation)을 통해 정규화를 시행하였고, 이를 확인할 수 있는 QQ-plot의 작성 결과는 Fig. 3(b)과 같다. 이후 정규분포를 따르는 데이터를 이용하여 정규 크리깅 기법을 적용하고 토양오염지도를 작성하였다.

Table 2 . Discriptive statistics data of soil contaminant (Cu) (unit: mg/kg).

MinMaxMedianMeanSkewnessStandard deviation
189571051712.37183.63

Figure 3. Result of exploratory data analysis. (a) Distribution of Cu; (b) QQ-plot.

3.2. 베리오그램 파라미터 설정에 따른 예측 오차 평가

정규 크리깅의 다양한 옵션 및 입력값 설정에 따른 RMSE가 최저치와 최대치일 때의 설정을 Table 3에 나타내었다. Neighborhood Type에 따라 적용하는 영향인자 일부가 상이하므로 Standard와 Smooth 유형으로 구분하여 작성하였다. 3가지의 베리오그램 모델에 Anisotropy 적용 여부를 구분 지어 가장 우측 비고 칸에 각 모델의 예측 오차 최저치와 최대치 결과를 나타내었다.

Table 3 . RMSE of option selections for each parameter based on sensitivity analysis..

Neighborhood TypeModelAnisotropyMaximum NeighborsMinimum NeighborsSector TypeRMSE (mg/kg)Remarks
StandardSphericalFalse5 - 15*34 Sector with 45ο offset112.53Lowest
ExponentialFalse544 Sector with 45ο offset117.17
GaussianFalse5 – 15*34 Sector with 45ο offset116.44
SphericalTrue538 Sector118.36
ExponentialTrue544 Sector117.35
GaussianTrue548 Sector124.66
SphericalFalse11 – 15*104 Sector with 45ο offset121.24Highest
ExponentialFalse964 Sector with 45ο offset119.13
GaussianFalse11104 Sector with 45ο offset120.98
SphericalTrue11 – 15*104 Sector with 45ο offset123.04
ExponentialTrue1164 Sector118.62
GaussianTrue11 – 15*104 Sector with 45ο offset128.20
ModelAnisotropySmoothing functionRMSERemarks
SmoothSperhicalFalse0.1120.86Lowest
SperhicalTrue0.4121.84
ExponentialFalse0.3118.49
ExponentialTrue0.5118.01
GaussianFalse0.2122.52
GaussianTrue0.4126.97
SperhicalFalse1.0132.66Highest
SperhicalTrue1.0125.73
ExponentialFalse1.0120.55
ExponentialTrue1.0118.99
GaussianFalse1.0132.20
GaussianTrue1.0129.36

*Maximum Neighbors가 변화함에도 RMSE는 동일.



Neighborhood Type이 Standard일 때의 RMSE 최저치 설정은 Spherical 모델과 Anisotropy는 False, Minimum Neighbors는 3, Sector Type은 4 Sector with 45o offset일 때 112.53으로 가장 낮았다. 반면 RMSE 최대치 모델의 경우 Gaussian 모델과 Anisotropy는 True, Minimum Neighbors는 10, Sector Type은 4 Sector with 45o offset으로 설정하였을 때 128.20을 보여주었다. 이외에도 3가지 모델에 대한 각각의 RMSE 최저치와 최대치도 표에 작성하였다.

Neighborhood Type이 Smooth일 때 예측 정확도가 가장 높았던 모델은 Exponential로 Anisotropy는 True, Smoothing function은 0.5로 설정하였을 때 118.01의 수치를 나타내었다. 그러나 예측 정확도가 가장 낮았던 모델은 Spherical로 Anisotropy는 False, Smoothing function은 1.0으로 지정하였을 때 132.66을 보여주었다. Smooth일 때의 RMSE값 또한 3가지 모델 모두 표에 나타내었다. 반면 RMSE 최대치와 최소치, 그리고 그때의 옵션 및 입력값 설정에 관한 내용은 뒷부분에 언급하였다.

3.3. 정규 크리깅 예측 오차 영향인자 평가 결과

Fig. 4는 머신러닝 알고리즘을 이용한 정규 크리깅 예측오차 영향인자 분석 결과를 보여준다. 영향인자와 예측 오차 간의 상관성 정도를 나타내는 RReliefF 계수에 따라 각각의 옵션을 큰 순서대로 표현하고, Neighborhood 유형에 따라 Standard(Fig. 4(a))와 Smooth(Fig. 4(b))로 구분하였다. Standard의 경우 Model(0.263)이 가장 큰 영향을 미쳤으며, 이후 Minimum Neighbors(0.196)와 Antisotropy(0.126), Maximum Neighbors(0.108), Sector Type(0.070) 순으로 영향을 미치는 것으로 분석되었다. Smooth의 경우 또한 Model(0.729)이 가장 큰 영향력을 갖는 것으로 분석되었으며, Anisotropy(0.349)와 Smoothing function(0.282)이 뒤를 이었다. 이에 따라 RMSE에 영향을 미치는 옵션들의 상위 3개를 선택하여 예측 정확도의 평가를 진행하였다. Standard와 Smooth 옵션 모두에 가장 큰 영향을 미친

Figure 4. RReliefF coefficient of parameters considered to affect the ordinary kriging prediction error. (a) Standard; (b) Smooth.

다고 판단된 모델을 기준으로 각각 차순위와 3순위 옵션을 변화시키며 그래프를 도시하였다(Fig. 5). Fig. 5(a)는 Neighborhood Type이 Standard일 때 Minimum Neighbors를 증가시키며 RMSE의 변화를 그래프로 작성하였으며, Fig. 5(b)의 경우 Smooth일 때 Smoothing function을 증가시키며 RMSE의 변화를 그래프로 나타내었다. Anisotropy 옵션은 False와 True로 구분되기에 최적화 이후에 적용하였다.

Figure 5. The variation in RMSE for each model between the second- and third-ranked options. (a) Standard; (b) Smooth.

Standard Neighborhood Type의 경우 모델별 RMSE 평균값은 Exponential 모델이 가장 낮은 수치(118.23)를 나타냈으며, Spherical(119.20)과 Gaussian(122.54) 순으로 증가하였다. 반면 전 모델별 최저치는 Spherical은 Minimum Neighbors 값이 3일 때 RMSE가 117.24를 나타냈으며, 최대치는 Gaussian이 Minimum Neighbors가 10일 때 가장 높은 RMSE 값(123.31)을 보였다. 또한 S p herical과 Gaussian은 Minimum Neighbors가 증가함에 따라 대체로 RMSE 수치도 증가하는 모습을 보였다. 이는 Fig. 1에서 제시된 샘플링 데이터의 분포를 고려할 때, 전체 데이터 40개 중 절반은 모서리 부근에 위치한다. 해당 데이터들은 인접한 데이터의 개수가 3개 내외이기 때문에 Minimum Neighbors 수치가 증가하면 인접하지 않은 데이터까지 포함하게 되므로 예측 오차가 증가하는 것으로 해석된다. 반면 Exponential의 경우 해당 인자를 변화시키더라도 큰 변화는 없는 것으로 분석되었다.

Smooth Neighborhood Type의 모델별 RMSE 평균값 또한 Standard와 동일하게 Exponential 모델이 가장 낮은 값(118.57)을 나타냈으며, Spherical(125.61)과 Gaussian(127.73)이 뒤를 이었다. 그러나 Standard와 달리 모델별 RMSE 최저치는 Smoothing function이 0.5일 때 Exponential(118.01)이 가장 낮았으며, 최대치는 Smoothing function을 1.0으로 설정하였을 때 Gaussian이 가장 높은 수치(130.78)를 보였다. 추가로 Smooth도 Standard와 같이 Spherical과 Gaussian은 Smoothing function이 증가함에 따라 예측 오차도 급격히 증가하는 경향을 보였으나, Exponential은 타 모델에 비하여 큰 변화가 없는 것으로 분석되었다. 베리오그램 모델은 원점 근처의 곡선이 가파를수록 최근접 이웃이 예측에 더 큰 영향을 받는데, 이때 가장 가파른 형태를 띠는 Exponential과 같은 경우 작은 수치에도 이미 큰 영향을 받아 일정값에 수렴하기 때문이라고 판단하였다.

3.4. 정규 크리깅을 이용한 토양오염지도 작성 결과

정규 크리깅 적용시 특정 옵션 및 입력값 설정을 따르는 토양오염지도를 Neighborhood Type에 따라 나누어 작성하였다. Neighborhood Type이 Standard일 때 예측 오차 최소치 및 최대치를 갖는 옵션 및 입력값 설정을 적용하여 토양오염지도를 작성하고 이를 비교분석하였다(Fig. 6). 예측 오차가 최소치일 때(Fig. 6(a))와 최대치일 때(Fig. 6(b))의 최저와 최고의 RMSE 차이는 8.71 mg/kg로 분석되었다. 좌측에 있는 RMSE 최소치일 때의 토양오염지도는 RMSE 최대치일 때의 토양오염지도보다 구리의 토양오염대책기준(≥450 mg/kg) 면적이 넓은 것으로 나타났다.

Figure 6. Soil contamination mapping based on RMSE of standard interpolation. (a) Lowest; (b) Highest.

Smooth 기반의 토양오염지도(Fig. 7) 경우, 예측 오차가 최소치(Fig. 7(a))와 최대치(Fig. 7(b))일 때의 토양오염지도를 각각 작성하여 비교분석하였으며, 최저와 최고의 RMSE 차이는 14.65 mg/kg로 분석되었다. Standard 기반의 토양오염지도와 비교하였을 때 Smooth의 토양오염지도는 좀 더 부드러워졌음을 알 수 있으며, 토양 내에 포함된 구리 농도의 구간별 경계 또한 부드러워진 것을 확인할 수 있었다.

Figure 7. Soil contamination mapping based on RMSE of smooth interpolation. (a) Lowest; (b) Highest.

Fig. 8은 각각 Standard(Fig. 8(a))와 Smooth(Fig. 8(b))일 때의 RMSE 최소치와 최대치일 때의 토양오염농도 차이를 나타낸다. Standard의 경우 2.2.3절에서 언급한 바와 같이 이웃 값들의 편차를 반영하지 않기에 Smooth보다 고해상도의 출력 데이터가 생성되었다고 분석하였으며, Smooth의 경우 이웃 값들의 편차를 고려하였기 때문에 주변 값들이 평활화되고 공간적 연속성이 증가한 출력데이터를 출력하였다. 또한 Standard의 차이는 최대 345.80에서 –45.80 mg/kg이었으며, Smooth는 169.80 mg/kg에서 –74.30 mg/kg으로 분석되었다.

Figure 8. Difference between the lowest and highest soil contamination maps based on the RMSE. (a) Standard; (b) Smooth.

4. 토 의

본 연구에서는 적은 양의 샘플링 데이터를 기반으로 정규 크리깅을 통해 토양오염지도를 작성할 시 베리오그램 모델 옵션과 입력값의 변화에 따른 예측 오차를 평가하였다. 이론적 베리오그램 모델로는 가장 범용적으로 활용되는 Spherical, Exponential, Gaussian을 채택하였지만, 실제 정규 크리깅에서 적용할 수 있는 베리오그램 모델 옵션은 이외에도 다양하다. 따라서 추후 연구에는 기본적인 3가지 모델에 더하여 J-Bessel이나 K-Bessel, Tetraspherical, Pentaspherical, Rational Quadratic, Hole Effect 등과 같은 세미베리오그램 모델의 특징을 고려하고 적용하여 예측 오차를 평가할 필요가 있다.

일반적으로 베리오그램 모델 옵션과 입력값을 결정하는 데에는 연구자의 주관성이 개입된다. 본 연구에서는 이를 최소화하기 위해 예측 오차에 대한 영향인자를 분석하는 과정에서 머신러닝 알고리즘을 접목하여 객관성을 확보하고자 하였다. 그러나 전술한 바와 같이 범용적으로 사용되는 3가지 이론적 베리오그램 모델을 선택한 부분에서 주관성이 반영되었으므로, 해당 부분에서 또한 객관적 요소를 반영해야 한다. 이를 위해서는 단편적인 머신러닝 알고리즘의 접목이 아닌 크리깅 적용 전 과정에서의 머신러닝 결합을 통해 주관적 요소를 최소화할 필요가 있다고 판단된다.

또한 본 연구에서 진행된 연구 방법은 토양오염의 범위와는 관계없이 적용할 수 있을 것으로 판단되며, 이는 본 연구에서 중점으로 꼽은 부분이 소량의 데이터를 기반으로 토양오염지도를 작성하는 것이기 때문이다. 반면 예측 오차와 영향인자 해석이 변화하는 것에 큰 영향을 미치리라 생각되는 것은 데이터의 수량으로 생각된다. Standard interpolation 같은 경우, Minimum Neighbors가 두 번째로 높은 영향력을 갖는 인자로 분석된 바와 함께 고찰하였을 때 예측값을 계산하는 데 이용되는 주변 이웃을 몇 개로 설정하느냐에 따라 크게 달라질 것이다. 예시로 본 연구에서 3으로 설정하였을 때의 RMSE가 가장 낮았으나, 값을 증가시킴에 따라 예측 오차 또한 증가하는 모습을 보였다. 이는 데이터가 소량이므로 주변에 있는 값들의 거리가 급격하게 멀어짐을 의미하여, 데이터의 수가 많아진다면 영향을 받을 수 있는 값들이 더욱 가까이 위치하게 되어 RMSE가 더 낮아질 것으로 사료된다.

추가로 본 연구에서 적용된 구리 농도 데이터는 분석 결과 Anisotropy를 False로 적용하는 것이 더 높은 예측 오차를 보였으나, 이는 지역적 특성(이방성)에 따라 영향 정도가 달라질 것으로 생각된다. 예를 들어 외부 요인(예, 수계, 지형 등)에 의한 영향을 받는 지역에서는 Anisotropy의 여부 또한 더 큰 영향을 미칠 것으로 판단되며, 이에 따라 옵션과 입력값을 설정할 때 Sector Type이 변화함에 따라 RMSE가 어떠한 방향으로 달라지는지 파악할 필요가 있다고 사료된다.

5. 결 론

본 연구에서는 정규 크리깅을 기반으로 옵션 및 입력값의 설정 변화를 통해 최소 예측 오차를 갖는 토양오염지도를 작성하여 기존보다 심도 있는 고찰을 진행하였다. 또한, 정규 크리깅 기법의 적용 과정에서 각 인자의 옵션과 입력값이 예측 오차에 미치는 영향 정도를 머신러닝 알고리즘을 통해 비교·분석하였다. 예측 오차는 Leave-one-out 기법을 기반으로 RMSE를 계산하였다. 본 연구지역에서는 Model, Anisotropy, Minimum Neighbors/Smoothing function이 예측 오차에 큰 영향을 미치는 것으로 분석되었다. 이후 최소치 및 최대치의 RMSE를 보일 때의 옵션 및 입력값 설정에 따른 토양오염지도를 작성하고, 구리농도의 분포를 비교분석하였다. 그 결과 해당 연구지역에서는 Neighborhood Type이 Standard type일 때 Spherical 모델이 가장 높은 예측 성능(112.53)을 나타내었으며, 이때의 옵션은 Anisotropy는 False, Minimum Neighbors는 3, Sector Type은 4 Sector with 45° offset이었다.

정규 크리깅에서 범용적으로 사용되는 이론적 베리오그램 모델 3가지를 이용하여 토양오염지도를 작성하였으나, 사용된 모델 이외에도 다양한 모델이 존재하므로 추가적인 모델에 대한 평가와 검증이 필요하다. 또한 각 옵션과 입력값을 설정하는 과정에 연구자의 주관적 의견이 포함될 경우, 연구 결과 도출에서의 객관성이 저하될 수 있다. 따라서 주관적 요소를 최소화하기 위해서는 전체 보간 과정에서 머신러닝 기법의 결합을 통해 분석을 수행하는 등의 작업이 필요할 것으로 판단된다. 추가로, 지역 내 수계가 존재하는 경우 특정 방향성이 발현될 것이므로 이에 따른 영향을 함께 고려해야 할 것으로 사료된다.

본 연구를 통해 지구통계 기법과 머신러닝 알고리즘을 접목함으로써 지역 규모에서 적절하게 토양오염지도를 작성할 수 있음을 확인할 수 있었으며, 적은 양의 데이터를 기반으로 보간 작업을 시행할 때 어떠한 요인들이 큰 영향을 미치는지 파악할 수 있었다. 이는 예측 오차가 낮고 신뢰도 높은 토양오염지도 작성에 유용한 자료를 제공할 수 있을 것으로 판단되며, 이에 따라 토양오염이 발생한 지역에서 기존보다 정확하게 광해 오염 구역을 판별하고 적절한 방지사업과 복원대책을 수립하는데 도움을 줄 수 있을 것으로 기대한다.

Acknowledgements

본 연구는 2021년도 정부(산업통상자원부)의 재원으로 해외자원개발협회의 지원을 받아 수행된 연구임(데이터사이언스 기반 석유·가스 탐사 컨소시엄).

Fig 1.

Figure 1.Flowchart to illustrate the research procedure in this study.
Economic and Environmental Geology 2023; 56: 331-341https://doi.org/10.9719/EEG.2023.56.3.331

Fig 2.

Figure 2.Location of soil contaminant sampling points in the study area.
Economic and Environmental Geology 2023; 56: 331-341https://doi.org/10.9719/EEG.2023.56.3.331

Fig 3.

Figure 3.Result of exploratory data analysis. (a) Distribution of Cu; (b) QQ-plot.
Economic and Environmental Geology 2023; 56: 331-341https://doi.org/10.9719/EEG.2023.56.3.331

Fig 4.

Figure 4.RReliefF coefficient of parameters considered to affect the ordinary kriging prediction error. (a) Standard; (b) Smooth.
Economic and Environmental Geology 2023; 56: 331-341https://doi.org/10.9719/EEG.2023.56.3.331

Fig 5.

Figure 5.The variation in RMSE for each model between the second- and third-ranked options. (a) Standard; (b) Smooth.
Economic and Environmental Geology 2023; 56: 331-341https://doi.org/10.9719/EEG.2023.56.3.331

Fig 6.

Figure 6.Soil contamination mapping based on RMSE of standard interpolation. (a) Lowest; (b) Highest.
Economic and Environmental Geology 2023; 56: 331-341https://doi.org/10.9719/EEG.2023.56.3.331

Fig 7.

Figure 7.Soil contamination mapping based on RMSE of smooth interpolation. (a) Lowest; (b) Highest.
Economic and Environmental Geology 2023; 56: 331-341https://doi.org/10.9719/EEG.2023.56.3.331

Fig 8.

Figure 8.Difference between the lowest and highest soil contamination maps based on the RMSE. (a) Standard; (b) Smooth.
Economic and Environmental Geology 2023; 56: 331-341https://doi.org/10.9719/EEG.2023.56.3.331

Table 1 . The parameter setting of each contributory factor in ordinary kriging.

Neighborhood TypeModelAnisotropyMaximum NeighborsMinimum NeighborsSector type
StandardSpherical / Exponential / GaussianFalse / TrueMin 5 Max 15 Step 2Min 2 Max 10 Step 14 Sector / 4 Sector with 45° offset / 8 Sector
SmoothSmoothing function
Min 0.1Max 1.0Step 0.1

Table 2 . Discriptive statistics data of soil contaminant (Cu) (unit: mg/kg).

MinMaxMedianMeanSkewnessStandard deviation
189571051712.37183.63

Table 3 . RMSE of option selections for each parameter based on sensitivity analysis..

Neighborhood TypeModelAnisotropyMaximum NeighborsMinimum NeighborsSector TypeRMSE (mg/kg)Remarks
StandardSphericalFalse5 - 15*34 Sector with 45ο offset112.53Lowest
ExponentialFalse544 Sector with 45ο offset117.17
GaussianFalse5 – 15*34 Sector with 45ο offset116.44
SphericalTrue538 Sector118.36
ExponentialTrue544 Sector117.35
GaussianTrue548 Sector124.66
SphericalFalse11 – 15*104 Sector with 45ο offset121.24Highest
ExponentialFalse964 Sector with 45ο offset119.13
GaussianFalse11104 Sector with 45ο offset120.98
SphericalTrue11 – 15*104 Sector with 45ο offset123.04
ExponentialTrue1164 Sector118.62
GaussianTrue11 – 15*104 Sector with 45ο offset128.20
ModelAnisotropySmoothing functionRMSERemarks
SmoothSperhicalFalse0.1120.86Lowest
SperhicalTrue0.4121.84
ExponentialFalse0.3118.49
ExponentialTrue0.5118.01
GaussianFalse0.2122.52
GaussianTrue0.4126.97
SperhicalFalse1.0132.66Highest
SperhicalTrue1.0125.73
ExponentialFalse1.0120.55
ExponentialTrue1.0118.99
GaussianFalse1.0132.20
GaussianTrue1.0129.36

*Maximum Neighbors가 변화함에도 RMSE는 동일.


References

  1. Abuzaid, A.S., Jahin, H.S., Shokr, M.S., El Baroudy, A.A., Mohamed, E.S., Rebouh, N.Y. and Bassouny, M.A. (2023) A Novel Regional-Scale Assessment of Soil Metal Pollution in Arid Agroecosystems. Agronomy, v.13(1). doi: 10.3390/agronomy13010161
    CrossRef
  2. Choi, S., Go, W., Yoon, W., Hwang, S. and Kang, M. (2003) Analysis of the Distribution Pattern of Seawater Intrusion in Coastal Area using the Geostatistics and GIS. The Journal of GIS Assosiation of Korea, v.11(3), p.251-260.
  3. Chung, S., Kang, D., Park, H. and Shim, B. (2000) Application of Geostatistical Methods for the Analysis of Groundwater Contamination in Pusan. The Journal of Engineering Geology, v.10(3), p.247-261.
  4. Chung, S., Shim, B., Kang, D., Kim, B., Park, H., Won, J. and Kim, G. (2001) Interpolation of Missing Groundwater Level Data Using Kriging at a National Groundwater Monitoring Well. Journal of the Geological Society of Korea, v.37(3), p.421-430.
  5. Franke, R. (1982) Smooth Interpolation of Scattered Data by Local Thin Plate Splines. Computers & Mathematics with Applications, v.8(4), p.273-281. doi: 10.1016/0898-1221(82)90009-8
    CrossRef
  6. Hammam, A.A., Mohamed, W.S., Sayed, S.E.E., Kucher, D.E. and Mohamed, E.S. (2022) Assessment of Soil Contamination Using GIS and Multi-Variate Analysis: A Case Study in El-Minia Governorate, Egypt. Agronomy, v.12(5). doi: 10.3390/agronomy12051197
    CrossRef
  7. Heuvelink, G.B.M. and Webster, R. (2022) Spatial Statistics and Soil Mapping: A Blossoming Partnership under Pressure. Spatial Statistics, v.50. doi: 10.1016/j.spasta.2022.100639
    CrossRef
  8. Jeong, J. and Jang, W. (2011) Estimation of Distribution of the Weak Soil Layer for Using Geostatistics. Journal of the Korean Society of Marine Engineering, v.35(8), p.1132-1140. doi: 10.5916/jkosme.2011.35.8.1132
    CrossRef
  9. Jung, M., Jung, M. and Choi, Y. (2004) Environmental Assessment of Heavy Metals Anna Abandoned Metalliferous Mine in Korea. Economic and Environmental Geology, v.37(1), p.21-33.
  10. Jung, Y. and Lee, S. (2001) Potential Contamination of Soil and Groundwater from the Residual Mine Tailings in the Restored Abandoned Mine Area : Shihung Mine Area. Economic and Environmental Geology, v.34(5), p.461-470.
  11. Kira K. and Rendell L. A. (1992) The feature selection problem: traditional methods and a new algorithm. In Proceedings of the tenth national conference on Artificial intelligence (AAAI' 92), AAAI Press, p.129-134.
  12. Kim, J., Choi, J. and Kim, C. (2010) Comparative Evaluation of Interpolation Accuracy for CO2 Emission using GIS. Journal of Environmental Impact Assessment, v.19(6), p.647-656.
  13. Kim, H. and Jo, W. (2012) Assessment of PM-10 Monitoring Stations in Daegu using GIS Interpolation. Journal of Korean Society for Geospatial Information System, v.20(2), p.3-13. doi: 10.7319/kogsis.2012.20.2.003
    CrossRef
  14. Kim, H., Kim, K., Yun, S., Hwang, S., Kim, H., Lee, G. and Kim, Y. (2012a) Evaluation of Geostatistical Approaches for better Estimation of Polluted Soil Volume with Uncertainty Evaluation. Journal of Soil and Groundwater Environment, v.17(6), p.69-81. doi: 10.7857/jsge.2012.17.6.069
    CrossRef
  15. Kim, S., Lee, W., Kim, J., Shin, K., Kwon, T., Hyun, S. and Yang, J. (2012b) Prediction of Spatial Distribution Trends of Heavy Metals in Abandoned Gangwon Mine Site by Geostatistical Technique. Spatial Information Research, v.20(4), p.17-27. doi: 10.12672/ksis.2012.20.4.017
    CrossRef
  16. Kim, H., Yu, S., Yun, S., Kim, K., Lee, G., Lee, J., Heo, C. and Ryu, D. (2022) Estimation of Spatial Distribution Using the Gaussian Mixture Model with Multivariate Geoscience Data. Economic and Environmental Geology, v.55(4), p.353-366. doi: 10.9719/EEG.2022.55.4.353
    CrossRef
  17. Lee, Y., Park, M. and Hyun, S. (2022) Leaching Behavior of Metallic Elements from Abandoned Mine Sites in Varying Environmental Factors. Institute of Life Science and Natural Resources, v.30, p.87-100. doi: 10.33147/LSNRR.2022.30.1.87
    CrossRef
  18. Lee, I. and Choi, S. (2008) Characteristics of Stream and Soil Contamination from the Tailing Disposal and Waste Rocks at the Abandoned Uljin Mine. Economic and Environmental Geology, v.41(1), p.63-79.
  19. Lee, M., Choi, J. and Kim, J. (2003) Distribution and remediation design of heavy metal contamination in farm-land soils and river deposits in the vicinity of the Goro abandoned mine. Economic and Environmental Geology, v.36(2), p.89-101.
  20. Park, N. (2009) Comparison of Univariate Kriging Algorithms for GIS-based Thematic Mapping with Ground Survey Data. Korean Journal of Remote Sensing, v.25(4), p.321-338.
  21. Park, N. (2010) Application of Indicator Geostatistics for Probabilistic Uncertainty and Risk Analyses of Geochemical Data. Journal of Korean Earth Science Society, v.31(4), p.301-312. doi: 10.5467/JKESS.2010.31.4.301
    CrossRef
  22. Park, N. (2013) Geostatistical Downscaling of Coarse Scale Remote Sensing Data and Integration with Precise Observation Data for Generation of Fine Scale Thematic Information. Korean Journal of Remote Sensing, v.29(1), p.69-79. doi: 10.7780/kjrs.2013.29.1.7
    CrossRef
  23. Park, H., Shin, H., Roh, Y., Kim, K. and Park, K. (2012) Estimating Forest Carbon Stocks in Danyang Using Kriging Methods for Aboveground Biomass. Journal of the Korean Association of Geographic Information Studies, v.15(1), p.16-33.
    CrossRef
  24. Park, N., Jang, D. and Chi, K. (2006) Geostatistical Integration of Ground Survey Data and Secondary Data for Geological Thematic Mapping. Korean Journal of Remote Sensing, v.22(6), p.581-593.
  25. Park, N. and Jang, D. (2008) Mapping of Temperature and Rainfall Using DEM and Multivariate Kriging. Journal of the Korean Geographical Society, v.43(6), p.1002-1015.
  26. Robnik-Sikonja, M. and Kononenko, I. (1997) An Adaptation of Relief for Attribute Estimation in Regression. Machine Learning: Proceedings of the Fourteenth International Conference (ICML’97), p.296-304.
  27. Suh, J., Lee, H., Choi, Y. (2016) A rapid, accurate and efficient method to map heavy metal contaminated soils of abandoned mine sites using converted portable XRF data and GIS. International Journal of Environmental Research and Public Health, v.13(12), p.1191-1208. doi: 10.3390/ijerph13121191
    Pubmed KoreaMed CrossRef
KSEEG
Apr 30, 2024 Vol.57 No.2, pp. 107~280

Stats or Metrics

Share this article on

  • kakao talk
  • line

Related articles in KSEEG

Economic and Environmental Geology

pISSN 1225-7281
eISSN 2288-7962
qr-code Download