Econ. Environ. Geol. 2024; 57(5): 529-537
Published online October 29, 2024
https://doi.org/10.9719/EEG.2024.57.5.529
© THE KOREAN SOCIETY OF ECONOMIC AND ENVIRONMENTAL GEOLOGY
Correspondence to : *kblee@kongju.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided original work is properly cited.
Mineral composition used to identify the sedimentary environment can be obtained through X-ray diffraction (XRD) analysis. However, due to time constraints for analyzing a large number of samples, a machine learning-based mineral composition analysis model was developed. This model demonstrated reasonable reliability for samples with usual compositions but showed poor performance for unusual samples. Consequently, a clustering model has recently been developed to classify the unusual samples, allowing experts to handle. The purpose of this study is to examine the applicability of the clustering model, developed using XRD data from the Ulleung Basin in previous study, using samples from different regions. Research data consist of intensity profile from XRD experiment and its mineral composition analysis for a total of 54 sediment samples from the Korea Plateau, located northwest of the Ulleung Basin. Because the intensity of samples in the Korea Plateau comprises 7,420 values (3.005-64.996°), differing from 3,100 values (3.01-64.99°) of samples in the Ulleung Basin, linear interpolation was used to align the input feature. Then, min-max scaler was applied to intensity profile for each sample to preserve the trend and peak ratio of the intensity.
Applying the clustering model to the 54 preprocessed intensity profiles, 35 samples and 19 samples were classified into expert and machine learning groups, respectively. For machine learning group, false positive was zero among the 19 samples. This means that the clustering model can increase reliability in when mineral composition from machine learning model because unusual sample did not belong to the machine learning group. For the 35 samples in expert group, the 31 samples were classified as false negative (FN). It means that although machine learning model can properly analyze these samples, they were assigned to expert group. However, when these FN samples were analyzed using machine learning based composition analysis model, a high mean absolute error of 2.94% was observed. Therefore, it is reasonable that the samples were assigned to expert group.
Keywords Korea Plateau, K-means clustering, machine learning, X-ray diffraction, confusion matrix
박주영1,3 · 박선영2 · 최지영2 · 김성일2 · 김유리2 · 이보연2 · 이경북1,3,*
1국립공주대학교 지질환경과학과
2한국지질자원연구원 석유에너지연구센터
3황해지질환경연구소
퇴적물 생성환경 규명에 사용되는 광물조성자료는 X-선 회절(X-ray diffraction, XRD)분석을 통해 얻을 수 있으나, 대규모 시료에 대한 조성분석 시 효율적인 분석을 위해 머신러닝 기반 광물조성 분석모델이 개발되었다. 해당 모델은 일반조성 시료에 대해 준수한 분석신뢰도를 보였으나, 특이조성을 가지는 시료에 대해서는 저조한 성능을 보였다. 이에 따라 최근 전체 시료 중 특이조성시료를 전문가가 분석할 수 있도록 분류하는 군집화모델이 개발되었다. 본 연구에서는 울릉분지 XRD 시료로 개발한 군집화모델의 타 지역 시료에 대한 적용가능성을 검토하고자 한다. 연구자료는 울릉분지 북서쪽에 위치한 한국대지의 54개 퇴적물 시료에 대한 XRD 실험 및 전문가 광물조성 분석결과로 구성된다. 한국대지 시료의 intensity는 7,420개(3.005-64.996°)로, 울릉분지 3,100개(3.01-64.99°)와 차이를 보여 선형보간을 활용해 일치시켰다. 이후 intensity 비율과 경향성을 보존하기 위해 시료별 최소-최대 정규화를 수행하였다.
전처리한 실험자료에 군집화모델을 적용한 결과, 54개 시료 중 전문가분석은 35개, 머신러닝분석은 19개로 배정되었다. 머신러닝분석으로 판단된 19개 시료 중 false positive(FP)는 0으로, 머신러닝분석 군집에 특이조성시료가 존재하지 않음을 확인하였다. FP는 실제 특이조성을 가져 전문가분석이 필요하지만 머신러닝이 분석하는 것으로 판단된 것을 의미하기 때문에 FP가 적을수록 머신러닝 모델 적용 시 높은 분석신뢰도를 기대할 수 있다. 전문가분석의 경우 35개 중 31개 시료가 false negative로 배정되었으며, 이는 머신러닝이 분석해도 무방하나 전문가가 분석해야할 시료 수가 전체의 57%임을 의미한다. 그러나 해당 시료들을 머신러닝기반 조성분석모델로 분석할 경우 2.94%의 높은 평균절대오차의 평균을 보이기 때문에 전문가분석 군집으로 배정된 것을 합리적으로 평가할 수 있다.
주요어 한국대지, k-평균 군집화, 머신러닝, X-선 회절(XRD), 혼동행렬
The clustering model can classify samples into machine learning and expert groups.
Among the 54 samples, the model classified 35 unusual samples into expert group.
The clustering model gives analyst information on mineral with unusual composition.
퇴적물 시료에 대한 광물조성자료는 퇴적환경 및 기원등과 같은 정보를 제공하며, 퇴적물 내 점토광물의 조성을 통해 수압파쇄 효율성을 파악할 수 있어 석유공학, 퇴적학, 광물학 등 다양한 분야에서 중요하게 사용된다. 이러한 광물조성자료는 X-선 회절(X-ray diffraction, XRD)실험결과를 분석하여 얻을 수 있다. XRD는 분석하고자하는 시료에 고에너지의 X-선을 입사시킨 후 회절된 X-선을 측정하여 결정성 물질의 구조, 화학조성, 격자 등에대한 정보를 얻는 분석방법이다(Jin et al., 2024). XRD실험을 통해 얻은 intensity profile은 리트벨트 방법을 기반으로 하는 상용소프트웨어를 통해 정성 및 정량적으로분석된다. 이때 단일 광물의 경우 각 광물별로 고유의intensity profile을 가져 비교적 분석이 용이하나, 다수의광물이 다양한 조성으로 존재하는 퇴적물 시료는 복잡한profile로 인해 정성 및 정량 분석에 어려움이 존재한다. 또한 전문가의 숙련도에 따라 조성분석결과가 상이할 수있어 분석재현성이 낮으며, 대량의 시료를 분석할 경우소요시간이 큰 한계가 존재한다.
이에 따라 최근 조성분석 한계를 극복하기 위해 XRD실험자료와 머신러닝을 연계하는 연구가 활발히 수행되고 있다. 그 중 Park et al.(2022)은 울릉분지(Ulleung Basin)퇴적물 시료에 대한 XRD 실험자료를 활용하여 12개 광물을 출력하는 머신러닝 모델을 개발하였으며, 자연 퇴적물 시료에 대한 머신러닝기반 광물조성분석 가능성을확인하였다. 이후 Jin et al.(2024)은 XRD 실험자료 특성에 적합한 시료별 전처리 방식을 제안하여 Park et al.(2022)에서 개발한 모델의 성능을 개선시켰다. 두 연구 모두 일반적인 조성을 갖는 시료에 대해 준수한 수준의 분석신뢰도를 보였으나, 특정 광물이 특이조성을 갖는 일부 시료에 대해서는 분석성능이 저조한 한계가 있다. 이는 특이조성을 갖는 시료의 수가 적을 뿐만 아니라, 어떤 광물에서 특이조성을 갖는지에 따라 intensity 패턴이 상이하여 경향성을 학습하는 것이 어렵기 때문이다.
특이조성시료에 대한 머신러닝 모델의 신뢰도를 높이기 위해서는 유사한 조성을 갖는 시료에 대한 XRD 실험결과를 다수 확보하여 머신러닝 훈련에 활용해야한다.이는 추가적인 XRD 실험과 이에 대한 분석이 필요할 뿐만 아니라, 특이조성을 갖는 퇴적물 시료 확보에 대한 보장이 없어 많은 시간과 비용을 초래한다. 이에 Park et al.(2024)은 특이조성시료가 머신러닝이 아닌 전문가에 의해 분석될 수 있도록 intensity profile 경향성 차이에 기반한 군집화모델을 개발하였다. 울릉분지 XRD 실험자료에 해당 모델을 적용한 결과, 일반조성 시료는 머신러닝이, 특이조성을 갖는 시료는 전문가가 분석을 수행하도록 구분할 수 있음을 확인하였다(Park et al., 2024). 또한각 군집별 특성을 바탕으로 특이조성을 갖는 광물을 특정지을 수 있어 전문가분석에 가이드라인을 제공할 수있는 장점이 있다.
앞선 선행연구(Park et al., 2022; Jin et al., 2024; Park et al., 2024)는 울릉분지 퇴적물 시료에 한정하여 수행되어 타 지역 XRD 실험자료에 대한 적용확장성을 검증하는 과정이 필요하다. 본 연구에서는 Park et al.(2024)에서 개발한 군집화모델이 울릉분지 주변 북서쪽에 위치한한국대지(Korea Plateau) XRD 실험자료에도 확장적용 가능한지 검증하고자 한다.
울릉분지 북부 경계를 형성하고 있는 한국대지는 북동-남서 방향으로 신장된 불규칙한 해저지형이 산재되어있는 지역이다(Lee et al., 2003; Yoon et al., 2003; Khim et al., 2008; Kim et al., 2023). 평균 수심은 1,000m 내외인해저고지대 지형이며, 선캄브리아기 암석을 포함하는 대륙지각이 열개(rifting)되어 해릉(ridge), 해곡 및 해저산등이 산재하는 불규칙한 해저지형을 형성하고 있다(Yoon et al., 2003). 본 연구에서는 한국대지의 8개 시추공에 대한 54개 시료의 XRD 실험 및 분석 자료를 활용하였다.한국대지 8개 시추공 위치는 Fig. 1과 같고, 각 시추공별시료 수는 Table 1과 같으며, 해당 자료는 한국지질자원연구원으로부터 제공받았다.
Table 1 The number of data for 8 boreholes in the Korea Plateau
Core | 21GHP-P01A | 21GHP-P02A | 21GHP-H03A | 21GHP-H04A | 21GHP-P05A | 21GHP-P06A | 21GHP-P07A | 21GHP-H09B |
---|---|---|---|---|---|---|---|---|
Number of samples | 8 | 4 | 7 | 7 | 8 | 8 | 7 | 5 |
입력자료인 한국대지 XRD 실험자료는 Fig. 2 하단과같은 intensity profile을 보이며, 3.005–64.996°의 입사각(2θ) 범위 내 0.008°간격의 7,420개 intensity로 구성된다.한국대지 intensity profile은 Fig. 2 상단 울릉분지 시료의intensity profile과 유사한 형태이나, 울릉분지의 입사각범위(3.01–64.99°)와 intensity 수(3,100개)가 일치하지 않으므로 군집화 모델을 적용하기 전, XRD 실험자료에 대한 전처리과정이 요구된다.
한국대지 54개 시료의 XRD 분석결과는 14개 광물(albite, calcite, chlorite, dolomite, gypsum, halite, hornblende, opal-A, kaolinite, microcline, muscovite+illite, orthoclase, pyrite, quartz)로 구성되며, 선행연구(Park et al., 2024)에서 특이조성을 갖는 광물로 고려한 quartz, albite, calcite를 포함한다(Table 2). Park et al.(2024)은 울릉분지 12개광물 중 조성 범위가 넓은 quartz, albite, calcite에 대해mild outlier를 각각 계산하여 일반조성범위를 선정하였으며, 이를 활용해 군집화모델의 성능을 평가하였다. 동일한 세 광물이 한국대지 분석결과에도 존재하므로, 선행연구(Park et al., 2024)에서 개발한 군집화모델의 적용 및분석 과정이 한국대지 시료에도 동일하게 적용가능함을알 수 있다.
Table 2 Comparison of statistical factors for each mineral from the 54 data in the Korea Plateau
Factors | Albite | Calcite | Chlorite | Dolomite | Gypsum | Halite | Hornblende |
Avg. | 9.90 | 3.61 | 2.70 | 1.18 | 1.05 | 2.39 | 1.94 |
Std. | 3.49 | 2.38 | 0.48 | 0.24 | 0.05 | 1.18 | 0.41 |
Min | 5.50 | 0.20 | 1.80 | 0.80 | 1.00 | 0.50 | 1.00 |
Max | 25.30 | 10.50 | 3.80 | 1.40 | 1.10 | 4.60 | 2.50 |
Factors | Kaolinite | Microcline | Muscovite+illite | Opal-A | Orthoclase | Pyrite | Quartz |
Avg. | 1.56 | 9.00 | 22.00 | 36.01 | 2.39 | 2.01 | 17.68 |
Std. | 0.38 | 3.43 | 4.52 | 9.52 | 1.41 | 0.58 | 5.03 |
Min | 0.80 | 4.60 | 4.02 | 11.50 | 0.10 | 0.80 | 11.90 |
Max | 3.00 | 14.40 | 36.20 | 48.30 | 7.70 | 3.90 | 38.30 |
본 연구는 울릉분지 XRD 실험자료를 활용해 개발된군집화모델의 타 지역 시료에 대한 적용확장성을 검토하는 것을 목적으로 한다. 따라서 한국대지 지역 시료에 대한 전처리 역시 선행연구(Park et al., 2024)와 동일하게두 단계로 나누어 수행하였다. 첫 번째 과정으로, 입력층인자인 intensity를 전처리하였다. 모델 학습에 사용된 울릉분지 시료의 경우 Table 3과 같이 3.01–64.99°범위 내3,100개 intensity로 구성된다. 그러나 한국대지의 경우3.005–64.996°범위 내 7,420개 intensity값으로 구성되어울릉분지와 차이를 보인다. 군집화모델을 한국대지 시료에 적용하기 위해서는 학습에 사용된 시료와 입력층 수및 입사각 범위가 일치해야하므로, 선형보간을 통해 7,420개 intensity를 3,100개로 일치시켰으며, 이때 python(3.6.3)과 SciPy(1.4.1)의 interpolate함수를 사용하였다.
Table 3 Comparison of data shape in the Ulleung Basin and the Korea Plateau
Location | Angle range | Intervals | Number of intensity | Number of mineral types |
---|---|---|---|---|
Ulleung Basin | 3.01–64.99 | 0.02 | 3100 | 12 |
Korea Plateau | 3.005–64.996 | 0.008 | 7420 | 14 |
두 번째 과정은 intensity값간 차이를 보정하기 위한 입력자료 정규화이다. Jin et al.(2024)은 intensity profile 특성에 적합한 시료별 최소-최대 정규화(min-max scaler)를통해 intensity profile에서 중요한 peak간 비율과 경향성을 보존하였다. 이에 따라, Park et al.(2024)은 시료별 최소-최대 정규화 방법을 사용하여 각 시료별 intensity값을보정한 후, 군집화모델을 학습시켰다. 본 연구에서도 동일하게 시료별 최소-최대 정규화를 수행하였으며, 이를통해 조성분석 시 중요하게 사용되는 intensity peak간 비율과 경향성을 보존하였다.
비지도학습인 군집화모델은 입력자료만을 활용하여 학습하기 때문에 출력자료에 대한 전처리는 불필요하다. 그러나 향후 군집화 성능분석 과정에서 혼동행렬(confusion matrix)을 활용하기 위해 전문가 광물조성 분석결과가 사용되므로, 광물조성에 대한 자료전처리를 수행하였다. 울릉분지는 12개 광물(albite, calcite, chlorite, dolomite, illite, K-feldspar, kaolinite, muscovite, NaCl, opal-A, pyrite, quartz)로 구성되어 있으나, 한국대지는 14개로 구성되어광물 종류에 차이를 보인다(Table 3). 한국대지 시료 내광물조성 중 gypsum, montmorillonite는 대부분 극소량의조성으로 존재하므로, 해당 광물에 대한 분석결과를 제외하였다. 또한 orthoclase와 microcline의 조성을 합쳐 K-feldspar로 그룹지었으며, 이와 같은 과정을 통해 줄어든11개 광물 종류의 조성 합이 100이 되도록 광물별 조성비율을 조정하였다.
울릉분지의 12개 광물 중 점토광물에 해당하는 muscovite와 illite는 한국대지에서 하나로 합친 조성이 분석되었다.따라서 울릉분지의 두 점토광물 조성을 합친 후, 한국대지와 울릉분지에 대한 총 11개 광물의 조성을 비교하였다. Fig. 3은 두 지역의 광물조성을 box-plot을 통해 시각화한것으로, 한국대지 54개 시료에 대한 11개 광물의 조성 범위가 울릉분지 대비 좁게 나타남을 볼 수 있다. 특히, calcite는 54개 시료 모두 calcite inlier 범위(0.00–14.38%)에 속하므로, 군집화모델 적용 시 전문가분석 군집에calcite 특이조성시료가 존재하지 않을 것으로 예상된다.또한, 선행연구(Park et al., 2024)에서 quartz의 경우 4.05–30.05%의 inlier 범위를 가졌는데, 한국대지 내 시료들 중10% 이하의 quartz 조성을 갖는 시료가 존재하지 않으므로, 낮은 quartz의 특이조성시료가 모이는 전문가분석 군집에는 시료가 할당되지 않을 것으로 예측할 수 있다.
선행연구의 군집화모델은 k-평균 군집화(k-means clustering) 알고리즘을 활용하여 학습되었다. 이 알고리즘은 주어진 자료를 유사도에 따라 k개의 군집으로 나누는 방법으로, 군집의 중심점(centroid)과 자료간 거리의분산을 최소화하는 것을 목표로 한다. 구체적으로, 초기중심점을 기준으로 초기 군집이 형성되면 각 군집에 속한 자료들의 평균을 계산하여 중심점을 갱신한 후, 더 이상 중심점이 변동되지 않을 때까지 반복적으로 군집화를수행하는 방법이다.
초기 중심점 선정 과정에서 모든 중심점을 무작위로 지정할 경우 군집 성능에 부정적인 영향을 미칠 수 있다(Arthur and Vassilvitskii, 2007). 따라서 선행연구(Park et al., 2024)에서는‘k-means++’를 통해 초기 중심점을 선정하였다. K-means++는 모든 초기 중심점을 무작위로 선택하는 표준 k-평균 군집화 알고리즘과 달리, 하나의 초기 중심점만 무작위 선택하는 것으로 시작한다(Fig. 4).첫 번째 중심점이 선택된 후, 나머지 중심점들은 이전 중심점과의 거리를 고려하여 순차적으로 선택되며, 이를 통해 무작위로 선택된 중심점의 영향을 최소화한다(Arthur and Vassilvitskii, 2007). 이와 같은 과정은 초기 중심점의수가 지정한 군집 수에 도달할 때까지 반복되며, 초기 중심점의 수가 결정된 이후 과정은 표준 알고리즘과 동일하다.
Fig. 5는 군집화모델의 결과를 혼동행렬로 나타낸 모식도이다. 녹색 부분은 군집화모델이 특이조성을 갖는다고분류한 시료의 군집을 나타낸다. 광물조성 분석모델(Jin et al., 2024)을 해당 군집에 속한 시료에 적용 시, 분석신뢰도가 낮을 것으로 예상되므로, 머신러닝보다는 전문가에 의해 분석되는 것이 적합하다. 반면, 파란색 부분은군집화모델이 일반조성을 갖는다고 분류한 시료를 나타낸다. 해당 시료는 전문가가 분석해도 무방하나 특이조성을 갖지 않기 때문에 분석효율성 고려 시 머신러닝이분석하는 것이 합리적인 시료이다.
혼동행렬에서 false positive(FP)는 머신러닝분석 군집으로 배정되었지만, 실제로는 특이조성을 갖는 시료를 나타낸다. FP가 클수록 머신러닝분석 군집 내 분석 성능이저조할 것으로 고려되는 시료가 많다고 볼 수 있다. 따라서 FP가 작을수록 머신러닝모델의 조성분석 신뢰도가높아진다. False negative(FN)는 전문가분석이 필요하다고 배정되었지만 실제 일반조성을 갖는 시료이기 때문에머신러닝이 분석해도 무방한 시료를 나타낸다. FN이 클수록 전문가가 분석하지 않아도 되는 시료를 전문가가분석하게 되므로 분석효율성이 낮아진다.
FP와 FN은 상충관계로, 군집화모델의 성능평가 시 어느 지표를 중요하게 고려할지에 대한 고민이 필요하다.선행연구(Park et al., 2024)에서는 군집화모델의 목적이특이조성시료에 대해 분석성능이 낮은 머신러닝모델(Jin et al., 2024)의 분석신뢰도를 개선하는 것임에 중점을 두어 FP가 최소인 군집을 최적 군집 수(k=5)로 결정하였다.
본 연구에서는 한국대지 54개 시료를 모두 검증자료로 활용하여 울릉분지 시료로 훈련한 군집화모델의 타 지역자료에 대한 분석성능을 파악하였다. 비지도학습 기반 군집화 알고리즘은 입력자료만을 필요로하는 점을 고려하여 intensity profile만을 모델에 사용하였으며, 이후 군집화 성능분석 시 혼동행렬분석을 위해 전문가가 수행한광물조성 분석자료를 활용하였다.
선행연구(Park et al., 2024)에서는 군집화모델을 울릉분지 시료에 적용 시 FP가 0으로 신뢰할 수 있는 군집화결과를 얻었다. 동일한 군집화모델을 한국대지 XRD 실험자료에 적용한 결과, 울릉분지와 동일하게 한국대지에서도 FP가 0임을 확인하였다(Fig. 6). 이는 머신러닝이 분석할 군집 내 특이조성을 갖는 시료가 단 하나도 존재하지 않음을 의미한다. 머신러닝분석 군집에 속한 시료가모두 실제 일반조성을 갖는 true positive(TP)이므로, 향후 해당 시료들을 머신러닝모델(Jin et al., 2024)에 적용시 준수한 수준의 분석신뢰도를 기대할 수 있다.
전문가분석 군집에는 35개 시료가 배정되었으며, 이 중31개 시료는 FN임을 확인하였다. 이는 머신러닝이 분석해도 무방하나 전문가가 분석해야할 시료 수가 전체의57%임을 의미한다. FN은 실제 조성이 일반조성이므로효율성 측면에서 머신러닝 모델 군집에 속하는 것이 합리적이다. 그러나, 31개 시료를 광물조성 분석모델(Jin et al., 2024)에 적용 시 평균절대오차(mean absolute error)의 평균은 2.94%로 전체 54개 시료를 사용했을 때(2.61%)대비 높게 나타나므로 분류된 FN 시료는 전문가에 의해분석하는 것이 합리적으로 볼 수 있다(Eq. 1). 비록 전문가가 분석해야할 시료의 수가 35개로 전체 자료의 65%에 해당하지만, 전문가분석이 필요한 시료 수를 약 35% 줄였다는 점에서 효율성 또한 개선되었다고 볼 수 있다.
여기서,
혼동행렬에서 TN은 전문가분석 군집으로 배정되었으며, 실제 조성 또한 특이조성에 해당하는 시료를 나타낸다. 한국대지 시료 대비 광물조성의 범위가 넓은 울릉분지(Fig. 3)는 TN에 속하는 시료를 상세분석 했을 때, 특이조성을 갖는 광물에 대한 특징적인 peak를 intensity profile 상에서 확인할 수 있었다. 가령, albite 조성이 큰시료의 경우 약 29° 부근 albite에 대응되는 peak가 큰 것을 확인할 수 있다. 선행연구(Park et al., 2024)에서는 이와 같은 peak 경향성 차이로 인해 해당 시료들이 전문가분석 군집에 배정된 것으로 해석하였다. 본 연구에서 사용한 한국대지 지역 TN 시료에 대해 intensity profile을확인한 결과, 특이조성을 갖는 광물의 특징적인 peak가다소 뚜렷하게 나타나지 않았음에도 불구하고 전문가분석 군집으로 알맞게 배정하였다.
Fig. 7은 TN으로 배정된 한국대지 53번 시료와 TP로배정된 41번 시료에 intensity profile을 나타낸 것이다. 두시료의 원본 intensity profile을 나타내는 Fig. 7(a)에서 53번 시료의 quartz peak가 4,492.5 count per second(cps)로1,007.5 cps인 41번 시료와 4배 이상 차이남을 볼 수 있다. 이에 반해, opal-A의 넓은 peak는 두 시료가 거의 유사한 크기로 나타난다. 이는 Fig. 7(a)인 원본 intensity profile에 대해 1,000 cps 이하 부분만 확대해서 도시한Fig. 7(b)에서 명확히 확인할 수 있다.
Fig. 7(c)는 원본 intensity profile을 최소-최대 정규화전처리한 profile을 나타낸 것이다. 두 시료의 원본 profile에서는 opal-A peak가 유사했지만(Fig. 7(b)), 최소-최대정규화 전처리 후에는 53번 시료에 비해 41번 시료의opal-A peak가 두드러짐을 알 수 있다(Fig. 7(c)). 53번 시료와 41번 시료의 원본 intensity profile에서는 opal-A peak의 절대값이 유사했지만, 두 시료의 최대 peak 대비 opal-A peak의 상대적인 비율은 다르기 때문이다. 구체적으로, 41번 시료에 비해 53번 시료의 높은 quartz peak로 인해53번의 원본 intensity profile의 절대값은 더 작은 intensity값으로 정규화되는 것이다. 이는 시료별 최소-최대 정규화를 통해 기존 시료의 intensity 비율과 경향성이 보존되어 시료간 비교가 용이해져 얻을 수 있는 결과이다.
선행연구(Park et al., 2024)에서는 5개 군집 중 일반조성을 갖는 시료로 구성된 3번과 4번 군집을 제외한 세군집이 특이조성을 갖는 군집임을 확인하였다. 1번 군집은 높은 quartz와 albite 조성을, 2번 군집은 낮은 quartz와 높은 albite 조성을, 5번 군집은 높은 calcite 조성을 갖는 시료의 군집이다. 이와 같은 각 군집의 특성은 한국대지에서도 동일하게 나타남을 확인하였다.
Table 4는 각 군집별 quartz, albite, calcite 평균 조성과시료 수를 나타낸 것이며, 선행연구(Park et al., 2024)에서 세 광물의 mild outlier를 바탕으로 선정한 일반조성범위를 상단에 함께 기재하였다. 한국대지 총 54개 시료중 2번과 5번 군집에 속한 시료는 없었다(Table 4). 이는Table 2와 Fig. 3에서 실제 낮은 quartz 조성(4.05% 이하),높은 calcite 조성(14.38% 이상)을 갖는 시료가 한국대지내 존재하지 않음을 고려했을 때 합리적인 분류결과로볼 수 있다. 일반조성 시료를 나타내는 3번과 4번 군집의 경우, 세 광물의 조성이 모두 일반조성범위에 속하는것을 확인할 수 있어 군집화모델이 성공적으로 적용되었다고 볼 수 있다(Table 4). 이에 따라 3번과 4번 군집에해당하는 시료에 머신러닝 기반 광물조성 분석모델(Jin et al., 2024)을 적용할 경우 높은 수준의 분석신뢰도를 기대할 수 있으므로, 향후 머신러닝을 활용해 조성을 분석하는 것이 합리적이다.
Table 4 Average mineral compositions for the samples in each cluster
Quartz (4.05–30.05) | Albite (2.90–14.10) | Calcite (0.00–14.38) | Number of samples | |
---|---|---|---|---|
Cluster 1 | 20.09 | 11.40 | 2.85 | 35 |
Cluster 2 | - | - | - | 0 |
Cluster 3 | 13.63 | 7.39 | 0.28 | 18 |
Cluster 4 | 12.13 | 6.12 | 0.00 | 1 |
Cluster 5 | - | - | - | 0 |
1번 군집에 속한 35개 시료는 Fig. 6에서 전문가분석군집에 배정되었던 35개 시료와 일치한다. 전문가분석이필요하다고 판단된 1번 군집에 속한 시료의 평균 quartz와 albite 조성은 머신러닝분석 군집인 3번과 4번 군집에속한 시료의 평균 quartz와 albite 조성보다 월등히 높았다. 선행연구에서 1번 군집은 quartz와 albite 조성이 높은 시료들로 구성된 것과 동일한 결과임을 확인할 수 있다. 1번 군집에 속한 시료에 머신러닝모델을 적용할 경우 광물조성 분석모델의 전체적인 신뢰도에 부정적인 영향을 미칠 수 있으므로 머신러닝보다는 전문가에 의한분석이 필요하다.
군집별 시료의 분포양상을 파악하기 위해 주성분분석(principal component analysis)을 활용하여 intensity 수인3,100개 차원을 3차원으로 축소시킨 후, 군집화 결과를시각화하였다. Fig. 8에서 원은 한국대지의 시료들로 색상을 통해 배정된 군집을 나타낸 것이다. 또한 별은 울릉분지 시료를 활용해 학습된 군집화모델의 군집 중심을나타낸다. Fig. 8과 Table 4를 함께 고려하면, 녹색(1번)군집에서 노란색(3번)과 붉은색(4번) 군집으로 갈수록quartz의 조성이 감소하는 경향을 확인할 수 있다. 선행연구(Park et al., 2024)에서 첫 번째 주성분 축은 주로quartz 조성 변화를 대변하는 것으로 분석되었다. 이는quartz가 다른 광물과 상관성이 높아 시료들의 intensity차이를 설명하기에 적합한 광물이기 때문이다.
결론적으로, 54개 한국대지 시료 중 일반조성 군집(3번, 4번)에 속한 19개 시료들은 광물조성 분석모델(Jin et al., 2024)로, 특이조성을 갖는 1번 군집에 속한 35개 시료는 전문가가 분석하는 것으로 판정하였다. 특히, 1번 군집에속한 시료는 quartz와 albite 조성이 높은 경향이 있으므로 전문가분석 시 두 광물의 조성에 유의하도록 사전정보를 제공할 수 있다.
본 연구에서는 울릉분지 시료에 대한 군집화모델의 적용확장성을 검증하기 위해 한국대지 XRD 실험자료를 활용하였다. 모델 적용을 위한 학습자료 전처리 과정에서입력인자인 intensity의 범위와 수를 선형보간을 통해 일치시켜주었으며, 시료별 최소-최대 정규화를 수행하여intensity peak 비율과 경향성을 보존하였다. 이는 비록XRD 실험결과에 따라 입력인자가 차이가 나더라도 전처리과정을 통해 타 지역 자료 또한 범용성있게 적용가능함을 시사한다.
개발된 군집화모델을 한국대지 시료에 적용한 결과, 울릉분지와 동일하게 FP가 0으로 나타나 광물조성 분석모델의 신뢰도를 제고할 수 있게 되었다. 이를 통해 전문가에 의한 XRD 실험결과를 분석하기 전, 머신러닝이 분석해도 무방한 시료와 전문가분석이 필요한 시료로 구분하는 것이 한국대지 시료에서도 가능함을 확인하였다. 군집화모델을 통해 전문가분석 군집에는 전체 54개 시료의약 65%에 해당하는 35개 시료가 배정되었으며, 모두 높은 quartz 조성을 갖는 시료들이 모인 1번 군집에 할당되었다. 해당 35개 시료에 대해 전문가분석 시, 특이조성을갖는 특정 광물인 quartz에 대해 사전정보를 제공할 수있다. 3번과 4번 군집에는 각각 18개와 1개 시료가 배정되었으며, 특이조성의 기준이 되는 세 광물의 조성이 모두 일반조성에 해당하는 시료들이 배정되었다. 즉, 19개시료는 머신러닝이 분석을 담당하게 되므로, 전문가분석이 필요한 시료의 수를 35% 줄였다는 점에서 분석효율성이 개선되었다고 볼 수 있다. 종합적으로 울릉분지를기반으로 개발된 군집화모델이 한국대지 XRD 자료에도적용가능함을 확인하였다. 추후 울릉분지나 한국대지에신규 XRD 실험자료가 확보되면 군집화모델을 통해 전문가가 분석할지, 머신러닝기반 분석을 수행할지 판단이가능할 것으로 기대된다.
본 연구는 가스하이드레이트 사업단의 지원하에 수행중인 한국지질자원연구원의 심층학습기반 GH 저류층 분석모델 개발(No. GP2021-010) 프로젝트의 지원으로 수행되었습니다. 또한 이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구이며(No. 2021R1C1C1004460), 2021년도 정부(산업통상자원부)의 재원으로 해외자원개발협회의 지원을 받아 수행된 연구입니다(데이터사이언스 기반 석유·가스 탐사 컨소시엄, 2021060001). 이 논문은 2023년 공주대학교 학술연구지원사업의 연구지원에 의하여 연구되었습니다.
Econ. Environ. Geol. 2024; 57(5): 529-537
Published online October 29, 2024 https://doi.org/10.9719/EEG.2024.57.5.529
Copyright © THE KOREAN SOCIETY OF ECONOMIC AND ENVIRONMENTAL GEOLOGY.
Ju Young Park1,3, Sun Young Park2, Jiyoung Choi2, Sungil Kim2, Yuri Kim2, Bo Yeon Yi2, Kyungbook Lee1,3,*
1Department of Geoenvironmental Sciences, Kongju National University, Gongju-si 32588, Republic of Korea
2Petroleum Energy Research Center, Korea Institute of Geoscience and Mineral Resources, Daejeon 34132, Republic of Korea
3Yellow Sea Institute of Geoenvironmental Sciences, Gongju-si 32588, Republic of Korea
Correspondence to:*kblee@kongju.ac.kr
This is an Open Access article distributed under the terms of the Creative Commons Attribution Non-Commercial License (http://creativecommons.org/licenses/by-nc/3.0) which permits unrestricted non-commercial use, distribution, and reproduction in any medium, provided original work is properly cited.
Mineral composition used to identify the sedimentary environment can be obtained through X-ray diffraction (XRD) analysis. However, due to time constraints for analyzing a large number of samples, a machine learning-based mineral composition analysis model was developed. This model demonstrated reasonable reliability for samples with usual compositions but showed poor performance for unusual samples. Consequently, a clustering model has recently been developed to classify the unusual samples, allowing experts to handle. The purpose of this study is to examine the applicability of the clustering model, developed using XRD data from the Ulleung Basin in previous study, using samples from different regions. Research data consist of intensity profile from XRD experiment and its mineral composition analysis for a total of 54 sediment samples from the Korea Plateau, located northwest of the Ulleung Basin. Because the intensity of samples in the Korea Plateau comprises 7,420 values (3.005-64.996°), differing from 3,100 values (3.01-64.99°) of samples in the Ulleung Basin, linear interpolation was used to align the input feature. Then, min-max scaler was applied to intensity profile for each sample to preserve the trend and peak ratio of the intensity.
Applying the clustering model to the 54 preprocessed intensity profiles, 35 samples and 19 samples were classified into expert and machine learning groups, respectively. For machine learning group, false positive was zero among the 19 samples. This means that the clustering model can increase reliability in when mineral composition from machine learning model because unusual sample did not belong to the machine learning group. For the 35 samples in expert group, the 31 samples were classified as false negative (FN). It means that although machine learning model can properly analyze these samples, they were assigned to expert group. However, when these FN samples were analyzed using machine learning based composition analysis model, a high mean absolute error of 2.94% was observed. Therefore, it is reasonable that the samples were assigned to expert group.
Keywords Korea Plateau, K-means clustering, machine learning, X-ray diffraction, confusion matrix
박주영1,3 · 박선영2 · 최지영2 · 김성일2 · 김유리2 · 이보연2 · 이경북1,3,*
1국립공주대학교 지질환경과학과
2한국지질자원연구원 석유에너지연구센터
3황해지질환경연구소
퇴적물 생성환경 규명에 사용되는 광물조성자료는 X-선 회절(X-ray diffraction, XRD)분석을 통해 얻을 수 있으나, 대규모 시료에 대한 조성분석 시 효율적인 분석을 위해 머신러닝 기반 광물조성 분석모델이 개발되었다. 해당 모델은 일반조성 시료에 대해 준수한 분석신뢰도를 보였으나, 특이조성을 가지는 시료에 대해서는 저조한 성능을 보였다. 이에 따라 최근 전체 시료 중 특이조성시료를 전문가가 분석할 수 있도록 분류하는 군집화모델이 개발되었다. 본 연구에서는 울릉분지 XRD 시료로 개발한 군집화모델의 타 지역 시료에 대한 적용가능성을 검토하고자 한다. 연구자료는 울릉분지 북서쪽에 위치한 한국대지의 54개 퇴적물 시료에 대한 XRD 실험 및 전문가 광물조성 분석결과로 구성된다. 한국대지 시료의 intensity는 7,420개(3.005-64.996°)로, 울릉분지 3,100개(3.01-64.99°)와 차이를 보여 선형보간을 활용해 일치시켰다. 이후 intensity 비율과 경향성을 보존하기 위해 시료별 최소-최대 정규화를 수행하였다.
전처리한 실험자료에 군집화모델을 적용한 결과, 54개 시료 중 전문가분석은 35개, 머신러닝분석은 19개로 배정되었다. 머신러닝분석으로 판단된 19개 시료 중 false positive(FP)는 0으로, 머신러닝분석 군집에 특이조성시료가 존재하지 않음을 확인하였다. FP는 실제 특이조성을 가져 전문가분석이 필요하지만 머신러닝이 분석하는 것으로 판단된 것을 의미하기 때문에 FP가 적을수록 머신러닝 모델 적용 시 높은 분석신뢰도를 기대할 수 있다. 전문가분석의 경우 35개 중 31개 시료가 false negative로 배정되었으며, 이는 머신러닝이 분석해도 무방하나 전문가가 분석해야할 시료 수가 전체의 57%임을 의미한다. 그러나 해당 시료들을 머신러닝기반 조성분석모델로 분석할 경우 2.94%의 높은 평균절대오차의 평균을 보이기 때문에 전문가분석 군집으로 배정된 것을 합리적으로 평가할 수 있다.
주요어 한국대지, k-평균 군집화, 머신러닝, X-선 회절(XRD), 혼동행렬
The clustering model can classify samples into machine learning and expert groups.
Among the 54 samples, the model classified 35 unusual samples into expert group.
The clustering model gives analyst information on mineral with unusual composition.
퇴적물 시료에 대한 광물조성자료는 퇴적환경 및 기원등과 같은 정보를 제공하며, 퇴적물 내 점토광물의 조성을 통해 수압파쇄 효율성을 파악할 수 있어 석유공학, 퇴적학, 광물학 등 다양한 분야에서 중요하게 사용된다. 이러한 광물조성자료는 X-선 회절(X-ray diffraction, XRD)실험결과를 분석하여 얻을 수 있다. XRD는 분석하고자하는 시료에 고에너지의 X-선을 입사시킨 후 회절된 X-선을 측정하여 결정성 물질의 구조, 화학조성, 격자 등에대한 정보를 얻는 분석방법이다(Jin et al., 2024). XRD실험을 통해 얻은 intensity profile은 리트벨트 방법을 기반으로 하는 상용소프트웨어를 통해 정성 및 정량적으로분석된다. 이때 단일 광물의 경우 각 광물별로 고유의intensity profile을 가져 비교적 분석이 용이하나, 다수의광물이 다양한 조성으로 존재하는 퇴적물 시료는 복잡한profile로 인해 정성 및 정량 분석에 어려움이 존재한다. 또한 전문가의 숙련도에 따라 조성분석결과가 상이할 수있어 분석재현성이 낮으며, 대량의 시료를 분석할 경우소요시간이 큰 한계가 존재한다.
이에 따라 최근 조성분석 한계를 극복하기 위해 XRD실험자료와 머신러닝을 연계하는 연구가 활발히 수행되고 있다. 그 중 Park et al.(2022)은 울릉분지(Ulleung Basin)퇴적물 시료에 대한 XRD 실험자료를 활용하여 12개 광물을 출력하는 머신러닝 모델을 개발하였으며, 자연 퇴적물 시료에 대한 머신러닝기반 광물조성분석 가능성을확인하였다. 이후 Jin et al.(2024)은 XRD 실험자료 특성에 적합한 시료별 전처리 방식을 제안하여 Park et al.(2022)에서 개발한 모델의 성능을 개선시켰다. 두 연구 모두 일반적인 조성을 갖는 시료에 대해 준수한 수준의 분석신뢰도를 보였으나, 특정 광물이 특이조성을 갖는 일부 시료에 대해서는 분석성능이 저조한 한계가 있다. 이는 특이조성을 갖는 시료의 수가 적을 뿐만 아니라, 어떤 광물에서 특이조성을 갖는지에 따라 intensity 패턴이 상이하여 경향성을 학습하는 것이 어렵기 때문이다.
특이조성시료에 대한 머신러닝 모델의 신뢰도를 높이기 위해서는 유사한 조성을 갖는 시료에 대한 XRD 실험결과를 다수 확보하여 머신러닝 훈련에 활용해야한다.이는 추가적인 XRD 실험과 이에 대한 분석이 필요할 뿐만 아니라, 특이조성을 갖는 퇴적물 시료 확보에 대한 보장이 없어 많은 시간과 비용을 초래한다. 이에 Park et al.(2024)은 특이조성시료가 머신러닝이 아닌 전문가에 의해 분석될 수 있도록 intensity profile 경향성 차이에 기반한 군집화모델을 개발하였다. 울릉분지 XRD 실험자료에 해당 모델을 적용한 결과, 일반조성 시료는 머신러닝이, 특이조성을 갖는 시료는 전문가가 분석을 수행하도록 구분할 수 있음을 확인하였다(Park et al., 2024). 또한각 군집별 특성을 바탕으로 특이조성을 갖는 광물을 특정지을 수 있어 전문가분석에 가이드라인을 제공할 수있는 장점이 있다.
앞선 선행연구(Park et al., 2022; Jin et al., 2024; Park et al., 2024)는 울릉분지 퇴적물 시료에 한정하여 수행되어 타 지역 XRD 실험자료에 대한 적용확장성을 검증하는 과정이 필요하다. 본 연구에서는 Park et al.(2024)에서 개발한 군집화모델이 울릉분지 주변 북서쪽에 위치한한국대지(Korea Plateau) XRD 실험자료에도 확장적용 가능한지 검증하고자 한다.
울릉분지 북부 경계를 형성하고 있는 한국대지는 북동-남서 방향으로 신장된 불규칙한 해저지형이 산재되어있는 지역이다(Lee et al., 2003; Yoon et al., 2003; Khim et al., 2008; Kim et al., 2023). 평균 수심은 1,000m 내외인해저고지대 지형이며, 선캄브리아기 암석을 포함하는 대륙지각이 열개(rifting)되어 해릉(ridge), 해곡 및 해저산등이 산재하는 불규칙한 해저지형을 형성하고 있다(Yoon et al., 2003). 본 연구에서는 한국대지의 8개 시추공에 대한 54개 시료의 XRD 실험 및 분석 자료를 활용하였다.한국대지 8개 시추공 위치는 Fig. 1과 같고, 각 시추공별시료 수는 Table 1과 같으며, 해당 자료는 한국지질자원연구원으로부터 제공받았다.
Table 1 . The number of data for 8 boreholes in the Korea Plateau.
Core | 21GHP-P01A | 21GHP-P02A | 21GHP-H03A | 21GHP-H04A | 21GHP-P05A | 21GHP-P06A | 21GHP-P07A | 21GHP-H09B |
---|---|---|---|---|---|---|---|---|
Number of samples | 8 | 4 | 7 | 7 | 8 | 8 | 7 | 5 |
입력자료인 한국대지 XRD 실험자료는 Fig. 2 하단과같은 intensity profile을 보이며, 3.005–64.996°의 입사각(2θ) 범위 내 0.008°간격의 7,420개 intensity로 구성된다.한국대지 intensity profile은 Fig. 2 상단 울릉분지 시료의intensity profile과 유사한 형태이나, 울릉분지의 입사각범위(3.01–64.99°)와 intensity 수(3,100개)가 일치하지 않으므로 군집화 모델을 적용하기 전, XRD 실험자료에 대한 전처리과정이 요구된다.
한국대지 54개 시료의 XRD 분석결과는 14개 광물(albite, calcite, chlorite, dolomite, gypsum, halite, hornblende, opal-A, kaolinite, microcline, muscovite+illite, orthoclase, pyrite, quartz)로 구성되며, 선행연구(Park et al., 2024)에서 특이조성을 갖는 광물로 고려한 quartz, albite, calcite를 포함한다(Table 2). Park et al.(2024)은 울릉분지 12개광물 중 조성 범위가 넓은 quartz, albite, calcite에 대해mild outlier를 각각 계산하여 일반조성범위를 선정하였으며, 이를 활용해 군집화모델의 성능을 평가하였다. 동일한 세 광물이 한국대지 분석결과에도 존재하므로, 선행연구(Park et al., 2024)에서 개발한 군집화모델의 적용 및분석 과정이 한국대지 시료에도 동일하게 적용가능함을알 수 있다.
Table 2 . Comparison of statistical factors for each mineral from the 54 data in the Korea Plateau.
Factors | Albite | Calcite | Chlorite | Dolomite | Gypsum | Halite | Hornblende |
Avg. | 9.90 | 3.61 | 2.70 | 1.18 | 1.05 | 2.39 | 1.94 |
Std. | 3.49 | 2.38 | 0.48 | 0.24 | 0.05 | 1.18 | 0.41 |
Min | 5.50 | 0.20 | 1.80 | 0.80 | 1.00 | 0.50 | 1.00 |
Max | 25.30 | 10.50 | 3.80 | 1.40 | 1.10 | 4.60 | 2.50 |
Factors | Kaolinite | Microcline | Muscovite+illite | Opal-A | Orthoclase | Pyrite | Quartz |
Avg. | 1.56 | 9.00 | 22.00 | 36.01 | 2.39 | 2.01 | 17.68 |
Std. | 0.38 | 3.43 | 4.52 | 9.52 | 1.41 | 0.58 | 5.03 |
Min | 0.80 | 4.60 | 4.02 | 11.50 | 0.10 | 0.80 | 11.90 |
Max | 3.00 | 14.40 | 36.20 | 48.30 | 7.70 | 3.90 | 38.30 |
본 연구는 울릉분지 XRD 실험자료를 활용해 개발된군집화모델의 타 지역 시료에 대한 적용확장성을 검토하는 것을 목적으로 한다. 따라서 한국대지 지역 시료에 대한 전처리 역시 선행연구(Park et al., 2024)와 동일하게두 단계로 나누어 수행하였다. 첫 번째 과정으로, 입력층인자인 intensity를 전처리하였다. 모델 학습에 사용된 울릉분지 시료의 경우 Table 3과 같이 3.01–64.99°범위 내3,100개 intensity로 구성된다. 그러나 한국대지의 경우3.005–64.996°범위 내 7,420개 intensity값으로 구성되어울릉분지와 차이를 보인다. 군집화모델을 한국대지 시료에 적용하기 위해서는 학습에 사용된 시료와 입력층 수및 입사각 범위가 일치해야하므로, 선형보간을 통해 7,420개 intensity를 3,100개로 일치시켰으며, 이때 python(3.6.3)과 SciPy(1.4.1)의 interpolate함수를 사용하였다.
Table 3 . Comparison of data shape in the Ulleung Basin and the Korea Plateau.
Location | Angle range | Intervals | Number of intensity | Number of mineral types |
---|---|---|---|---|
Ulleung Basin | 3.01–64.99 | 0.02 | 3100 | 12 |
Korea Plateau | 3.005–64.996 | 0.008 | 7420 | 14 |
두 번째 과정은 intensity값간 차이를 보정하기 위한 입력자료 정규화이다. Jin et al.(2024)은 intensity profile 특성에 적합한 시료별 최소-최대 정규화(min-max scaler)를통해 intensity profile에서 중요한 peak간 비율과 경향성을 보존하였다. 이에 따라, Park et al.(2024)은 시료별 최소-최대 정규화 방법을 사용하여 각 시료별 intensity값을보정한 후, 군집화모델을 학습시켰다. 본 연구에서도 동일하게 시료별 최소-최대 정규화를 수행하였으며, 이를통해 조성분석 시 중요하게 사용되는 intensity peak간 비율과 경향성을 보존하였다.
비지도학습인 군집화모델은 입력자료만을 활용하여 학습하기 때문에 출력자료에 대한 전처리는 불필요하다. 그러나 향후 군집화 성능분석 과정에서 혼동행렬(confusion matrix)을 활용하기 위해 전문가 광물조성 분석결과가 사용되므로, 광물조성에 대한 자료전처리를 수행하였다. 울릉분지는 12개 광물(albite, calcite, chlorite, dolomite, illite, K-feldspar, kaolinite, muscovite, NaCl, opal-A, pyrite, quartz)로 구성되어 있으나, 한국대지는 14개로 구성되어광물 종류에 차이를 보인다(Table 3). 한국대지 시료 내광물조성 중 gypsum, montmorillonite는 대부분 극소량의조성으로 존재하므로, 해당 광물에 대한 분석결과를 제외하였다. 또한 orthoclase와 microcline의 조성을 합쳐 K-feldspar로 그룹지었으며, 이와 같은 과정을 통해 줄어든11개 광물 종류의 조성 합이 100이 되도록 광물별 조성비율을 조정하였다.
울릉분지의 12개 광물 중 점토광물에 해당하는 muscovite와 illite는 한국대지에서 하나로 합친 조성이 분석되었다.따라서 울릉분지의 두 점토광물 조성을 합친 후, 한국대지와 울릉분지에 대한 총 11개 광물의 조성을 비교하였다. Fig. 3은 두 지역의 광물조성을 box-plot을 통해 시각화한것으로, 한국대지 54개 시료에 대한 11개 광물의 조성 범위가 울릉분지 대비 좁게 나타남을 볼 수 있다. 특히, calcite는 54개 시료 모두 calcite inlier 범위(0.00–14.38%)에 속하므로, 군집화모델 적용 시 전문가분석 군집에calcite 특이조성시료가 존재하지 않을 것으로 예상된다.또한, 선행연구(Park et al., 2024)에서 quartz의 경우 4.05–30.05%의 inlier 범위를 가졌는데, 한국대지 내 시료들 중10% 이하의 quartz 조성을 갖는 시료가 존재하지 않으므로, 낮은 quartz의 특이조성시료가 모이는 전문가분석 군집에는 시료가 할당되지 않을 것으로 예측할 수 있다.
선행연구의 군집화모델은 k-평균 군집화(k-means clustering) 알고리즘을 활용하여 학습되었다. 이 알고리즘은 주어진 자료를 유사도에 따라 k개의 군집으로 나누는 방법으로, 군집의 중심점(centroid)과 자료간 거리의분산을 최소화하는 것을 목표로 한다. 구체적으로, 초기중심점을 기준으로 초기 군집이 형성되면 각 군집에 속한 자료들의 평균을 계산하여 중심점을 갱신한 후, 더 이상 중심점이 변동되지 않을 때까지 반복적으로 군집화를수행하는 방법이다.
초기 중심점 선정 과정에서 모든 중심점을 무작위로 지정할 경우 군집 성능에 부정적인 영향을 미칠 수 있다(Arthur and Vassilvitskii, 2007). 따라서 선행연구(Park et al., 2024)에서는‘k-means++’를 통해 초기 중심점을 선정하였다. K-means++는 모든 초기 중심점을 무작위로 선택하는 표준 k-평균 군집화 알고리즘과 달리, 하나의 초기 중심점만 무작위 선택하는 것으로 시작한다(Fig. 4).첫 번째 중심점이 선택된 후, 나머지 중심점들은 이전 중심점과의 거리를 고려하여 순차적으로 선택되며, 이를 통해 무작위로 선택된 중심점의 영향을 최소화한다(Arthur and Vassilvitskii, 2007). 이와 같은 과정은 초기 중심점의수가 지정한 군집 수에 도달할 때까지 반복되며, 초기 중심점의 수가 결정된 이후 과정은 표준 알고리즘과 동일하다.
Fig. 5는 군집화모델의 결과를 혼동행렬로 나타낸 모식도이다. 녹색 부분은 군집화모델이 특이조성을 갖는다고분류한 시료의 군집을 나타낸다. 광물조성 분석모델(Jin et al., 2024)을 해당 군집에 속한 시료에 적용 시, 분석신뢰도가 낮을 것으로 예상되므로, 머신러닝보다는 전문가에 의해 분석되는 것이 적합하다. 반면, 파란색 부분은군집화모델이 일반조성을 갖는다고 분류한 시료를 나타낸다. 해당 시료는 전문가가 분석해도 무방하나 특이조성을 갖지 않기 때문에 분석효율성 고려 시 머신러닝이분석하는 것이 합리적인 시료이다.
혼동행렬에서 false positive(FP)는 머신러닝분석 군집으로 배정되었지만, 실제로는 특이조성을 갖는 시료를 나타낸다. FP가 클수록 머신러닝분석 군집 내 분석 성능이저조할 것으로 고려되는 시료가 많다고 볼 수 있다. 따라서 FP가 작을수록 머신러닝모델의 조성분석 신뢰도가높아진다. False negative(FN)는 전문가분석이 필요하다고 배정되었지만 실제 일반조성을 갖는 시료이기 때문에머신러닝이 분석해도 무방한 시료를 나타낸다. FN이 클수록 전문가가 분석하지 않아도 되는 시료를 전문가가분석하게 되므로 분석효율성이 낮아진다.
FP와 FN은 상충관계로, 군집화모델의 성능평가 시 어느 지표를 중요하게 고려할지에 대한 고민이 필요하다.선행연구(Park et al., 2024)에서는 군집화모델의 목적이특이조성시료에 대해 분석성능이 낮은 머신러닝모델(Jin et al., 2024)의 분석신뢰도를 개선하는 것임에 중점을 두어 FP가 최소인 군집을 최적 군집 수(k=5)로 결정하였다.
본 연구에서는 한국대지 54개 시료를 모두 검증자료로 활용하여 울릉분지 시료로 훈련한 군집화모델의 타 지역자료에 대한 분석성능을 파악하였다. 비지도학습 기반 군집화 알고리즘은 입력자료만을 필요로하는 점을 고려하여 intensity profile만을 모델에 사용하였으며, 이후 군집화 성능분석 시 혼동행렬분석을 위해 전문가가 수행한광물조성 분석자료를 활용하였다.
선행연구(Park et al., 2024)에서는 군집화모델을 울릉분지 시료에 적용 시 FP가 0으로 신뢰할 수 있는 군집화결과를 얻었다. 동일한 군집화모델을 한국대지 XRD 실험자료에 적용한 결과, 울릉분지와 동일하게 한국대지에서도 FP가 0임을 확인하였다(Fig. 6). 이는 머신러닝이 분석할 군집 내 특이조성을 갖는 시료가 단 하나도 존재하지 않음을 의미한다. 머신러닝분석 군집에 속한 시료가모두 실제 일반조성을 갖는 true positive(TP)이므로, 향후 해당 시료들을 머신러닝모델(Jin et al., 2024)에 적용시 준수한 수준의 분석신뢰도를 기대할 수 있다.
전문가분석 군집에는 35개 시료가 배정되었으며, 이 중31개 시료는 FN임을 확인하였다. 이는 머신러닝이 분석해도 무방하나 전문가가 분석해야할 시료 수가 전체의57%임을 의미한다. FN은 실제 조성이 일반조성이므로효율성 측면에서 머신러닝 모델 군집에 속하는 것이 합리적이다. 그러나, 31개 시료를 광물조성 분석모델(Jin et al., 2024)에 적용 시 평균절대오차(mean absolute error)의 평균은 2.94%로 전체 54개 시료를 사용했을 때(2.61%)대비 높게 나타나므로 분류된 FN 시료는 전문가에 의해분석하는 것이 합리적으로 볼 수 있다(Eq. 1). 비록 전문가가 분석해야할 시료의 수가 35개로 전체 자료의 65%에 해당하지만, 전문가분석이 필요한 시료 수를 약 35% 줄였다는 점에서 효율성 또한 개선되었다고 볼 수 있다.
여기서,
혼동행렬에서 TN은 전문가분석 군집으로 배정되었으며, 실제 조성 또한 특이조성에 해당하는 시료를 나타낸다. 한국대지 시료 대비 광물조성의 범위가 넓은 울릉분지(Fig. 3)는 TN에 속하는 시료를 상세분석 했을 때, 특이조성을 갖는 광물에 대한 특징적인 peak를 intensity profile 상에서 확인할 수 있었다. 가령, albite 조성이 큰시료의 경우 약 29° 부근 albite에 대응되는 peak가 큰 것을 확인할 수 있다. 선행연구(Park et al., 2024)에서는 이와 같은 peak 경향성 차이로 인해 해당 시료들이 전문가분석 군집에 배정된 것으로 해석하였다. 본 연구에서 사용한 한국대지 지역 TN 시료에 대해 intensity profile을확인한 결과, 특이조성을 갖는 광물의 특징적인 peak가다소 뚜렷하게 나타나지 않았음에도 불구하고 전문가분석 군집으로 알맞게 배정하였다.
Fig. 7은 TN으로 배정된 한국대지 53번 시료와 TP로배정된 41번 시료에 intensity profile을 나타낸 것이다. 두시료의 원본 intensity profile을 나타내는 Fig. 7(a)에서 53번 시료의 quartz peak가 4,492.5 count per second(cps)로1,007.5 cps인 41번 시료와 4배 이상 차이남을 볼 수 있다. 이에 반해, opal-A의 넓은 peak는 두 시료가 거의 유사한 크기로 나타난다. 이는 Fig. 7(a)인 원본 intensity profile에 대해 1,000 cps 이하 부분만 확대해서 도시한Fig. 7(b)에서 명확히 확인할 수 있다.
Fig. 7(c)는 원본 intensity profile을 최소-최대 정규화전처리한 profile을 나타낸 것이다. 두 시료의 원본 profile에서는 opal-A peak가 유사했지만(Fig. 7(b)), 최소-최대정규화 전처리 후에는 53번 시료에 비해 41번 시료의opal-A peak가 두드러짐을 알 수 있다(Fig. 7(c)). 53번 시료와 41번 시료의 원본 intensity profile에서는 opal-A peak의 절대값이 유사했지만, 두 시료의 최대 peak 대비 opal-A peak의 상대적인 비율은 다르기 때문이다. 구체적으로, 41번 시료에 비해 53번 시료의 높은 quartz peak로 인해53번의 원본 intensity profile의 절대값은 더 작은 intensity값으로 정규화되는 것이다. 이는 시료별 최소-최대 정규화를 통해 기존 시료의 intensity 비율과 경향성이 보존되어 시료간 비교가 용이해져 얻을 수 있는 결과이다.
선행연구(Park et al., 2024)에서는 5개 군집 중 일반조성을 갖는 시료로 구성된 3번과 4번 군집을 제외한 세군집이 특이조성을 갖는 군집임을 확인하였다. 1번 군집은 높은 quartz와 albite 조성을, 2번 군집은 낮은 quartz와 높은 albite 조성을, 5번 군집은 높은 calcite 조성을 갖는 시료의 군집이다. 이와 같은 각 군집의 특성은 한국대지에서도 동일하게 나타남을 확인하였다.
Table 4는 각 군집별 quartz, albite, calcite 평균 조성과시료 수를 나타낸 것이며, 선행연구(Park et al., 2024)에서 세 광물의 mild outlier를 바탕으로 선정한 일반조성범위를 상단에 함께 기재하였다. 한국대지 총 54개 시료중 2번과 5번 군집에 속한 시료는 없었다(Table 4). 이는Table 2와 Fig. 3에서 실제 낮은 quartz 조성(4.05% 이하),높은 calcite 조성(14.38% 이상)을 갖는 시료가 한국대지내 존재하지 않음을 고려했을 때 합리적인 분류결과로볼 수 있다. 일반조성 시료를 나타내는 3번과 4번 군집의 경우, 세 광물의 조성이 모두 일반조성범위에 속하는것을 확인할 수 있어 군집화모델이 성공적으로 적용되었다고 볼 수 있다(Table 4). 이에 따라 3번과 4번 군집에해당하는 시료에 머신러닝 기반 광물조성 분석모델(Jin et al., 2024)을 적용할 경우 높은 수준의 분석신뢰도를 기대할 수 있으므로, 향후 머신러닝을 활용해 조성을 분석하는 것이 합리적이다.
Table 4 . Average mineral compositions for the samples in each cluster.
Quartz (4.05–30.05) | Albite (2.90–14.10) | Calcite (0.00–14.38) | Number of samples | |
---|---|---|---|---|
Cluster 1 | 20.09 | 11.40 | 2.85 | 35 |
Cluster 2 | - | - | - | 0 |
Cluster 3 | 13.63 | 7.39 | 0.28 | 18 |
Cluster 4 | 12.13 | 6.12 | 0.00 | 1 |
Cluster 5 | - | - | - | 0 |
1번 군집에 속한 35개 시료는 Fig. 6에서 전문가분석군집에 배정되었던 35개 시료와 일치한다. 전문가분석이필요하다고 판단된 1번 군집에 속한 시료의 평균 quartz와 albite 조성은 머신러닝분석 군집인 3번과 4번 군집에속한 시료의 평균 quartz와 albite 조성보다 월등히 높았다. 선행연구에서 1번 군집은 quartz와 albite 조성이 높은 시료들로 구성된 것과 동일한 결과임을 확인할 수 있다. 1번 군집에 속한 시료에 머신러닝모델을 적용할 경우 광물조성 분석모델의 전체적인 신뢰도에 부정적인 영향을 미칠 수 있으므로 머신러닝보다는 전문가에 의한분석이 필요하다.
군집별 시료의 분포양상을 파악하기 위해 주성분분석(principal component analysis)을 활용하여 intensity 수인3,100개 차원을 3차원으로 축소시킨 후, 군집화 결과를시각화하였다. Fig. 8에서 원은 한국대지의 시료들로 색상을 통해 배정된 군집을 나타낸 것이다. 또한 별은 울릉분지 시료를 활용해 학습된 군집화모델의 군집 중심을나타낸다. Fig. 8과 Table 4를 함께 고려하면, 녹색(1번)군집에서 노란색(3번)과 붉은색(4번) 군집으로 갈수록quartz의 조성이 감소하는 경향을 확인할 수 있다. 선행연구(Park et al., 2024)에서 첫 번째 주성분 축은 주로quartz 조성 변화를 대변하는 것으로 분석되었다. 이는quartz가 다른 광물과 상관성이 높아 시료들의 intensity차이를 설명하기에 적합한 광물이기 때문이다.
결론적으로, 54개 한국대지 시료 중 일반조성 군집(3번, 4번)에 속한 19개 시료들은 광물조성 분석모델(Jin et al., 2024)로, 특이조성을 갖는 1번 군집에 속한 35개 시료는 전문가가 분석하는 것으로 판정하였다. 특히, 1번 군집에속한 시료는 quartz와 albite 조성이 높은 경향이 있으므로 전문가분석 시 두 광물의 조성에 유의하도록 사전정보를 제공할 수 있다.
본 연구에서는 울릉분지 시료에 대한 군집화모델의 적용확장성을 검증하기 위해 한국대지 XRD 실험자료를 활용하였다. 모델 적용을 위한 학습자료 전처리 과정에서입력인자인 intensity의 범위와 수를 선형보간을 통해 일치시켜주었으며, 시료별 최소-최대 정규화를 수행하여intensity peak 비율과 경향성을 보존하였다. 이는 비록XRD 실험결과에 따라 입력인자가 차이가 나더라도 전처리과정을 통해 타 지역 자료 또한 범용성있게 적용가능함을 시사한다.
개발된 군집화모델을 한국대지 시료에 적용한 결과, 울릉분지와 동일하게 FP가 0으로 나타나 광물조성 분석모델의 신뢰도를 제고할 수 있게 되었다. 이를 통해 전문가에 의한 XRD 실험결과를 분석하기 전, 머신러닝이 분석해도 무방한 시료와 전문가분석이 필요한 시료로 구분하는 것이 한국대지 시료에서도 가능함을 확인하였다. 군집화모델을 통해 전문가분석 군집에는 전체 54개 시료의약 65%에 해당하는 35개 시료가 배정되었으며, 모두 높은 quartz 조성을 갖는 시료들이 모인 1번 군집에 할당되었다. 해당 35개 시료에 대해 전문가분석 시, 특이조성을갖는 특정 광물인 quartz에 대해 사전정보를 제공할 수있다. 3번과 4번 군집에는 각각 18개와 1개 시료가 배정되었으며, 특이조성의 기준이 되는 세 광물의 조성이 모두 일반조성에 해당하는 시료들이 배정되었다. 즉, 19개시료는 머신러닝이 분석을 담당하게 되므로, 전문가분석이 필요한 시료의 수를 35% 줄였다는 점에서 분석효율성이 개선되었다고 볼 수 있다. 종합적으로 울릉분지를기반으로 개발된 군집화모델이 한국대지 XRD 자료에도적용가능함을 확인하였다. 추후 울릉분지나 한국대지에신규 XRD 실험자료가 확보되면 군집화모델을 통해 전문가가 분석할지, 머신러닝기반 분석을 수행할지 판단이가능할 것으로 기대된다.
본 연구는 가스하이드레이트 사업단의 지원하에 수행중인 한국지질자원연구원의 심층학습기반 GH 저류층 분석모델 개발(No. GP2021-010) 프로젝트의 지원으로 수행되었습니다. 또한 이 성과는 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구이며(No. 2021R1C1C1004460), 2021년도 정부(산업통상자원부)의 재원으로 해외자원개발협회의 지원을 받아 수행된 연구입니다(데이터사이언스 기반 석유·가스 탐사 컨소시엄, 2021060001). 이 논문은 2023년 공주대학교 학술연구지원사업의 연구지원에 의하여 연구되었습니다.
Table 1 . The number of data for 8 boreholes in the Korea Plateau.
Core | 21GHP-P01A | 21GHP-P02A | 21GHP-H03A | 21GHP-H04A | 21GHP-P05A | 21GHP-P06A | 21GHP-P07A | 21GHP-H09B |
---|---|---|---|---|---|---|---|---|
Number of samples | 8 | 4 | 7 | 7 | 8 | 8 | 7 | 5 |
Table 2 . Comparison of statistical factors for each mineral from the 54 data in the Korea Plateau.
Factors | Albite | Calcite | Chlorite | Dolomite | Gypsum | Halite | Hornblende |
Avg. | 9.90 | 3.61 | 2.70 | 1.18 | 1.05 | 2.39 | 1.94 |
Std. | 3.49 | 2.38 | 0.48 | 0.24 | 0.05 | 1.18 | 0.41 |
Min | 5.50 | 0.20 | 1.80 | 0.80 | 1.00 | 0.50 | 1.00 |
Max | 25.30 | 10.50 | 3.80 | 1.40 | 1.10 | 4.60 | 2.50 |
Factors | Kaolinite | Microcline | Muscovite+illite | Opal-A | Orthoclase | Pyrite | Quartz |
Avg. | 1.56 | 9.00 | 22.00 | 36.01 | 2.39 | 2.01 | 17.68 |
Std. | 0.38 | 3.43 | 4.52 | 9.52 | 1.41 | 0.58 | 5.03 |
Min | 0.80 | 4.60 | 4.02 | 11.50 | 0.10 | 0.80 | 11.90 |
Max | 3.00 | 14.40 | 36.20 | 48.30 | 7.70 | 3.90 | 38.30 |
Table 3 . Comparison of data shape in the Ulleung Basin and the Korea Plateau.
Location | Angle range | Intervals | Number of intensity | Number of mineral types |
---|---|---|---|---|
Ulleung Basin | 3.01–64.99 | 0.02 | 3100 | 12 |
Korea Plateau | 3.005–64.996 | 0.008 | 7420 | 14 |
Table 4 . Average mineral compositions for the samples in each cluster.
Quartz (4.05–30.05) | Albite (2.90–14.10) | Calcite (0.00–14.38) | Number of samples | |
---|---|---|---|---|
Cluster 1 | 20.09 | 11.40 | 2.85 | 35 |
Cluster 2 | - | - | - | 0 |
Cluster 3 | 13.63 | 7.39 | 0.28 | 18 |
Cluster 4 | 12.13 | 6.12 | 0.00 | 1 |
Cluster 5 | - | - | - | 0 |
Kyoungeun Lee, Jaehyung Yu, Chanhyeok Park, Trung Hieu Pham
Econ. Environ. Geol. 2024; 57(4): 353-362Kalaivanan K, Vellingiri J
Econ. Environ. Geol. 2024; 57(3): 329-342Jongpil Won, Jungkyun Shin, Jiho Ha, Hyunggu Jun
Econ. Environ. Geol. 2024; 57(1): 51-71