검색 전체 메뉴
PDF
맨 위로
OA 학술지
다양한 탐지 알고리즘을 이용한 탐지 데이터셋에 관한 연구 A Study of Detection Data Set Using Various Detection Algorithm
ABSTRACT
다양한 탐지 알고리즘을 이용한 탐지 데이터셋에 관한 연구

It is virtually impossible to live without digital devices for us today. The importance of information security in the digital environment is becoming an hot-issue every year, like hacking accidents. To prepare for such intrusion, a next-generation firewall (NGFW) including intrusion detection and a next-generation intrusion prevention system to detect security threats of high-speed networks are being released, and systems that can be applied in the cloud environment are also being researched. We are still continuing to research various algorithms to improve the performance of the detection algorithm. Among detection research, various algorithms to evaluate objective detection performance and data sets for learning algorithms are recognized as very important indicators for detection performance. A representative data set is KDD 99 and NSL-KDD of slightly modified. In this paper, three detection algorithms (SVM: Support Vector Machine, FCM: Fuzzy Cognitive Maps, FCM with oriented weight) are applied and tested to compared and analyze the KDD 99 and NSL-KDD data sets. As a result of analysis, through the results of the KDD and NSL-KDD data sets, which greatly affect the three important issues. It is possible to confirm the detects of the KDD data set and to confirm that the detection algorithm is affected. The NSL-KDD evaluation result show that in order to improve the detection rate in dangerous attacks deleting duplicate record or using or selected records has the advantages of improving the attack detection rate.

KEYWORD
KDD 99 , NSL-KDD , FCM , SVM , FCM-OW
  • 1. 서 론

    디지털 시대에 살아가는 현대인에게는 디지털 기기를 멀리하고 생활하는 것은 사실상 불가능하다. 이러한 디지털 환경에서 정보보안의 중요성은 매년 증가하고 있는 해킹사고처럼 매년 이슈로 자리 잡아가고 있다. 한국인터넷진흥원(KISA)에서는 ‘2023 개인정보 7대 이슈’를 발표하였으며 과기정통부-KISA에서 ‘2023년 사이버보안 위협 전망’을 발표하였다[1]. 그 내용으로는 국가산업보안을 위협하는 국제해킹조직의 공격 증가, 사회적 현안을 악용한 사이버 공격, APT 및 다중 협박 랜섬웨어 진화, 디지털 시대의 자원 공유에 따른 위협 등이며 이는 개인뿐만 아니라 국가, 기업, IoT 등 모든 시스템이 해킹의 대상이 되는 시대가 되었다는 것이다. 보안업체인 이스트시큐리티는 위에서 언급한 위협에 추가로 디지털 신분증 및 전자문서 서비스의 보편화로 인한 개인정보 탈취, 가상 자산공격, Zero-day 및 N-Day 취약점 증가를 2023년 사이버보안 위협으로 발표하였다[2]. 이러한 침입을 대비하기 위하여 침입탐지, 침입 차단을 포함한 차세대 방화벽(NGFW) 및 초고속화된 네트워크의 보안 위협을 탐지 및 차단하기 위한 차세대 침입방지시스템 등이 출시되고 있으며 클라우드 환경에서도 적용이 가능한 시스템들도 연구 중이거나 출시를 기다리고 있다[3]. 이러한 제품 및 탐지 알고리즘의 성능을 높이기 위한 여러 방법이 지금도 계속해서 연구 되고 있으며 탐지 연구 분야 중 객관적인 탐지성능을 평가할 여러 알고리즘과 알고리즘을 학습시키기 위한 데이터 셋 또한 탐지성능에 매우 중요한 지표로 인식되고 있다. 일반적으로 공개된 대표적인 데이터 셋은 KDD 99와 이를 조금 수정한 NSL-KDD가 있다[4].

    본 논문에서는 SVM(Support Vector Machine)[5], 퍼지인식도[6], 가중치가 적용된 퍼지인식도[7] 등을 이용한 3개의 탐지 알고리즘 기반에 KDD 99와 NSL-KDD 데이터 셋을 적용하여 대표적인 데이터 셋의 탐지성능을 비교 및 분석하고자 한다.

    본 논문의 구성은 다음과 같다. 제2장에서는 KDD 99와 NSL-KDD 데이터 셋에 대하여 알아보고 제3장에서는 2개의 데이터 셋을 3개의 탐지 알고리즘에 적용한 실험 결과를 비교분석하고 제4장에서는 결론과 향후 연구를 기술한다.

    2. KDD 99와 NSL-KDD

       2.1 KDD 99

    1999년 KDD ‘99 Competition : Knowledge Discovery Contest에서 제공된 것으로 DARPA’ 98 IDS 평가 프로그램에서 수집된 데이터를 기반으로 구성되었다. 침입 및 정상 레이블로 되어있으며 연속시간, protocol을 포함한 41개의 파라미터와 레코드의 공격 형태가 어떠한지를 나타내는 클래스를 추가하면 42개의 파라미터로 구성된다. 일반적으로 레이블이 있는 데이터를 트레이닝 데이터로 사용하고 레이블이 없는 데이터를 테스트 데이터로 사용한다. 또한 트레이닝 데이터는 DoS, R2L, U2R, Probe 등 4개의 공격 형태로 구분된다[4].

       2.2 NSL-KDD

    2009년 IEEE 심포지움에서 Tavallaee가 KDD 99 데이터 셋의 결함을 논문에서 제시한 것이 NSL-KDD 데이터 셋이다[5]. Tavallaee는 KDD 99 결함을 몇 가지 제시하였는데 첫 번째는 tcp dump 데이터는 오버로드(overload) 되는 경우가 많아서 트래픽로드(traffic load)가 높으면 패킷 손실 가능성이 있음에도 고려되지 않았다는 점, 두 번째는 버퍼 오버플로(buffer overflow) 패킷이 발생할 때 100% 공격은 아니라는 것이며 probe 패킷의 반복수가 특정 한계치를 넘지 않으면 공격 성향을 나타내지 않는다는 점, 세 번째는 테스트 데이터에 DoS(smurf 등)가 71%에 해당하여서 탐지 알고리즘이 DoS만 완벽하게 판별하면 정확도가 높아진다는 점이다. KDD 99는 중복된 레코드를 포함하고 있으므로 학습하면 빈도가 높은 공격 지향 타입으로 학습될 가능성이 커서 테스트 과정과 결과에 영향을 끼칠 수 있다[8]. NSL-KDD는 KDD 99의 중복된 레코드를 삭제하고 크기를 줄인 것이다.

    3. 탐지 알고리즘 및 비교분석

       3.1 탐지 알고리즘

    본 논문에서 KDD 99와 NSL-KDD 데이터 셋의 성능을 비교하기 위하여 적용된 알고리즘은 객관적으로 탐지 능력이 인정된 SVM(Support Vector Machine), 저자가 2003년에 제안한 FCM(퍼지인식도)을 적용한 SPuF, 그리고 저자가 2014년에 제안한 <그림 1>과 같이 FCM-OW는 STEP 3으로 이루어진 방향성 가중치가 적용된 퍼지인식도 알고리즘 등이다[9-13].

       3.2 실험 및 비교분석

    실험의 평가는 공정성과 객관적 평가를 위하여 KDD 99와 NSL-KDD 데이터 셋을 사용하였으며 테스트베드 실험환경은 윈도즈 10, 인텔 i7 프로세서 10세대, 32GB RAM의 환경에서 진행한다. 데이터 셋은 DoS 공격(Smurf, Land, Pod), 정상 패킷, Probe(Ipsweep, Nmap, Satan), U2R(buffer overflow, sqlattack, Rootkit), R2L(Guess-passwd, ftp, Phf, IMAP, Spy)으로 구성된다[14-16]. KDD 99의 중복된 레코드가 3개의 알고리즘 학습 및 테스트 과정에서 영향도를 고려하여 KDD 99와 NSL-KDD의 트레이닝 셋과 테스트 셋을 상호교차하여 실험하였으며 <표 1, 2, 3>는 3개의 알고리즘에 적용된 20회 실험에 대한 결과치의 평균치이다.

    테스트베드 실험 결과 <표 1, 2, 3>에서 KDD 99 기반에서 학습시킨 3개의 알고리즘은 NSL-KDD로 테스트하면 accuracy가 떨어졌다. KDD 99의 트레이닝 셋으로 학습시킨 3개의 모든 알고리즘은 KDD 99와 NSL-KDD의 테스트 셋에서 클래스 분류 accuracy를 기반으로 알고리즘별로 조금씩 차이는 있으나 대략 20% 정도 범위의 차이가 발생하였다.

    [표 1.] SVM 결과Table 1. The result of the SVM

    label

    SVM 결과Table 1. The result of the SVM

    [표 2.] SPuF 결과Table 2. The result of the SPuF

    label

    SPuF 결과Table 2. The result of the SPuF

    [표 3.] FCM-OW 결과Table 3. The result of the FCM-OW

    label

    FCM-OW 결과Table 3. The result of the FCM-OW

    또한, NSL-KDD로 학습시킨 3개의 모든 알고리즘에 KDD 99를 테스트하면 accuracy가 높아졌으며 NSL-KDD의 트레이닝 셋으로 학습시킨 3개의 알고리즘은 KDD 99와 NSL-KDD로 테스트하면 결과값이 대략 10% 범위 이내의 차이가 발생하였다. 이 실험 결과는 KDD 99와 NSL-KDD의 트레이닝 셋으로 학습시킨 알고리즘들이 KDD 99와 NSL-KDD 테스트 셋에 대해서는 어느 정도 유사한 성능을 보여주고 있다.

    <그림 2, 3>은 KDD99와 NSL-KDD 데이터 셋에 대한 SVM, SPuF, FCM-OW 알고리즘에 대한 정상 탐지율 및 오 탐지율을 나타낸 것으로 SVM를 제외하고는 SPuF와 FCM-OW 알고리즘의 성능은 크게 벗어나지 않는 범위에서 유사한 성능을 보인다.

    4. 결 론

    본 논문에서는 KDD 99와 NSL-KDD 각각의 데이터 셋을 SVM, SPuF, FCM-OW 등 3개의 탐지 알고리즘으로 비교 분석하였다. NSL-KDD 데이터 셋은 KDD 99의 몇 가지 결함 중 중복된 레코드를 삭제하고 크기를 줄인 데이터 셋이라고 할 수 있다. 앞에서 제시한 3개의 탐지 알고리즘에서 NSL-KDD는 KDD 99보다 accuracy 측면에서는 조금 낮은 수치값을 보였으나 공격유형별 클래스 분류에서는 KDD 99보다 높은 결과값을 나타내었다. NSL-KDD의 평가 결과는 위험한 공격에서 있어서 탐지율 향상을 위해서는 중복된 레코드를 삭제하거나 랜덤 또는 선별한 레코드를 사용하면 공격 탐지율의 향상된다는 이점이 있다. 그러나 테스트베드가 아닌 실제 네트워크 환경에서 빈번히 발생하는 DoS 또는 DoS 형태의 악성코드 공격에서의 탐지율은 낮아질 가능성을 배제할 수 없다. 추후 연구과제로는 실제 네트워크 기반에서 KDD 99와 NSL-KDD 데이터 셋, 그리고 본 논문에서 제시한 탐지 알고리즘 이외에 다양한 탐지 알고리즘을 적용하여 정확도와 탐지율을 향상하는 것을 연구과제로 둔다.

참고문헌
  • 1. 2022 Cyber threat signal 2023, Cyber Threat Intelligence Network google
  • 2. 2023 2023 Cyber threat forecasts top 5 google
  • 3. 2022 https://secui.com google
  • 4. 2022 KDD Cup 1999 Data sets google
  • 5. 2022 NSL-KDD Data sets google
  • 6. Tavallace M., Bagheri E., Lu W., Ghorbani A. 2009 A detailed analysis of the KDD CUP 99 data set [IEEE Symposium on IEEE] P.1-6 google
  • 7. Srivastava N., Hinton G., Krizhevsky A., Sutskever I., Salakhutdinov R. 2014 Dropout : a simple way to prevent neural networks from overfitting [Article in Journal of Machine Learning Research] Vol.15 P.1929-1958 google
  • 8. Alerod R. 1976 Structure of decision : the cognitive maps of political elites google
  • 9. Lee S. Y., Cho S. Y., Ryu S. R. 2008 A study of real-time probe detection rules using adaptive weight decision [Journal of Knowledge Information Technology and Systems] Vol.3 P.53-58 google
  • 10. Brum Y., Serugendo G., Litoiu M. 2013 Engineering self adaptive system through feedback loops P.48-70 google
  • 11. Lee S. Y., Kim Y. S., Lee W. J. 2005 A hybrid network model for intrusion detection based on session patterns and rate of false errors [International Conference on Computational Science and its Applications] P.1162-1169 google
  • 12. Lee S. Y. 2017 An hybrid probe detection model using FCM and self-adaptive module [Journal of Digital Industry and Information] Vol.13 P.19-25 google
  • 13. Siraj A., Bridges S. M., Vaughn R. B. 2001 Fuzzy cognitive maps for decision support in an intelligent intrusion detection system [International Fuzzy Society Association World Congress and 20th North American Fuzzy Information Processing Society International Conference] Vol.4 P.2165-2170 google
  • 14. Caudill M. 1990 Using neural nets : fuzzy cognitive maps P.49-53 google
  • 15. Lee S. Y., An J. H. 2014 An improved hybrid probe detection model based on modules using oriented weight [Journal of Knowledge Information Technology and Systems] Vol.9 P.22-29 google
  • 16. Lee S. Y. 2021 A study on distributed cooperation probe detection model based on FCM [Journal of Knowledge Information Technology and Systems] Vol.16 P.225-232 google
이미지 / 테이블
  • [ 그림 1. ]  방향성 가중치가 적용된 퍼지인식도
    방향성 가중치가 적용된 퍼지인식도
  • [ 표 1. ]  SVM 결과Table 1. The result of the SVM
    SVM 결과Table 1. The result of the SVM
  • [ 표 2. ]  SPuF 결과Table 2. The result of the SPuF
    SPuF 결과Table 2. The result of the SPuF
  • [ 표 3. ]  FCM-OW 결과Table 3. The result of the FCM-OW
    FCM-OW 결과Table 3. The result of the FCM-OW
  • [ 그림 2. ]  KDD 99의 정상 탐지율 및 오 탐지율 비교
    KDD 99의 정상 탐지율 및 오 탐지율 비교
  • [ 그림 3. ]  NSL-KDD 99의 정상 탐지율 및 오 탐지율 비교
    NSL-KDD 99의 정상 탐지율 및 오 탐지율 비교
(우)06579 서울시 서초구 반포대로 201(반포동)
Tel. 02-537-6389 | Fax. 02-590-0571 | 문의 : oak2014@korea.kr
Copyright(c) National Library of Korea. All rights reserved.