▶ 보안 제품 테스트 정보/:: AV-Comparatives

AV-Comparatives 7월 안티-바이러스 사전 방역 진단율 테스트 (2012)

물여우 2012. 7. 26. 08:30
반응형
AV-Comparatives의 변화된 악성코드 사전 방역 진단율 테스트 결과를 살펴보겠습니다.




오스트리아에 위치한 민간 보안 연구 단체인 AV-Comparatives 에서 2012년 세 번째 메인 테스트 결과인사전 방역 진단율 테스트 결과를 발표하였습니다. Av-Comparatives의 메인 테스트는 실환경 진단 테스트와 수동 검사 진단율 테스트와 사전 방역 진단율 테스트 등 모두 3개가 있으며, 각각 일년에 두 번 테스트를 진행합니다. 하지만 올해의 사전 방역 진단율 테스트는 예외적으로 한번만 진행한다고 합니다.

2012년의 사전 방역 테스트는 기존의 사전 방역 테스트와 상당히 달라졌습니다. 달라진 부분은 크게 두가지로 아래와 같습니다.

첫 번째 테스트용 악성코드 샘플 수집 기간이 기존의 7일 내외에서 하루로 대폭 줄었습니다. 악성코드 샘플 수 또한 만 단위에서 천 단위로 줄었습니다. 이러한 변화는 악성코드의 변종 유포 속도가 매우 빨라짐에 따라 7일이나 되는 수집 기간에 수집된 샘플들이 사실상 과거의 샘플(죽은 샘플)이 되버리며, 보안 제품들도 클라우드 진단과 같은 다양한 기술 도입으로 대응 능력이 빨라지면서, 현재의 DB로 미래의 샘플에 대한 진단율을 본다는 사전 방역 테스트의 원래 취지를 살리지 못했기 때문으로 보입니다.

두 번째로 실환경 테스트(Real World test, 웹 공격 차단 종합 테스트)에서나 사용되던 행동 기반 진단 기능이 드디어 사전 방역 테스트 결과에 포함되었습니다. 기존의 시그니처 휴리스틱 기법이 사실상 악성코드의 사전 진단에 실패하였고, 이를 극복하기 위하여 거의 모든 제품에서 행동 기반 진단 기능이 도입된 것을 생각해보면 도입이 너무 느렸다 생각합니다.

단, 클라우드 진단 기능은 여전히 사용되지 않고 있습니다. 이는 진단 DB의 날짜를 고정 시킨 상태에서 미래의 샘플을 진단하는 테스트 기법 상 어쩔 수 없는 문제인 것 같습니다. 이러한 문제로 클라우드 진단이 진단에 있어 핵심적인 기능으로 동작하는 일부 제품(McAfee, Sophos, Trend Micro and Webroot)들은 해당 테스트에 참여하지 않았습니다. 클라우드 진단은 실환경 테스트에서 사용됩니다.

이러한 변화를 통해 어느 정도는 현재에 상황에 맞는 좀 더 유의미한 정보를 제공할 수 있게 되었다 생각합니다. 실 환경 테스트가 웹을 통해 이루어지는 공격에 대한 종합적인 성능을 체크한다면, 사전 방역 테스트는 최종적으로 시스템에서 실행되는 PE 파일 형태의 악성코드의 사전 차단율을 전문적으로 살펴볼 수 있게 되었기 때문입니다.

테스트에 참여한 제품에 대한 정보 및 오진율에 대한 것은 2012년 3월 자료를 참고 바랍니다. 

앞서 언급한 것처럼 McAfee, Sophos, Trend Micro, Webroot 등 일부 제품은 사전 방역 테스트에 참여하지 않았습니다.



1. 테스트 최종 결과

최종 결과 - 등급별 구분


※  '*' 가 붙은 제품은 상대적으로 많은 오진으로 인해 등급이 떨어진 것을 의미합니다.

이번 테스트는 카스퍼스키와 비트디펜더가 위엄을 드러냈다 평가를 하겠습니다. 카스퍼스키와 비트디펜더는 1차적인 시그니처 진단의 사전 진단율은 Qihoo같은 제품에 비해 다소 뒤쳐졌으나 행동 기반 진단 기능을 통한 추가 진단으로 진단율이 상승하여 최종적으로 97%의 막강한 진단율로 최고 점수를 획득했습니다.[각주:1] 특히 비트디펜더는 82%의 시그니처 진단율을 보였으나 행동 기반 진단 기능에서 무려 15%의 상승율을 보였습니다.

행동 기반 진단으로 인해 추가적인 진단이 가능했다는 점은 Qihoo같은 제품이 다중 엔진이라는 점 덕분에 높은 시그니처 진단율을 보이고 있으나, 행동 기반 진단이 전무하여 추가적인 진단이 불가능하다는 점과 상당히 비교가 됩니다. 행동 기반 진단 기능이 있는 대부분의 제품들이 시그니처 진단을 확실하게 보완하는 것으로 나타나고 있습니다. 물론 ESET이나 AVIRA처럼 행동 기반 진단 기능이 사실상 무의미하게 동작했던 제품들도 있긴 합니다.


시그니처 진단 항목에서는 Qihoo와 G-data같은 다중 엔진 제품이 확실히 높은 진단율을 보이고 있으나, 휴리스틱 부분에서 좋은 평가를 받는 ESET과 AVIRA 제품들도 87%, 84% 등 낮지 않은 진단율을 갖고 있음을 보여주었습니다. 카스퍼스키(90%)는 기존의 사전 방역 테스트 결과에 비해 시그니처 진단율이 상당히 높게 나왔는데, 단순히 이번에 수집된 샘플의 종류 때문이거나, 짧은 수집 기간에 의해 나타난 결과라고 봅니다. 아마 다음번 테스트 결과를 보면 좀 더 확실히 알 수 있을 것 같습니다.

행동 기반 진단 기능으로 인해 높은 진단율 상승을 보여준 제품은 PCtools입니다. 무려 29%의 높은 진단율 상승을 보이고 있습니다. 물론 행동 기반 진단 기능 항목은 2차 테스트 항목이기 때문에 순수 행동 기반 진단으로 인한 차단율을 보이는 것이 아닙니다. 따라서 시그니처 진단율이 낮을 수록 행동 기반 진단 기능이 상대적으로 높아 보일 수는 있습니다. Pctools외에 비트디펜더, AVAST, PANDA 등이 좋은 행동 기반 진단 기능을 보여주었습니다.

중위권 목록에 포함된 AVG, Tencent는 모두 오진으로 등급이 떨어졌습니다. 수동 검사 테스트에 비해 상대적으로 등급 구분의 절대값이 낮기 때문에 진단율로는 모두 최상위 등급을 받을 수 있었으나 오진 때문에 떨어진 제품들입니다. 마찬가지로 하위권 목록에 포함된 4 제품들도 오진으로 인해 등급이 떨어진 제품입니다.

최하위권에 머물며 'TESTED' 등급을 받게된 안랩은 낮은 사전 진단율과 높은 오진율, 행동 기반 진단 기능의 전무함으로 인해 최저의 결과를 받았습니다. 클라우드 진단 기능을 사용할 수 없는 테스트 특성상, 실환경 테스트보다 더 어려운 테스트가 아니었을까 싶습니다. 그러나 실환경 테스트에서도 좋은 성적을 거두지 못한 것을 보면, 현재의 제품으로는 당분간 좋은 테스트 결과를 거두기 어렵지 않을까 싶습니다.

최종 결과 - 진단율 순위별 구분


2. 테스트 세부 정보

2-1. 테스트 참여 제품 정보

 •  AhnLab V3 Internet Security 8.0.5.19  • G DATA AntiVirus 22.1.0.2
 •  avast! Free Antivirus 7.0.1407  •  GFI Vipre Antivirus 5.0.5134
 •  AVG Anti-Virus 2012.0.1913  •  Kaspersky Anti-Virus 12.0.0.374
 •  AVIRA Antivirus Premium 12.0.0.915  •  Microsoft Security Essentials 2.1.1116.0
 •  Bitdefender Anti-Virus+ 15.0.36.1530  •  Panda Cloud Free Antivirus 1.5.2
 •  BullGuard Antivirus 12.0.215  • PCTools Spyware Doctor with Antivirus 9.0.0.909
 •  eScan Anti-Virus 11.0.1139.1146  
 •  ESET NOD32 Antivirus 5.0.95.0  
 •  F-Secure Anti-Virus 12.49.104  
 •  Fortinet FortiClient Lite 4.3.3.0436  

테스트에 임하는 기본 환경 설정은 보안 제품의 진단 기능의 감시 및 민감도가 최고 강도로 하는 것을 기본으로합니다. 단, 일부 제품은 기본 설정 또는 특별한 제한을 두었으며, 행동 기반 진단의 경우 기본 설정 상태로 테스트에 사용되었습니다.

 AVAST, AVIRA, Kaspersky는 최고 강도 휴리스틱 진단 및 고급 진단 기능을 모두 사용
F-secure는 기본 설정 (고급 휴리스틱 진단 사용 안함)

 AVG, Avira는 패커 진단을 테스트에서 제외
  (※ 이는 악성코드 진단 및 정상 
파일 오진에서도 동일하게 적용되었습니다. 따라서 실제 사용 환경
      에서는 테스트결과 보
다 진단율과 오진율이 더 높을 수 있습니다.)
  클라우드 기술이 포함된 제품은 클라우드 진단값을 테스트 결과에 포함시키지 않았습니다.



2-2. 테스트 세부 결과 정보

(1) 악성코드 샘플


악성코드는 2012년 3월 2일, 하루동안 수집된 4138개의 최신 샘플을 이용하였습니다. 테스트 시점은 3월 1일자로 고정되었으며, 업데이트를 마친 후 1차로 수동 검사를 실시하고 진단율을 측정하고, 1차 진단에서 나타난 미진단 샘플은 직접 실행하여 행동 기반 진단 기능을 통한 차단율을 측정하였습니다.


(2) 테스트 결과


1차 테스트인 시그니처 진단율 테스트는 기존의 테스트와 크게 다를바가 없으며, 행동 기반 진단은 실환경 테스트의 테스트 방법과 동일합니다. 아래 실환경 테스트의 행동 기반 진단 테스트의 채점 기준을 참고바랍니다.

공격 차단 성공
(Block)

자동 처리를 통한 차단 성공

사용자 처리 요구 시, 설정된 권장 사항이나 기본 설정 항목을 통해
명확하게 공격을 차단할 수 있는 경우

사용자 처리에 따름
(User Dependent)

사용자 처리 요구시, 사용자의 선택에 따라 다름

공격 차단 실패
(Compromised)

자동 처리를 통한 차단 실패

사용자 처리 요구시, 위험 정보가 불명확하거나 설정된 권장 사항이 명확하게 공격 시도를 안전한 것으로 처리하는 경우


사용자 처리 목록은 0.5점의 가중치를 받습니다. 예를 들어, 시그니처 진단율 70%에 공격 차단 성공 10%와 사용자 처리 20%를 획득했을 경우 총 합은 90%가 됩니다.

총 사전 진단율 = 시그니처 진단율 + 행동 기반 진단율(차단 성공율+사용자 처리*0.5)


아래는 진단율의 세부 결과를 그래프로 표시한 것입니다.

PCtools의 경우카스퍼스키와 근접한 수준의 차단율을 보이고 있지만 사용자 처리 항목이 많아 점수가 떨어진 경우입니다. AVAST도 사용자 처리 항목이 다소 많이 보이고 있습니다.

아래는 오진 숫자 정보입니다.

아래는 사전 방역 테스트의 등급 기준표입니다. 시그니처 진단과 "시그니처 진단+행동 기반 진단"의 결과가 따로 존재하고 있습니다.





이번 테스트에서는 평균 80%가 넘는 진단율을 보여주고 있습니다. 샘플 수집 기간이 줄어[각주:2] 상대적으로 시그니처 진단율이 상승했고, 행동 기반 진단 기능이 추가되면서 나타난 결과입니다. 아마 기존의 사전 방역 테스트에서도 행동 기반 진단을 포함한다면 약간의 진단율 상승은 있었을 것 같습니다.

사실 본문 글에서는 '죽은 샘플'이었라 언급한 부분은 해당 악성코드와 동일한 역할을 하는 새로운 변종이 이미 나와 유포되고 있다는 의미이지, 해당 샘플이 모든 제품에서 진단이 되고 있거나 시스템에 해를 끼칠 수 없다는 의미가 아니었습니다.

이는 기존의 사전 방역 테스트에서 잘 보여주고 있는데, 기존 테스트의 평균 사전 진단율은 60%가 채 되지 않았습니다. 일주일의 수집 기간 동안 수집된 샘플들의 10개중 4개는 시그니처 진단으로 진단되지 못하고 있다는 이야기인데, 이미 죽어버린 샘플을 진단하는데 실패할 만큼 빠르게 변화되어 유포되는 악성코드를 차단하는 데에는 시그니처 진단만으로는 한계가 있다는 사실을 잘 보여주고 있다고 봅니다. 

마지막으로 테스트 결과 중 100%의 사전 차단율이 보인 제품이 하나도 없었다는 점은 의미가 크다고 봅니다. 보안 제품들이 각종 진단 기능과 보조 기능으로 무장하고 있지만, 결국 보안 제품만으로는 악성코드의 공격을 완벽하게 차단할 수 없습니다. 결국 보안은 사용자의 역할이 상당히 중요하며 완벽한 보안은 없다는 점을 강조하고 싶습니다.


개인적으로 AV-Comparatives의 메인 테스트들이 현재의 실상을 제대로 반영하지 못하고 있다 생각하고 있었는데, 이번 테스트의 변화로 어느 정도 개선은 이루어졌다고 봅니다.


- 이상입니다.

  1. 그래프 결과를 보면 카스퍼스키가 소수점 이하 항목까지 따졌을 때 약간 더 높은 점수를 받은 것 같습니다. [본문으로]
  2. 실제로는 샘플 수의 감소 [본문으로]
반응형