▶ 보안 제품 테스트 정보/:: AV-Comparatives

AV-Comparatives 웹 공격 차단 종합 성능 테스트 - Dynamic Real-World TEST 2012 (하반기)

물여우 2013. 4. 1. 08:00
반응형
웹을  통한 외부 위험 요소를 차단하는 능력을 종합적으로 테스트하는 Whole Product Dynamic TEST의 2012년도 하반기 테스트 결과를 살펴봅니다.




AV-Comparatives의 중요 테스트 중 하나인 Dynamic (Real-World) Test 결과가 발표되었습니다.

실환경 테스트라 의역할 수 있는 Dynamic test는 현존하는 악성코드 감염 위협의 대다수를 차지하는 "인터넷으로 연결된 웹사이트를 통해 이루어지는 악성코드 감염을 차단하는 종합적인 성능을 측정"하는 테스트입니다. 최근과 같이 웹을 통한 악성코드 유포가 극심한 상황에 대한 보안 제품의 실질적인 차단 능력을 볼 수 있는 매우 유용한 테스트라 할 수 있습니다.

(※ Whole Dynamic test가 어떤 테스트인지는 관련글의 2009년를 참고 바랍니다.)


전통적인 의심진단을 포함한 시그니처 진단과 악성 사이트를 진단하는 URL Filtering, 유해물 차단에 주로 쓰이는 Contents Filtering, 피싱 사이트 차단을 위한 Anti-Fishing, 제로 데이 코드 또는 악성코드의 실행을 차단하는 Behavir Blocker 류를 포함한 HIPS 등 다양한 진단 기능으로 악성 요소를 얼마나 많이 차단하는지를 측정합니다.

해당 테스트 결과는 특정 기간에 이루어진 단일 항목이 아니라 2012년 8월부터 11월까지 총 4번의 개별 테스트들의 결과를 종합한 것입니다. 


1. 최종 결과


최종 결과 - 등급별 구분


'*' 표시는 오진(웹사이트 위험도 평가, 스크립트 및 다운로드 파일 오진 등) 및 사용자 처리 요구 등이 많아 등급이 떨어진 것을 의미합니다.

상반기에 이어 하반기에도 종합 점수 결과(진단율+오진율) 비트디펜더가 1위를 차지하였습니다. 2006개 중 2004개의 샘플 url 차단에 성공했으며, 상대적으로 적은 4개의 오진으로 전체 점수 결과 최고 점수를 받았습니다.

트렌드마이크로는 가장 많은 진단율(2005개)을 보였으나 다수의 오진으로 등급이 떨어졌습니다. 상반기 테스트에 비해 진단율이 상당히 증가했습니다. 오진 부분만 개선된다면 나쁘지 않은 선택지가 될 것 같습니다. 개인적으로 리뷰할 때와 체감차가 상당히 커서 놀랐습니다. 참고로 트렌드마이크로, 비트디펜더, F-secure, G-data 순으로 진단율이 높습니다.

비트디펜더와 함께 G-data, Qihoo, Kaspersky, BullGuard 등이 최상위 등급(Advanced+)을 받았습니다. BullGuard는 자동 차단율은 다소 떨어졌지만, 다수의 사용자 처리 진단(36)으로 가까스로 최고 등급을 받을 수 있습니다. Qihoo가 AVIRA보다 더 높은 진단율을 보이고 있는 것이 흥미롭습니다.[각주:1]

상위 등급(Advanced)을 받은 제품들은 트렌드마이크로와 에프시큐어, AVIRA, AVAST, Tencent, ESET 등이 받았습니다. 상반기에도 비슷한 결과를 보여주었는데 AVIRA 엔진을 거의 그대로 사용하는 Tencent와 AVIRA간에 진단율의 차이가 보이고 있습니다. 기본적으로는 기본 설정의 차이이거나 진단 DB의 차이로 나타난 결과겠으나, 결론적으로는 Tencent가 전문 안티바이러스 업체가 아니기 때문에 나타난 문제로 봅니다.[각주:2]

에프시큐어는 진단율은 높았으나 오진으로 등급이 떨어졌습니다. AVG를 제외한 A 시리즈와 ESET은 체면치레는 한 것 같습니다.

하위 등급(Standard)에는 오진으로 등급이 떨어진 소포스와 피시툴즈, AVG, eScan, 판다 등이 위치하고 있습니다.

최하위 등급(Tested)에는 GFI, 맥아피, Fortinet, Webroot 그리고 국내 제품인 안랩이 위치하고 있습니다.

안랩은 오진 부분에서는 크게 문제가 되지 않았지만 진단율에 있어서 매우 저조한 점수를 받았습니다. 웹루트 제품보다는 자동 차단율이 높았으나 사용자 처리 진단 항목이 전혀 없어서 종합 점수로 최하위 점수를 받았습니다. 외국 제품에 비해 상대적으로 진단율이 낮은 현상을 타파하기 위해 외국에 샘플 수집 및 연구를 위한 연구소를 세우고 지속적으로 해외 진출을 시도하고 있지만, 만족할만한 결과를 받아보기에는 더 시간이 필요할 것 같습니다.
 
실환경 테스트는 PE 형태의 실행 파일 악성코드에 대한 진단뿐만 아니라, 이러한 악성코드를 시스템에 실행시키는 역할을 하는 익스플로잇코드 또는 악성 url 자체를 차단하는 것도 측정하기 때문에, 실질적인 성능을 보인다고도 할 수 있습니다. 안랩의 분발이 필요해보입니다. 신규 제품에 포함된 행동 기반 진단이나 더 발전된 ASD 기능을 기대해봅니다.

2. 세부 결과


2-1. 참여 제품 정보 및 테스트 환경


참여 제품의 정보는 아래와 같습니다. 거의 대부분 테스트가 이루어질 당시에 제공되는 최신 버전을 이용하나, 제작사에서 원하는 버전이 있을 겨우 해당 버전으로 테스트합니다.


테스트가 이루어진 기간과 사용된 샘플(테스트에 사용된 URL)의 수는 아래와 같습니다. 상반기위 비슷한 샘플 수 입니다.

테스트 기간

샘플 수

2012 8 10~29

488

2012 9 03~29

519

2012 10 4~28

523

2012 11 2~19

476

총 합

2006










테스트가 이루어진 환경은 아래와 같습니다.

모든 제품에게 각각 개별적인 PC가 주어졌으며, 가상화 시스템이 아닌 고유의 IP를 부여받은 "실제 시스템"에서 이루어졌습니다. 동일한 기간에 업데이트를 맞추고, 설치시 제공되는 "기본 설정"을 기준으로 진행되었습니다.

시그니처 진단, 웹 트래픽 검사(카스퍼스키)·웹브라우저 보호(노턴)같은 웹 방어 기능, URL Filtering, Anti-Fsihing, HIPS, Behavior Blocker, 클라우드 진단 기능 등 안티 바이러스 제품이 갖고 있는 모든 보호 기능이 사용되었습니다. 단, 테스트시 방화벽에서 악성코드가 실행되었으나, 악성코드가 시도한 아웃바운드 연결을 진단한 경우는 "실패"로 간주된 것 같습니다.


테스트 진단 항목은 "공격 차단 성공", "사용자 처리에 따라 다름", "차단 실패" 등 3개 항목으로 구성되어 있습니다. 이는 진단율 측정과 오진율 측정에도 동일하게 적용됩니다.

공격 차단 성공
(Block)

자동 처리를 통한 차단 성공

사용자 처리 요구 시, 설정된 권장 사항이나 기본 설정 항목을 통해
명확하게 공격을 차단할 수 있는 경우

사용자 처리에 따름
(User Dependent)

사용자 처리 요구시, 사용자의 선택에 따라 다름

공격 차단 실패
(Compromised)

자동 처리를 통한 차단 실패

사용자 처리 요구시, 위험 정보가 불명확하거나 설정된 권장 사항이 명확하게 공격 시도를 안전한 것으로 처리하는 경우



테스트는 특정 제로데이 코드나 악성코드의 차단을 측정하는 것이 아니라, 현재 사용자 PC를 공격할 수 있는 악성 URL에 직접 접속하여 최종 목표인 악성코드 실행이 차단 되었는가를 측정하게 됩니다.

따라서 1차로 웹방어 또는 시그니처 진단 기능에서 제로데이 코드나 기자 중간 단계의 공격을 차단하는 경우, 2차로 시그니처 진단과 행동 기반 진단 기능에서 제로데이 공격 또는 사용자에 의해 다운/실행된 악성코드가 시스템을 변조하기 전에 이를 차단한 경우 "공격 차단 성공"이 이루어집니다.

그리고 사용자 처리에 따라 차단/실패가 달라지는 경우를 따로 기록하고 있는데, 이는 최종 결과에 영향을 줍니다. 보호 비율(Protection RATE)을 측정할 때 사용자 처리에 따라 다른 경우는 성공/실패를 1:1로 나누어 50%만 공격 차단이 성공한 것으로 기준을 삼고 있기 때문입니다. 기본적으로 사용자는 특정 항목의 위험성을 잘 모르는 경우가 많기 때문에 사용자 처리에 따라 달라지는 경우 50%의 비율 감소는 적절한 것 같습니다.

2-2. 세부 결과


월별 그래프 - 클릭하면 큰 그림으로 볼 수 있습니다.


안랩, Fortinet의 빨간색이 유독 눈에 많이 띕니다. 8월의 경우 상당수의 제품들이 진단에 실패한 것으로 봐서, 새로운 공격 코드가 유포되었던 것이 아닌가 싶습니다. 어떤 상황이었는지는 몰라도 전반적으로 진단율이 떨어지는 상황에서도 매우 높은 진단율을 보이고 있는 비트디펜더나 트렌드마이크로, 에프시큐어 등이 대단한 것 같습니다.

아래는 진단율 결과입니다.

(※ Cluster는 보호 비율에 따른 상대적인 순위 구분으로 최종 결과의 등급별 구분과 같습니다.)

상반기와 마찬가지로 모든 제품이 90% 이상의 악성코드가 유포되는 url의 위협 요소를 차단했습니다. 최하위권과 최상위권이 대략 7% 정도 차이가 나는데, 상반기의 10%보다는 차이를 좁혔으나 만족할만한 수준은 아닙니다.

아래는 위 표의 정보를 그래프로 표시한 것입니다.



아래는 오진 및 사용자 처로 인한 차감 점수 항목입니다. 평균 오진 갯 수는 약 6개입니다. 이 평균 오진 수를 가지고 오진율 측정에서 등급을 나누기 때문에 매우 중요한 팩터라 할 수 있습니다.


상반기와 사뭇 다른 결과를 보여주고 있습니다. 상반기에 매우 준수한 오진율을 보였던 맥아피는 20개의 오진으로 최하위를 기록했으며, 역시 오진이 비교적 적었던 F-secure도 맥아피에 이어 가장 많은 오진을 기록한 제품이 되었습니다. 

웹루트를 제외한 안랩과 비트디펜더 등도 상반기에 오진이 없었던 제품들은 모두 오진이 발생했으나 평균보다 낮은 오진율로 등급이 떨어지는 것은 피할 수 있었습니다. 상반기에 다수의 사용자 처리 진단으로 등급이 떨어졌었던 어베스트는 1개 오진, 1개 사용자 처리 진단이라는 매우 준수한 성적을 보였습니다. 

 



국내에서 비교적 인기가 많은 제품들인 A 시리즈가 실환경 테스트에서 좋은 성적을 거두지 못하는 것이 눈에 띕니다. 절대적인 진단율(자동 진단)에서는 다소 떨어져도 최고 등급을 놓치지 않는 카스퍼스키가 대단한 것 같습니다.

알약이 참여하면 상당히 재미있는 결과를 보여줄 것 같은데, 특히 오리지널인 비트디펜더와의 비교가 흥미로울 것 같습니다.[각주:3]

요즘 라이센스 문제로 사용하고 있는 윈도우 디펜더, 혹은 MSE가 테스트에 빠져서 개인적으로 매우 아쉽습니다.


- 이상입니다.


 

  1. 다중 엔진의 힘!!! [본문으로]
  2. 과거 카스퍼스키 엔진을 사용했던 네이버 백신도 비슷한 상황이었던 것이 기억납니다. [본문으로]
  3. 요즘 VB100에서 진단율 문제로 인증에 실패하는 것을 볼 때 오리지널을 뛰어넘지는 못할 것으로 보이지만, 혹시 또 모르는 일이죠. [본문으로]
반응형