▶ 보안 제품 테스트 정보/:: AV-Comparatives

AV-Comparatives 웹 공격 차단 종합 성능 테스트 - Dynamic Real-World TEST 2012 (상반기)

물여우 2012. 7. 20. 19:20
반응형
웹을  통한 외부 위험 요소를 차단하는 능력을 종합적으로 테스트하는 Whole Product Dynamic TEST의 2012년도 상반기 테스트 결과가 나왔습니다.




AV-Comparatives의 테스트 중 하나인 Dynamic (Real-World) Test 결과가 발표되었습니다.

실환경 테스트라 의역할 수 있는 Dynamic test는 현존하는 악성코드 감염 위협의 대다수를 차지하는 "인터넷으로 연결된 웹사이트를 통해 이루어지는 악성코드 감염을 차단하는 종합적인 성능을 측정"하는 테스트입니다. 최근과 같이 웹을 통한 악성코드 유포가 극심한 상황에 대한 보안 제품의 실질적인 차단 능력을 볼 수 있는 매우 유용한 테스트라 할 수 있습니다.

(※ Whole Dynamic test가 어떤 테스트인지는 관련글의 2009년를 참고 바랍니다.)


전통적인 의심진단을 포함한 시그니처 진단과 악성 사이트를 진단하는 URL Filtering, 유해물 차단에 주로 쓰이는 Contents Filtering, 피싱 사이트 차단을 위한 Anti-Fishing, 제로 데이 코드 또는 악성코드의 실행을 차단하는 Behavir Blocker 류를 포함한 HIPS 등 다양한 진단 기능으로 악성 요소를 얼마나 많이 차단하는지를 측정합니다.

해당 테스트 결과는 특정 기간에 이루어진 단일 항목이 아니라 2012년 3월부터 6월까지 총 4번의 개별 테스트들의 결과를 종합한 것입니다. 


1. 최종 결과


최종 결과 - 등급별 구분


'*' 표시는 오진(웹사이트 위험도 평가, 스크립트 및 다운로드 파일 오진 등) 및 사용자 처리 요구 등이 많아 등급이 떨어진 것을 의미합니다.

이번 테스트에 1위를 차지한 제품은 비트디펜더입니다. 최근 들어 각종 테스트에서 매우 좋은 성적을 보여주고 있는 비트디펜더는 이번 테스트 기간 동안 오진이 하나도 없었고 2159개에 달하는 샘플 url 중 단 9개에 대해서만 진단에 실패하여 1위를 차지하였습니다. 참고로 작년 하반기 성적으로 1위를 차지했던 시만텍은 테스트에 참여 자체를 하지 않았습니다.

비트디펜더를 이어 최상위 그룹에는 듀얼 엔진을 사용하는 G-data와 카스퍼스키, 에프시큐어 등 기존에 뛰어난 성적을 보이던 제품들이 역시 좋은 결과를 보여주었습니다.

2위 그룹은 상위 그룹(Advanced)에는 ESET과 AVIRA, AVG, Panda 등이 위치했으며, 비트디펜더 엔진을 사용하는 BullGuard는 오진으로 인해 등급이 하락되어 상위 그룹에 위치하였습니다. 높은 사전 진단을 자랑했던 ESET이나 AVIRA 등이 해당 테스트에서 상대적으로 좋지 않은 성적을 거두는 것을 보면, PE 파일에 대한 높은 민감도나 일부 스크립트에 대한 사전 진단만으로는 현재 웹을 통해 유포되는 위협 요소를 모두 차단하는데에는 한계가 있다 할 수 있겠습니다.

하위권(Standard) 그룹에는 AVAST와 소포스, 트렌드 마이크로, 맥아피 등이 위치하였습니다. 어베스트나 소포스, 트렌드 마이크로는 모두 오진으로 인해 등급이 하락하였습니다. 어베스트는 최상위급에 근접한 진단 성능을 보여주었지만, '사용자 처리' 항목이 높아 등급이 낮아지게 되었습니다. 진단 성능조차 좋지 않았던 작년 하반기에 비하면, 상당히 개선된 모습을 보여주긴 했지만 제품 자체의 특성에 따른 등급 하락은 막을 수 없었던 것 같습니다.
 
작년에 좋은 모습을 보여주었던 다중 엔진 제품 Qihoo은 이번 테스트에서도 좋은 성적을 거두었으며, Qihoo와 같이 중국산 제품인 Tencent는 하위권에 머물렀습니다. Tancent는 AVIRA 엔진과 자체 엔진등을 사용한다고 알려져 있는데, DB 문제로 인해 등급이 낮아진 것 같습니다.

국내 제품 중 유일하게 AV-Comparatives에 참여중인 안랩은 웹루트와 함께 최하위 등급을 받았습니다. 오진은 비록 없었으나, 진단율이 타 제품에 비해 다소 뒤떨어져 상대 등급을 부여하는 테스트 특성 상 최하위권에 머물고 말았습니다. 사실 안랩은 현재 타 제품에 비해 실행 파일과 중간 스크립트들에 대한 사전 진단이 딱히 뛰어난 편이 아닌데다가 클라우드 진단 외에 행동 기반 진단이나 웹필터링 기능이 따로 없기 때문에, 이번 테스트의 결과는 어느 정도는 예견된 결과가 아니었나 생각합니다.


2. 세부 결과

2-1. 참여 제품 정보 및 테스트 환경

참여 제품의 정보는 아래와 같습니다. 거의 대부분 테스트가 이루어질 당시에 제공되는 최신 버전을 이용하나, 제작사에서 원하는 버전이 있을 겨우 해당 버전으로 테스트합니다.


테스트가 이루어진 기간과 사용된 샘플(테스트에 사용된 URL)의 수는 아래와 같습니다.

테스트 기간

샘플 수

2012 3 5~27

512

2012 4 2~23

492

2012 5 4~22

464

2012 6 4~23

691

총 합

2159









작년 하반기에 비해서 샘플 수는 소폭 증가하였습니다.

테스트는 모든 제품에게 각각 개별적인 PC가 주어졌고, 가상화 시스템이 아닌 고유의 IP를 부여받은 "실제 시스템"에서 이루어졌습니다. 동일한 기간에 업데이트를 맞추고, 설치시 제공되는 "기본 설정"을 기준으로 진행되었습니다.

시그니처 진단, 웹 트래픽 검사(카스퍼스키)·웹브라우저 보호(노턴)같은 웹 방어 기능, URL Filtering, Anti-Fsihing, HIPS, Behavior Blocker, 클라우드 진단 기능 등 안티 바이러스 제품이 갖고 있는 모든 보호 기능이 사용되었습니다. 단, 테스트시 방화벽에서 악성코드가 실행되었으나, 악성코드가 시도한 아웃바운드 연결을 진단한 경우는 "실패"로 간주된 것 같습니다.


테스트는 "공격 차단 성공", "사용자 처리에 따라 다름", "차단 실패"로 나뉘었습니다. 

공격 차단 성공
(Block)

자동 처리를 통한 차단 성공

사용자 처리 요구 시, 설정된 권장 사항이나 기본 설정 항목을 통해
명확하게 공격을 차단할 수 있는 경우

사용자 처리에 따름
(User Dependent)

사용자 처리 요구시, 사용자의 선택에 따라 다름

공격 차단 실패
(Compromised)

자동 처리를 통한 차단 실패

사용자 처리 요구시, 위험 정보가 불명확하거나 설정된 권장 사항이 명확하게 공격 시도를 안전한 것으로 처리하는 경우



테스트는 특정 제로데이 코드나 악성코드의 차단을 측정하는 것이 아니라, 현재 사용자 PC를 공격할 수 있는 악성 URL에 직접 접속하여 최종 목표인 악성코드 실행이 차단 되었는가를 측정하게 됩니다.

따라서 1차로 웹방어 또는 시그니처 진단 기능에서 제로데이 코드나 기자 중간 단계의 공격을 차단하는 경우, 2차로 시그니처 진단과 행동 기반 진단 기능에서 제로데이 공격 또는 사용자에 의해 다운/실행된 악성코드가 시스템을 변조하기 전에 이를 차단한 경우 "공격 차단 성공"이 이루어집니다.

그리고 사용자 처리에 따라 차단/실패가 달라지는 경우를 따로 기록하고 있는데, 이는 최종 결과에 영향을 줍니다. 보호 비율(Protection RATE)을 측정할 때 사용자 처리에 따라 다른 경우는 성공/실패를 1:1로 나누어 50%만 공격 차단이 성공한 것으로 기준을 삼고 있기 때문입니다. 기본적으로 사용자는 특정 항목의 위험성을 잘 모르는 경우가 많기 때문에 사용자 처리에 따라 달라지는 경우 50%의 비율 감소는 적절한 것 같습니다.


2-2. 세부 결과

월별 그래프 - 클릭하면 큰 그림으로 볼 수 있습니다.


아래는 종합 결과입니다.
(※ Cluster는 보호 비율에 따른 상대적인 순위 구분으로 최종 결과의 등급별 구분과 같습니다.)

모든 제품이 90% 이상의 악성코드가 유포되는 url의 위협 요소를 차단했습니다. 결과 자체는 준수합니다만 최하위권과 최상위권이 대략 10% 가까이 차이가 나기 때문에 제품간 보안 위협에 대한 차단 성능에 절대적인 차이가 없다고는 할 수 없겠습니다. 아래는 위 표의 정보를 그래프로 표시한 것입니다.


아래는 오진 및 사용자 처로 인한 차감 점수 항목입니다. 평균은 약 7개의 오진입니다. 평균 오진율보다 높은 오진을 보인 제품은 등급이 한 단계 하락함으로 평균값은 상당히 중요합니다.

지난 하반기에 비해 오진이 전반적으로 줄었습니다만 트렌드 마이크로같은 경우는 여전히 높은 오진을 보이고 있습니다. 어베스트는 앞서 언급한 것처럼 오진은 없었지만 '사용자 처리' 항목의 비중이 높아 등급이 떨어진 것을 확인할 수 있습니다. GFI나 BullGuard의 오진은 상당히 심각한 수준인 것을 알 수 있습니다.

안랩 제품의 오진이 없는 이유는 안정성이 높기 때문이라기보다는 시그니처 진단외에 추가적인 진단 기능이 없었기 때문이라 생각합니다. 차기 제품에는 여러 가지 기능들이 추가되는 것으로 알려졌는데, 실환경 테스트에서 얼마나 좋은 성적을 거둘지 궁금해집니다.

 



안랩이 실환경 테스트에서 참여를 했습니다. 지난 누적 진단율 테스트와 마찬가지로 좋은 결과를 받지는 못했습니다만 국내 제품 중 최초로 참여를 했다는 것 자체가 고무적인 일이라 생각합니다.


- 이상입니다.

반응형