▶ 보안 제품 테스트 정보/:: AV-Comparatives

AV-Comparatives 웹 공격 차단 종합 성능 테스트 - Whole Dynamic TEST 2010

물여우 2010. 12. 20. 13:31
반응형
웹을 통한 외부 위험 요소를 차단하는 능력을 종합적으로 테스트하는 Whole Dynamic TEST의 2010년도 결과가 나왔습니다.


▶ 출처 :  Whole Product Dynamic Tests (by AV-Comparatves)


2010년도 AV-Comparatives의 마지막 테스트인 Whole Dynamic Test 결과가 발표되었습니다.

Whole Dynamic test가 어떤 테스트인지는 관련글의 2009년도 자료에서 이미 세세하게 밝혔습니다.

간단히 설명해 보자면 현존하는 악성코드 감염 위협의 대다수를 차지하는 "인터넷으로 연결된 웹사이트를 통해 이루어지는 악성코드 감염을 차단하는 종합적인 성능을 측정"하는 테스트입니다. 

웹을 통한 악성코드 감염을 차단하기 위해서 현재 안티 바이러스 제품에는 많은 기능이 사용됩니다. 전통적인 의심진단을 포함한 시그니처 진단과 악성 사이트를 진단하는 URL Filtering, 유해물 차단에 주로 쓰이는 Contents Filtering, 피싱 사이트 차단을 위한 Anti-Fishing, 제로 데이 코드 또는 악성코드의 실행을 차단하는 Behavir Blocker 류를 포함한 HIPS 등 다양한 진단 기능이 존재하는데, Whole Dynamic 테스트는 이러한 모든 기능을 이용하여 악성코드의 최종 감염을 차단하는지 여부를 측정하는 것입니다.

일반적으로 안티 바이러스의 성능을 측정하는 테스트에 "Dynamic"이 쓰일 경우 일반적으로 행동 기반 진단 기능을 테스트하거나 악성코드를 실행할때 안티 바이러스에서 진단되는 여부를 측정하는 것을 의미합니다.

그러나 AV-Comparatives의 경우, 제가 "웹 공격 차단 종합 성능 테스트"라 명명하였지만 실제로는 위 개념의 폭을 좀 더 넓혀서 안티 바이러스의 모든 기능을 사용하여 나타나는 종합적인 결과를 테스트하는 것으로 생각하면 될 듯 합니다. 다만, 모든 기능을 테스트하기 위한 테스트 조건으로 수 많은 종류의 보안 위협 중 웹을 통한 악성코드 감염 위협을 선택한 것입니다.

또한, 이번 테스트는 특정 기간에 이루어진 단일 테스트가 아니라 8월부터 11월까지 한 달 간격으로 총 4번의 테스트가 이루어졌습니다. 즉 지속적으로 변형되어 나타나는 위협으로부터 사용자 시스템을 얼마나 잘 보호하는지를 측정한 것입니다.

세부적인 이야기는 아래에서 다루도록 하고 결과를 살펴보도록 하겠습니다.


1. 최종 결과

최종 결과 - 등급순


최종 결과에서 놀랍게도 F-Secure가 1위를 차지하였습니다. 이후 거의 동일한 점수로 Symantec이 뒤를 이었으며 AVIRA Antivir와 Kaspersky가 최고 등급을 받았습니다.

F-secure와 Symantec의 경우 웹 사이트에서 동작하는 제로 데이 코드에 대한 전문 진단 기능(웹 보안 기능)이 존재하기에 높은 점수를 받은 것으로 생각됩니다. 안티버는 뛰어난 시그니처 휴리스틱 진단의 제로 데이 관련 코드 진단율도 높은 편이라 생각했는데, 테스트 결과 이를 잘 보여준 것 같습니다. 새롭게 추가된 Proactive 기능의 영향도 없잖아 보입니다. 종합 보안 툴로 변신을 꽤한 카스퍼스키도 역시 뛰어난 점수를 받았습니다. 

Whole Dynamic 테스트가 웹 감염을 차단하는 테스트이기 때문에, 어떤 면에서는 안티버보다도 제로데이 코드의 진단율이 높으며, 이와 관련된 추가 진단값이 존재하는 웹 보안 기능과 행동 기반 진단 기능을 갖춘 AVG와 어베스트같은 제품들도 선전할 줄 알았는데, 결과적으로 중간 정도에서 머물렀습니다. 또한 역시 웹 감시 기능이 따로 존재하며, 일부 추가적인 진단도 존재하고 뛰어난 시그니처 휴리스틱을 자랑하는 ESET은 하위권에 머물렀습니다.



2. 세부 결과 보기

2-1. 참여 제품 정보 및 테스트 환경

참여 제품의 정보는 아래와 같습니다. 거의 대부분 테스트가 이루어질 당시에 제공되는 최신 버전을 이용하였으나, 제작사에서 원하는 버전으로 테스트하였다고 합니다.

제품 버전 세부 정보


테스트가 이루어진 기간과 사용된 샘플(테스트에 사용된 URL)의 수는 아래와 같습니다.


테스트는 모든 제품에게 각각 개별적인 PC가 주어졌고, 가상화 시스템이 아닌 고유의 IP를 부여받은 "실제 시스템"에서 이루어졌습니다. 동일한 기간에 업데이트를 맞추고, 설치시 제공되는 "기본 설정"을 기준으로 진행되었습니다.

시그니처 진단, 웹 트래픽 검사(카스퍼스키)·웹브라우저 보호(노턴)같은 웹 방어 기능, URL Filtering, Anti-Fsihing, HIPS, Behavior Blocker, 클라우드 진단 기능 등 안티 바이러스 제품이 갖고 있는 모든 보호 기능이 사용되었습니다. 단, 테스트시 방화벽에서 악성코드가 실행되었으나, 악성코드가 시도한 아웃바운드 연결을 진단한 경우는 "실패"로 간주된 것 같습니다.

테스트 진행의 개별적인 도식도



테스트는 "공격 차단 성공", "사용자 처리에 따라 다름", "차단 실패"로 나뉘었습니다. 

공격 차단 성공
(Block)

자동 처리를 통한 차단 성공

사용자 처리 요구 시, 설정된 권장 사항이나 기본 설정 항목을 통해
명확하게 공격을 차단할 수 있는 경우

사용자 처리에 따름
(User Dependent)

사용자 처리 요구시, 사용자의 선택에 따라 다름

공격 차단 실패
(Compromised)

자동 처리를 통한 차단 실패

사용자 처리 요구시, 위험 정보가 불명확하거나 설정된 권장 사항이 명확하게 공격 시도를 안전한 것으로 처리하는 경우



테스트는 특정 제로데이 코드나 악성코드의 차단을 측정하는 것이 아니라, 현재 사용자 PC를 공격할 수 있는 악성 URL에 직접 접속하여 최종 목표인 악성코드 실행이 차단 되었는가를 측정하게 됩니다.

따라서 1차로 웹방어 또는 시그니처 진단 기능에서 제로데이 코드나 기자 중간 단계의 공격을 차단하는 경우, 2차로 시그니처 진단과 행동 기반 진단 기능에서 제로데이 공격 또는 사용자에 의해 다운/실행된 악성코드가 시스템을 변조하기 전에 이를 차단한 경우 "공격 차단 성공"이 이루어집니다.



2-2. 세부 결과

8월부터 11월까지 총 4번의 테스트가 이루어졌습니다.

클릭시 원본 크기로 볼 수 있습니다.



아래는 위 그래프의 결과를 종합한 수치입니다.


앞서 언급한 것처럼 사용자 처리에 따라 차단/실패가 달라지는 경우를 따로 기록하고 있습니다. 보호 비율(Protection RATE)을 측정할 때 사용자 처리에 따라 다른 경우는 성공/실패를 1:1로 나누어 50%만 공격 차단이 성공한 것으로 기준을 삼았습니다. 기본적으로 사용자는 특정 항목의 위험성을 잘 모르는 경우가 많기 때문에 사용자 처리에 따라 달라지는 경우 50%의 비율 감소는 적절한 것 같습니다.

Cluster는 보호 비율에 따른 상대적인 순위 구분으로 최종 결과의 등급별 구분과 같습니다.


점수 결과를 살펴보면 F-secure는 차단 실패는 시만텍보다 많았지만 사용자 처리 항목이 적어 실질적인 차단 비율이 높았기 때문에 1위를 차지한 것을 알 수 있습니다. 에프시큐어는 메인 엔진을 담당하는 비트디펜더가 매우 저조한 성적을 거두었기 때문에 자체엔진과 추가 기능들의 우수함을 보여준 것이라 생각됩니다. 

시만텍은 사용자 처리 항목이 많았지만 실질 차단 성능은 최고인 것으로 나타났습니다. 애초에 비전문가인 일반 사용자를 위해 대부분의 기능이 자동화된 시스템을 갖춘 시만텍 제품이지만, 클라우드 진단(평판)과 HIDS 기능(기본 설정 비활성화) 등을 잘 사용하면 더욱 뛰어난 성능을 보일 것으로 기대됩니다.


안티버의 경우 행동 기반 진단 기능도 있지만, 뛰어난 시그니처 휴리스틱 진단이 효과가 컸지 않았나 싶습니다. 카스퍼스키도 매우 좋은 결과를 보여주고 있는데, HIPS 기능과 Behavior 기능 등이 복합적으로 존재하는만큼 사용자 요구 항목도 많이 존재하는 것을 알 수 있었습니다. 

아래는 오진 항목 중 웹 관련 항목의 정보입니다. 웹 사이트 평가 사이트인 Alexa 기준으로 상위 300위에서 1000위권 사이트에서 나타난 오진이라고 합니다.


의외로 안티버같은 제품이 오진이 없었는데, 안티버에서 자주 나타나는 웹 사이트내의 코드 오진은 해당 사이트에서 표준(공식적인 것은 아니지만)을 지키지 않은 것 등으로 인해 많이 발생하지 않았나 유추해봅니다.

이 외에도 다운로드 관련 오진도 측정했는데 웹 오진과 함께 사용된 White list 개체수가 적어 이번 테스트에서는 결과에 반영하지 않았다고 합니다.




최근에 공개된 [AV-TEST]와 비교하여 보면 더욱 유용한 정보가 아닐까 생각됩니다.

AV-Comparatives와 "Whole Dynamic TEST"와 AV-TEST의 테스트 항목 중 "Protection against 0-day malware attacks from the internet / Blocking of malware on or post execution"이 유사한 테스트 항목이라 할 수 있습니다.

AV-TEST의 "Protection against 0-day malware attacks from the internet" 항목은 인터넷 상의 웹사이트의 제로데이 익스플로잇(Exploit) 공격을 차단하는 것을 측정한 것이고, "Blocking of malware on or post execution" 항목은 실제 악성코드를 실행시켜 행동 기반 진단 기능의 진단 여부를 측정한 것인데, 이 둘을 합치면 Whole Dynamic TEST와 유사해집니다.

AV-TEST의 첫번째 테스트가 제로데이 악성코드를 이용했다고 해서 Whole Dynmaic TEST처럼 PE 구조의 실제 악성코드를 실행한 것은 아닙니다. 통합적인 성능을 테스트한 Whole Dynamic TEST와 항목을 분리하여 성능을 테스트한 AV-TEST의 방식은 각기 장단점이 있어 어느 테스트가 우월하고 더 객관적이다라고 할 이유는 없는 것 같습니다. 

다만 AV-TEST의 경우 사용자 처리 항목에 대한 세부 분류가 없기 때문에, 일반 사용자의 입장(AV-Comparatvies의 설정 환경)에서 보면 실제 환경보다 좀 더 높은 점수를 받은 제품들이 있을 수 있습니다.

결과를 살펴보면 노턴, 카스퍼스키와 같이 비슷한 수준의 성능을 보인 제품들도 있지만 몇몇 제품은 순위가 뒤바뀐 것을 확인할 수 있습니다. 특히 PCTools 제품의 경우 AV-TEST에서 행동 기반 진단 기능이 만점을 받은 것과 이번 결과가 비교됩니다. 이는 앞서 언급한 것처럼 사용자 처리 항목에 따라 달라진 것으로 보입니다. AV-Comparatives에서는 특정 진단이 명확하게 악성코드 또는 악성코드의 행동을 보여주지 않으면 사용자 처리 또는 차단 실패로 기록되기 때문입니다.

이런 점들을 잘 고려해보면 특정 제품은 종합적인 악성코드 차단 성능은 높으나 사용자의 처리 능력이 필요하거나, 이와 반대로 성능을 조금 떨어져도 사용자의 처리 능력이 상대적으로 필요치 않은 제품들이 조금은 보이는 것 같습니다.

개인적인 구분에서 위와 같이 성능과 사용자 처리 능력의 필요성 종합적으로 생각해보면 역시 노턴(시만텍)과 카스퍼스키 같은 제품이 뛰어난 것 같습니다. 세계적으로 인기를 끄는 제품은 다 이유가 있는 법이 아닐까 합니다.

비록 다양한 테스트에서 성능이 떨어지는 것처럼 보이지만 시만텍에 이어 점유율 2위, 3위를 차지하고 있는 맥아피나 트렌드 마이크로처럼 기업 시장에서의 인기를 바탕으로 한 제품들은 진단 성능도 중요하지만, 위 테스트에서는 밝히기 어려운 하드웨어 장비를 포함한 통합 보안과, 사후 관리 등 개인 사용자와는 다른 중요한 팩트들에서 강점이 있다 생각합니다.


- 이상입니다.

반응형