모델 성능 평가 지표 F1 스코어와 ROC AUC 곡선 해석법

요즘 뉴스만 켜면 온통 인공지능 이야기뿐입니다.

새로운 AI 모델이 그림을 그리고, 작곡을 하고, 심지어 사람처럼 대화까지 나눈다고 하죠.

이런 소식을 접할 때마다 어떤 마음이 드시나요?

혹시 나만 세상의 변화를 따라가지 못하는 것 같아 불안하지는 않으신가요?

F1 스코어, ROC AUC 같은 외계어처럼 들리는 용어들이 우리와 기술 사이에 거대한 벽을 만드는 것처럼 느껴질 때도 있습니다.

마치 중요한 대화에 나만 초대받지 못한 채, 창밖에서 들여다보는 기분일지도 모릅니다.

하지만 괜찮습니다. 처음에는 모든 것이 낯설고 어렵게 느껴지는 게 당연하니까요.

기술은 우리를 소외시키기 위해 존재하는 것이 아닙니다.

오히려 우리의 삶을 더 편리하고 풍요롭게 만들기 위한, 결국은 사람을 위한 도구일 뿐입니다.

오늘 우리는 그 높고 단단해 보이는 벽에 작은 문을 하나 내보려고 합니다.

복잡한 수식이나 어려운 전문 용어는 잠시 잊으셔도 좋습니다.

대신, 우리에게 익숙한 이야기와 비유를 통해 AI가 세상을 어떻게 배우고, 우리는 그 AI의 똑똑함을 어떻게 알아볼 수 있는지 함께 여행을 떠나보려 합니다.

이 글이 끝날 때쯤, 여러분은 더 이상 AI라는 단어 앞에서 주눅 들지 않고, 오히려 그 가능성을 기대하며 미소 짓게 될지도 모릅니다.

AI가 똑똑하다는 건, 대체 무슨 뜻일까요?

우리는 흔히 AI가 똑똑하다고 말합니다.

하지만 AI의 똑똑함은 사람의 그것과는 조금 다릅니다.

마치 갓 세상에 태어나 모든 것을 처음부터 배워야 하는 아기와 같다고 생각하면 쉽습니다.

이 똑똑한 아기에게 우리는 수많은 데이터를 보여주며 세상을 가르칩니다.

예를 들어, 사과 사진 수만 장을 보여주며 어떤 것이 잘 익은 사과이고, 어떤 것이 썩은 사과인지 알려주는 것이죠.

AI는 이 사진들을 보면서 썩은 사과의 특징, 예를 들어 검은 반점이나 쭈글쭈글한 표면 같은 것들을 스스로 학습합니다.

수많은 학습을 마친 AI에게 이제 시험을 볼 시간입니다.

우리는 AI에게 한 번도 본 적 없는 새로운 사과 사진들을 보여주며 썩은 사과를 골라내 보라고 합니다.

이때 AI가 얼마나 정확하게 썩은 사과를 찾아내는지를 보고, 우리는 이 AI가 얼마나 똑똑한지, 즉 성능이 좋은지를 판단하게 됩니다.

이것이 바로 모델 성능 평가의 기본 개념입니다.

그런데, 단순히 정답을 많이 맞혔다고 해서 무조건 똑똑한 AI라고 할 수 있을까요?

상황에 따라서는 그렇지 않을 수도 있습니다.

예를 들어, 1,000개의 사과 중에 썩은 사과가 단 10개뿐인 극단적인 상황을 상상해 보세요.

만약 AI가 게으름을 피우거나 편법을 써서, 모든 사과를 전부 “멀쩡하다”고 말해버리면 어떨까요?

놀랍게도, 이 AI는 990개의 멀쩡한 사과를 정확히 맞혔습니다. 전체 정답률, 즉 정확도는 99%나 됩니다. 굉장히 똑똑해 보이죠?

하지만 정작 가장 중요한 임무였던 ‘썩은 사과 찾아내기’는 완벽하게 실패했습니다. 단 하나의 썩은 사과도 찾아내지 못했으니까요.

이런 AI는 실제 과수원에서는 아무 쓸모가 없을 겁니다. 오히려 큰 피해를 입히겠죠.

그래서 우리는 단순히 전체 정답률만 보는 것이 아니라, 더 다양한 관점에서 AI의 실력을 꼼꼼하게 따져봐야 합니다.

AI가 어떤 종류의 실수를 했는지, 그리고 그 실수가 얼마나 치명적인 결과를 낳는지를 함께 살펴봐야 하는 것이죠.

AI를 평가한다는 것은, 마치 신입사원의 업무 능력을 평가하는 것과 비슷합니다.

일을 얼마나 빨리 처리하는지도 중요하지만, 얼마나 꼼꼼하게 실수 없이 처리하는지, 또 중요한 업무를 놓치지는 않는지를 종합적으로 봐야 진짜 실력을 알 수 있는 것처럼 말이죠.

AI의 세계에서는 이러한 다각적인 평가를 도와주는 여러 가지 기준, 즉 ‘평가 지표’가 있습니다.

그중에서도 가장 널리 쓰이는 두 친구가 바로 오늘 우리가 알아볼 F1 스코어와 ROC AUC입니다.

이름만 들으면 어렵게 느껴지지만, 그 속을 들여다보면 사실은 AI의 실수를 어떻게 바라볼 것인가에 대한 깊은 지혜가 담겨 있습니다.

이제부터 우리는 이 두 친구와 함께 AI의 진짜 실력을 알아보는 여정을 시작할 겁니다.

그러기 위해선 AI가 저지르는 두 가지 큰 실수에 대해 먼저 이야기해야 합니다. 이 실수들을 이해하는 것이 모든 이야기의 출발점입니다.

첫 번째 실수는 ‘멀쩡한 것을 썩었다고 잘못 판단하는 것’입니다. 억울한 누명을 씌우는 실수죠.

두 번째 실수는 ‘썩은 것을 멀쩡하다고 놓치는 것’입니다. 반드시 잡아야 할 범인을 놓아주는 위험한 실수입니다.

이 두 가지 실수는 성격이 완전히 다릅니다. 상황에 따라 둘 중 하나의 실수가 훨씬 더 치명적일 수 있습니다.

AI를 평가한다는 것은 결국 이 두 가지 실수 사이에서 어떻게 균형을 잡을 것인지를 결정하는 과정이기도 합니다.

어떤 실수를 더 용납할 수 없는지에 따라 우리는 AI에게 다른 역할을 기대하게 됩니다.

이것이 바로 AI 기술이 단순히 차가운 숫자의 세계가 아니라, 우리의 가치 판단이 개입되는 인간적인 영역임을 보여주는 증거입니다.

기술을 이해한다는 것은, 이처럼 기술 속에 숨어있는 사람의 생각과 고민을 함께 들여다보는 과정입니다.

AI의 첫 번째 시험: 얼마나 꼼꼼하게 골라냈나요? (정밀도, Precision)

다시 썩은 사과를 골라내는 AI 이야기로 돌아가 보겠습니다.

AI가 열심히 일해서 ‘이것들은 썩었다’고 판단한 사과들을 한 바구니에 모아두었습니다.

우리는 이 바구니를 들여다보며 AI의 첫 번째 실력을 평가해볼 수 있습니다.

바로 AI가 얼마나 꼼꼼하게, 실수 없이 진짜 썩은 사과들만 골라 담았는지를 확인하는 것입니다.

바구니를 살펴보니, AI가 썩었다고 고른 사과 10개 중에 8개는 진짜 썩은 사과였지만, 2개는 아깝게도 멀쩡한 사과였습니다.

이 2개의 멀쩡한 사과는 AI가 저지른 첫 번째 종류의 실수, 즉 ‘억울한 누명을 쓴 실수’입니다.

멀쩡한 사과 입장에서는 썩었다는 누명을 썼으니 정말 억울할 겁니다. 이런 실수를 ‘거짓 양성’이라고도 부릅니다.

AI가 썩었다고 판단한 것들 중에서, 이 ‘억울한 실수’가 적으면 적을수록 우리는 AI의 판단을 더 신뢰할 수 있게 됩니다.

AI가 “이건 썩었어요!”라고 외쳤을 때, 그 말이 사실일 확률이 높다는 뜻이니까요.

이처럼 AI의 예측이 얼마나 정밀하고 정확한지를 나타내는 지표를 전문 용어로는 ‘정밀도’라고 부릅니다.

하지만 우리는 그냥 ‘AI의 꼼꼼함 점수’라고 생각해도 좋습니다.

꼼꼼함 점수가 높다는 것은 AI가 매우 신중하게 판단해서, 웬만해서는 멀쩡한 것을 썩었다고 실수하지 않는다는 의미입니다.

이 꼼꼼함 점수, 즉 정밀도가 왜 중요할까요?

스팸 메일 필터를 생각해보면 그 중요성을 쉽게 이해할 수 있습니다.

스팸 필터 AI의 임무는 광고나 바이러스가 담긴 스팸 메일을 걸러내는 것입니다.

이때 AI가 멀쩡한 메일, 예를 들어 중요한 계약서나 친구가 보낸 약속 확인 메일을 스팸 메일이라고 잘못 판단해서 스팸 메일함으로 보내버리면 어떻게 될까요?

우리는 중요한 계약을 놓치거나, 소중한 약속을 잊어버리는 등 큰 곤란을 겪을 수 있습니다.

이것이 바로 ‘억울한 실수’가 매우 치명적인 결과를 낳는 대표적인 상황입니다.

차라리 스팸 메일 몇 개를 놓쳐서 받은 편지함에서 직접 삭제하는 번거로움이 있더라도, 단 하나의 중요한 메일을 놓치는 것은 절대로 피하고 싶을 겁니다.

따라서 스팸 필터 AI에게는 다른 무엇보다도 이 꼼꼼함 점수(정밀도)가 필수적입니다.

함부로 멀쩡한 메일을 스팸으로 판단해서는 안 되는 것이죠. 즉, 스팸 필터 AI가 “이건 스팸이야!”라고 판단했다면, 그 판단은 매우 신뢰할 수 있어야 합니다.

유튜브의 영상 추천 시스템도 마찬가지입니다.

내가 전혀 관심 없는 영상을 몇 번 추천하는 실수는 괜찮습니다. 그냥 무시하면 그만이니까요.

하지만 내가 정말 싫어하거나 불쾌감을 느끼는 영상을 추천하는 실수는 사용자에게 매우 나쁜 경험을 주게 됩니다.

AI가 “당신이 좋아할 만한 영상입니다”라고 내놓은 추천이, 실제로 내가 좋아할 확률이 높아야만 시스템을 신뢰하고 계속 사용하게 됩니다. 이 역시 AI의 꼼꼼함, 즉 신중한 판단 능력이 중요해지는 순간입니다.

결국 AI의 꼼꼼함 점수는 AI가 내린 긍정적인 판단(예: “이것은 스팸이다”, “이것은 추천 영상이다”)을 우리가 얼마나 믿을 수 있는지를 알려주는 지표입니다.

이 점수가 높을수록 AI의 판단은 더 큰 신뢰를 얻게 됩니다.

AI는 단순히 정답을 맞히는 기계가 아니라, 때로는 신중하고 꼼꼼하게, 때로는 대담하게 결정을 내려야 하는 판단의 주체이기도 합니다.

우리는 이 꼼꼼함 점수를 통해 AI의 성격을 엿볼 수 있습니다. 이 AI가 얼마나 신중한 성격인지, 섣부른 판단을 하지는 않는지를 말이죠.

하지만 꼼꼼하기만 하다고 해서 항상 좋은 AI일까요?

너무 신중한 나머지, 정작 잡아야 할 것을 모조리 놓친다면 그것 또한 큰 문제가 될 수 있습니다.

이제 AI의 또 다른 실력, 두 번째 시험에 대해 이야기해 볼 시간입니다.

AI의 두 번째 시험: 혹시 놓친 것은 없나요? (재현율, Recall)

다시 과수원으로 돌아왔습니다.

이번에는 AI가 썩었다고 골라낸 바구니가 아니라, 과수원 전체에 ‘실제로 존재했던’ 썩은 사과들에 주목해 보겠습니다.

과수원 전체에 진짜 썩은 사과가 총 10개 있었다고 가정해 봅시다.

AI는 열심히 일을 해서 그중 8개를 찾아냈습니다. 하지만 안타깝게도 2개는 미처 발견하지 못하고, 멀쩡한 사과라고 판단해버렸습니다.

이 2개의 썩은 사과는 AI가 저지른 두 번째 종류의 실수, 바로 ‘잡아야 할 범인을 놓친 실수’입니다.

썩었는데 멀쩡하다고 놓쳐버린 것이죠. 이런 실수는 ‘거짓 음성’이라고 불리며, 때로는 앞선 실수보다 훨씬 더 위험할 수 있습니다.

썩은 사과 하나가 상자 안의 다른 멀쩡한 사과들까지 모두 썩게 만들 수 있기 때문에, 단 하나라도 놓치는 것은 매우 위험한 결과를 초래할 수 있습니다.

AI가 실제로 존재하는 문제들을 얼마나 빠짐없이, 놓치지 않고 잘 찾아내는지를 나타내는 지표를 전문 용어로는 ‘재현율’이라고 합니다.

우리는 이것을 ‘AI의 적극성 점수’라고 이해하면 쉽습니다.

적극성 점수가 높다는 것은 AI가 마치 촘촘한 그물로 물고기를 잡듯이, 잡아야 할 대상을 거의 놓치지 않고 모두 찾아낸다는 의미입니다.

이 적극성 점수는 어떤 상황에서 특히 중요할까요?

병원에서 환자의 질병을 진단하는 AI를 상상해 보세요. 이 AI의 임무는 CT나 MRI 영상에서 암과 같은 심각한 질병의 징후를 찾아내는 것입니다.

만약 AI가 실제로는 암에 걸린 환자를 ‘건강하다’고 잘못 판단하면 어떻게 될까요?

환자는 치료를 시작할 수 있는 소중한 ‘골든 타임’을 놓치게 되고, 결국 생명이 위험해질 수도 있습니다.

이것이 바로 ‘놓치는 실수’가 절대로 일어나서는 안 되는, 매우 심각한 상황입니다.

차라리 건강한 사람 몇 명에게 암이 의심된다고 경고해서, 추가 검사를 받게 하는 편이 훨씬 낫습니다.

물론 그 과정에서 당사자는 약간의 불안감을 느끼고 추가적인 비용이 발생하겠지만, 실제 암 환자 한 명을 놓치는 비극과는 비교할 수 없는 일입니다.

따라서 질병 진단 AI에게는 앞서 말한 ‘꼼꼼함 점수(정밀도)‘보다 이 ‘적극성 점수(재현율)‘가 훨씬 더 중요합니다.

단 한 명의 환자라도 놓치지 않는 것이 시스템의 최우선 목표가 되어야 하기 때문입니다.

금융 사기 탐지 시스템도 마찬가지입니다.

카드 회사는 고객의 카드가 평소와 다른 패턴으로 사용되는 것을 감지하는 AI를 사용합니다.

이때 AI가 실제 금융 사기를 놓치게 되면 고객은 수백, 수천만 원의 금전적 피해를 입게 됩니다. ‘놓치는 실수’의 대가가 매우 크죠.

가끔 해외에서 멀쩡한 결제를 했는데 금융 사기로 오해해서 승인을 거절하는 불편함이 있더라도(꼼꼼함 점수가 낮은 상황), 실제 사기 거래를 놓쳐서 발생하는 막대한 피해보다는 훨씬 낫습니다.

이처럼 우리는 AI를 개발하고 평가할 때, 어떤 실수를 더 심각하게 받아들일지 결정해야 합니다.

억울한 실수를 줄이는 데 집중할 것인가, 아니면 위험한 실수를 줄이는 데 집중할 것인가.

이는 기술의 문제가 아니라, 우리가 무엇을 더 중요하게 생각하는지에 대한 가치의 문제입니다.

적극성 점수가 높은 AI는 조금 설레발을 치더라도, 일단 의심스러운 것은 모두 보고하고 보는 부지런하고 적극적인 직원의 모습과 닮았습니다.

이런 AI는 우리가 절대 놓치면 안 되는 중요한 신호를 감지하는 데 큰 도움을 줍니다.

하지만 여기서 한 가지 근본적인 질문이 생깁니다. 꼼꼼하면서 동시에 적극적일 수는 없을까요?

실수 없이 정확하게 골라내면서, 동시에 하나도 놓치지 않는 완벽한 AI는 존재할 수 없는 걸까요?

이 어려운 질문에 대한 답을 찾아가는 과정에서, 우리는 F1 스코어라는 새로운 친구를 만나게 됩니다.

꼼꼼함과 적극성, 두 마리 토끼를 다 잡을 수는 없을까요? (F1 스코어)

앞서 우리는 AI의 두 가지 중요한 실력, ‘꼼꼼함 점수(정밀도)‘와 ‘적극성 점수(재현율)‘에 대해 알아보았습니다.

꼼꼼함은 억울한 실수를 하지 않는 능력, 즉 신중함을 의미합니다.

적극성은 위험한 실수를 하지 않는 능력, 즉 빠짐없이 찾아내는 능력을 의미합니다.

그런데 이 두 가지 능력은 서로를 견제하는 관계에 있는 경우가 많습니다.

마치 시소의 양 끝에 앉아 있는 것처럼, 한쪽의 점수를 높이려고 하면 다른 한쪽의 점수가 내려가는 경향이 있습니다. 이를 ‘트레이드오프’ 관계라고 합니다.

왜 그럴까요? 썩은 사과를 고르는 AI를 다시 떠올려 봅시다.

AI의 꼼꼼함 점수를 극단적으로 높이려면 어떻게 해야 할까요?

AI는 ‘이건 100% 썩었다’고 확신하는 사과가 아니면, 절대로 썩었다고 말하지 않으면 됩니다.

조금이라도 애매하면 그냥 멀쩡하다고 판단하는 것이죠. 매우 보수적인 기준을 적용하는 겁니다.

이렇게 하면 멀쩡한 사과를 썩었다고 하는 ‘억울한 실수’는 거의 저지르지 않게 됩니다. 꼼꼼함 점수는 100점에 가까워지겠죠.

하지만 그 대가로, 약간 썩기 시작한 애매한 사과들은 모두 놓치게 될 겁니다. ‘위험한 실수’가 늘어나고, 적극성 점수는 뚝 떨어집니다.

반대로, 적극성 점수를 극단적으로 높이려면 어떻게 해야 할까요?

AI는 조금이라도 의심스러우면 일단 전부 썩었다고 말하면 됩니다. 매우 관대한 기준을 적용하는 것이죠.

검은 점이 아주 작게만 보여도, 모양이 살짝만 이상해도 모두 썩었다고 판단하는 겁니다.

이렇게 하면 실제 썩은 사과를 놓치는 ‘위험한 실수’는 거의 사라질 겁니다. 적극성 점수는 100점에 가까워집니다.

하지만 그 결과, 수많은 멀쩡한 사과들이 억울하게 썩었다는 판정을 받게 되겠죠. 꼼꼼함 점수는 바닥으로 곤두박질칠 겁니다.

이처럼 꼼꼼함과 적극성은 서로 상충하는 관계에 있기 때문에, 우리는 두 점수를 모두 고려하여 균형 잡힌 평가를 내릴 필요가 있습니다.

이때 등장하는 것이 바로 F1 스코어입니다.

F1 스코어는 이 꼼꼼함 점수와 적극성 점수를 조화롭게 평균 내어 하나의 숫자로 보여주는 아주 현명한 지표입니다.

여기서 중요한 것은, 단순히 두 점수를 더해서 반으로 나누는 ‘산술 평균’이 아니라, ‘조화 평균’이라는 조금 특별한 방식을 사용한다는 점입니다.

조화 평균의 가장 큰 특징은 두 점수 중 낮은 쪽에 더 큰 가중치를 두어 전체 평균을 계산한다는 것입니다.

예를 들어, 어떤 AI의 꼼꼼함 점수가 100점 만점에 90점, 적극성 점수가 10점이라고 해봅시다.

일반적인 산술 평균으로는 (90 + 10) / 2 = 50점이라는 나쁘지 않은 점수가 나옵니다.

하지만 F1 스코어(조화 평균)는 이보다 훨씬 낮은 18점에 불과합니다. 한쪽 점수가 극단적으로 낮으면, 전체 균형이 심각하게 깨졌다고 보고 점수를 크게 깎는 것입니다.

마치 팀 프로젝트에서 한 명만 100점을 받고 나머지 팀원들이 모두 0점을 받으면, 그 팀의 최종 성과는 결코 좋게 평가받을 수 없는 것과 같습니다.

F1 스코어는 꼼꼼함과 적극성, 두 능력이 모두 어느 정도 수준 이상으로 좋을 때 비로소 높은 점수를 줍니다.

한쪽으로 너무 치우치지 않고, 두 능력을 모두 균형 있게 갖춘 AI를 더 높게 평가하는 것이죠.

그래서 우리가 여러 AI 모델의 전반적인 성능을 하나의 숫자로 간단하게 비교하고 싶을 때, 이 F1 스코어는 아주 유용한 기준이 되어 줍니다.

어떤 AI가 더 균형 잡힌 실력을 가졌는지 한눈에 알 수 있게 해주니까요.

결국 F1 스코어는 우리에게 중요한 교훈을 줍니다.

세상에는 한 가지 기준으로만 평가할 수 없는 복잡한 문제들이 많다는 것, 그리고 좋은 판단이란 어느 한쪽으로 치우치지 않는 균형 감각에서 나온다는 사실을 말이죠.

상황에 따라 달라지는 마음, 어떤 실수를 더 피해야 할까요?

F1 스코어는 꼼꼼함(정밀도)과 적극성(재현율)의 균형을 알려주는 훌륭한 지표입니다.

하지만 모든 상황에서 이 둘의 균형이 50:50으로 똑같이 중요할까요?

앞서 살펴본 것처럼, 스팸 메일을 거를 때와 암을 진단할 때는 우리가 중요하게 생각하는 가치가 다릅니다.

스팸 메일 필터는 ‘억울한 실수’를 피하는 것이 더 중요하고(꼼꼼함 > 적극성), 암 진단 AI는 ‘위험한 실수’를 피하는 것이 훨씬 더 중요합니다(적극성 > 꼼꼼함).

이처럼 AI가 해결해야 할 문제의 성격에 따라, 우리는 꼼꼼함과 적극성 중 어느 한쪽에 조금 더 무게를 두어야 할 때가 있습니다.

마치 저울의 추를 옮기듯이, 상황에 맞게 평가의 기준을 유연하게 조절하는 지혜가 필요한 것이죠.

다행히도 우리는 F1 스코어를 변형하여 이런 가중치를 부여할 수 있습니다. (이를 F-beta 스코어라고 합니다.)

암 진단 AI를 개발하는 상황을 다시 생각해 봅시다.

우리의 최우선 목표는 단 한 명의 환자도 놓치지 않는 것, 즉 적극성 점수를 최대한 높이는 것입니다.

이때는 F1 스코어처럼 두 점수를 1:1로 보는 대신, 적극성 점수에 2배의 가중치를 주는 F2 스코어를 사용할 수 있습니다.

이렇게 하면 AI는 꼼꼼함이 조금 떨어지는 것을 감수하더라도, 적극성을 높이는 방향으로 학습하게 됩니다.

마치 의사에게 “실수하더라도 좋으니, 조금이라도 의심되면 무조건 재검사를 요청하세요”라고 지침을 내리는 것과 같은 효과를 낳습니다.

반대로, 고객에게 고가의 할인 쿠폰을 발송하는 AI를 개발한다고 상상해 봅시다.

이 AI의 목표는 구매할 가능성이 매우 높은 ‘진성 고객’에게만 쿠폰을 보내는 것입니다.

만약 AI가 구매할 마음이 전혀 없는 고객에게까지 쿠폰을 남발한다면(낮은 꼼꼼함), 회사는 막대한 마케팅 비용을 낭비하게 됩니다. ‘억울한 실수’가 큰 금전적 손실로 이어지는 경우입니다.

반면에, 구매할 가능성이 있는 고객 몇 명에게 쿠폰을 보내지 못하는 ‘위험한 실수’는 상대적으로 덜 치명적입니다.

이런 상황에서는 꼼꼼함 점수에 더 높은 가중치를 주어(예를 들어 F0.5 스코어 사용), AI가 정말로 구매할 확률이 높은 고객만 신중하게 골라내도록 만들어야 합니다.

이처럼 우리는 AI를 개발하고 평가하는 과정에서 끊임없이 질문을 던져야 합니다.

“우리가 풀어야 할 문제에서 더 치명적인 실수는 무엇인가?”

“어떤 가치를 우선적으로 보호해야 하는가?”

“하나의 실수가 초래하는 사회적, 경제적 비용은 얼마인가?”

이러한 고민의 과정은 AI 기술이 단순히 코드를 짜고 데이터를 분석하는 것을 넘어, 인간의 가치와 사회적 맥락을 깊이 이해해야 하는 인문학적 분야임을 보여줍니다.

어떤 AI가 ‘좋은 AI’인지는 정해져 있는 것이 아닙니다.

그 AI가 어떤 목적을 위해, 어떤 환경에서, 누구를 위해 사용되는지에 따라 좋은 AI의 기준은 계속해서 달라집니다.

따라서 우리는 F1 스코어와 같은 숫자에만 매몰되어서는 안 됩니다.

그 숫자가 어떤 배경에서, 어떤 기준으로 계산되었는지를 이해하는 것이 훨씬 더 중요합니다.

숫자 너머에 있는 이야기, 즉 우리가 어떤 실수를 더 용납하지 않을 것인지에 대한 사회적 합의와 철학을 읽어낼 수 있어야 합니다.

기술을 안다는 것은 바로 이런 통찰력을 갖는 것입니다. 기술이 내리는 판단의 배경을 이해하고, 그 판단이 우리 사회에 미칠 영향을 비판적으로 바라볼 수 있는 힘을 기르는 것이죠.

AI의 진짜 실력은 ‘판단의 기준선’을 조절하는 능력에 있어요 (임계값, Threshold)

지금까지 우리는 AI가 내린 최종 결정, 즉 ‘썩었다’ 또는 ‘멀쩡하다’는 흑백논리의 결과를 가지고 이야기했습니다.

하지만 사실 AI의 내부에서는 조금 더 미묘한 일이 벌어집니다.

AI는 사과 사진을 보고 “이건 100% 썩었어!” 또는 “이건 0% 썩었어!”라고만 판단하지 않습니다.

대신, “이 사과가 썩었을 확률은 70% 정도 되는 것 같아” 또는 “20% 정도 썩었을 가능성이 있어” 와 같이 확률 점수로 이야기합니다.

마치 의사가 환자를 보고 “암일 가능성이 80%입니다”라고 말하는 것과 같습니다.

이렇게 계산된 확률 값을 가지고, 우리는 최종적으로 ‘썩었다’ 또는 ‘멀쩡하다’는 결정을 내려야 합니다.

이때 필요한 것이 바로 ‘판단의 기준선’ 또는 ‘임계값’입니다.

예를 들어, 우리가 기준선을 50%로 정했다고 해봅시다.

그러면 AI가 계산한 ‘썩었을 확률’이 50%를 넘으면 ‘썩었다’고 최종 판단하고, 50% 미만이면 ‘멀쩡하다’고 판단하게 됩니다.

이 기준선을 어떻게 정하느냐에 따라 AI의 성격이 완전히 달라집니다.

만약 우리가 기준선을 20%로 아주 낮게 잡으면 어떻게 될까요?

AI는 썩었을 확률이 20%만 넘어도 일단 ‘썩었다’고 판단하게 됩니다. 매우 의심이 많은, 신중하다 못해 과민한 성격의 AI가 되는 것이죠.

이런 AI는 실제 썩은 사과를 놓치는 ‘위험한 실수’는 거의 하지 않을 겁니다. 적극성 점수(재현율)는 매우 높겠죠.

하지만 멀쩡한 사과까지 썩었다고 판단하는 ‘억울한 실수’를 많이 저지르게 될 겁니다. 꼼꼼함 점수(정밀도)는 낮아집니다.

반대로, 기준선을 90%로 아주 높게 잡으면 어떻게 될까요?

AI는 썩었을 확률이 90%를 넘지 않으면 웬만해서는 썩었다고 말하지 않습니다. 매우 관대하고 웬만한 것은 다 눈감아주는 성격의 AI가 됩니다.

이런 AI는 멀쩡한 사과를 썩었다고 하는 ‘억울한 실수’는 거의 하지 않습니다. 꼼꼼함 점수가 매우 높을 겁니다.

하지만 어설프게 썩은 사과들은 모두 놓치게 되겠죠. 적극성 점수는 매우 낮아집니다.

바로 이것입니다. 앞서 이야기했던 꼼꼼함과 적극성의 트레이드오프 관계가 바로 이 ‘판단의 기준선’을 조절함에 따라 나타나는 현상이었던 것입니다.

암 진단 AI의 경우, 우리는 이 기준선을 10% 또는 그 이하로 매우 낮게 설정할 겁니다. 암일 확률이 조금만 있어도 의사에게 경고를 보내도록 말이죠.

스팸 메일 필터의 경우, 기준선을 95% 이상으로 매우 높게 설정해서 스팸일 확률이 거의 확실할 때만 스팸으로 분류하도록 할 겁니다.

여기서 아주 중요한 점이 있습니다.

판단의 기준선을 조절해서 꼼꼼함이나 적극성 점수를 높이는 것은 AI의 근본적인 실력이 좋아진 것이라고 말하기 어렵습니다.

그것은 단지 문제의 상황에 맞게 AI의 성격을 ‘튜닝’하는 과정일 뿐입니다.

그렇다면 AI의 근본적인 실력, 즉 기본적인 판단 능력 그 자체는 어떻게 평가할 수 있을까요?

어떤 기준선을 선택하더라도, 전반적으로 얼마나 똑똑하게 확률을 예측하는지를 한눈에 볼 수 있는 방법은 없을까요?

이 질문에 대한 해답을 주는 것이 바로 ROC 곡선과 AUC라는 또 다른 평가 지표입니다.

ROC AUC는 이 ‘판단의 기준선’이라는 변수를 무대 뒤로 보내고, AI가 가진 순수한 잠재력과 진짜 실력을 보여줍니다.

마치 가수의 노래 실력을 평가할 때, 무대 장치나 조명 효과를 모두 걷어내고 오직 목소리만으로 평가하는 것과 같습니다.

의심 많은 AI와 관대한 AI, 그 사이의 아슬아슬한 줄타기 (ROC 곡선)

AI의 진짜 실력을 보기 위해, 우리는 조금 특별한 그래프를 그려볼 겁니다.

이 그래프는 AI가 ‘판단의 기준선’을 0%부터 100%까지 바꿔가며 얼마나 아슬아슬하게 줄타기를 잘하는지 보여줍니다.

그래프의 가로축과 세로축에는 조금 낯선 이름이 등장하지만, 그 의미는 우리가 이미 아는 것들입니다.

세로축은 ‘진짜 썩은 것을 얼마나 잘 찾아내는가’를 나타냅니다. 이것은 앞서 말한 ‘적극성 점수(재현율)‘와 똑같은 의미입니다. 이 값은 1에 가까울수록 좋습니다.

가로축은 조금 다릅니다. ‘멀쩡한 것을 얼마나 썩었다고 잘못 판단하는가’의 비율을 나타냅니다. 이것은 ‘억울한 실수’의 비율이죠. 당연히 이 값은 0에 가까울수록 좋습니다.

이제 상상해 봅시다. 우리는 AI의 ‘판단의 기준선’을 100%에서부터 0%까지 아주 조금씩, 서서히 낮추어 볼 겁니다.

기준선이 100%일 때, AI는 아무것도 썩었다고 말하지 않습니다. 당연히 진짜 썩은 것도 하나도 못 찾고(세로축 값 0), 멀쩡한 것을 잘못 판단하는 실수도 하지 않습니다(가로축 값 0). 그래프는 원점 (0, 0)에서 시작합니다.

이제 기준선을 99%, 98%… 조금씩 낮춰봅니다. AI는 점점 더 많은 사과를 ‘썩었다’고 말하기 시작합니다.

만약 이 AI가 똑똑하다면, 가장 확실하게 썩은 사과부터 먼저 골라낼 겁니다.

그러면 세로축 값(진짜 썩은 것을 찾은 비율)은 빠르게 치솟는 반면, 가로축 값(멀쩡한 것을 실수한 비율)은 아주 천천히, 거의 움직이지 않을 겁니다.

이때 그래프는 왼쪽 위 방향으로 가파르게 상승하는 모양을 그리게 됩니다.

기준선을 계속해서 낮추면, AI는 점점 더 애매한 사과들까지 썩었다고 판단하게 됩니다. 이제는 멀쩡한 사과를 실수로 건드리는 일도 잦아지겠죠.

세로축 값의 상승은 둔해지고, 가로축 값이 점점 더 빠르게 증가하기 시작합니다. 그래프의 기울기가 완만해집니다.

마침내 기준선을 0%까지 낮추면, AI는 모든 사과를 전부 ‘썩었다’고 외칩니다.

이때는 진짜 썩은 것을 100% 다 찾게 되지만(세로축 값 1), 동시에 멀쩡한 것도 100% 다 썩었다고 실수하게 됩니다(가로축 값 1).

그래프는 오른쪽 위 끝점 (1, 1)에서 끝나게 됩니다.

이렇게 기준선을 0%부터 100%까지 움직여가며 AI의 판단 변화를 추적해 그린 곡선을 ‘ROC 곡선’이라고 부릅니다.

이름은 어렵지만, 그 의미는 ‘AI의 판단력 변화를 그린 성적표’라고 생각하면 됩니다.

가장 이상적인, 완벽한 AI의 ROC 곡선은 어떤 모양일까요?

그 AI는 기준선을 낮출 때, 멀쩡한 것은 단 하나도 실수하지 않으면서(가로축 값 0 유지), 진짜 썩은 것만 100% 완벽하게 찾아낼 겁니다(세로축 값 1까지 수직 상승). 그래서 완벽한 AI의 ROC 곡선은 왼쪽 위 모서리에 딱 붙는 ‘ㄴ’자 모양이 됩니다.

반대로, 완전히 무작위로 찍는, 동전 던지기로 판단하는 AI는 어떨까요?

이 AI는 진짜 썩은 것을 찾는 비율과 멀쩡한 것을 실수하는 비율이 거의 비슷하게 증가할 겁니다. 그래서 ROC 곡선이 (0, 0)에서 (1, 1)을 잇는 대각선 모양이 됩니다.

우리가 개발한 AI의 ROC 곡선이 이 대각선보다 위쪽에 그려진다면, 적어도 찍는 것보다는 낫다는 의미입니다.

그리고 왼쪽 위 모서리에 가까우면 가까울수록, 더 똑똑하고 근본적인 판단 능력이 뛰어난 AI라고 말할 수 있습니다.

이 ROC 곡선은 우리에게 AI의 전체적인 잠재력을 한눈에 보여주는 지도와 같습니다. 특정한 ‘판단의 기준선’에 얽매이지 않고, AI가 얼마나 현명하게 썩은 것과 멀쩡한 것을 구분해내는 근본적인 능력을 갖추었는지 알려주는 것이죠.

한눈에 보는 AI의 잠재력, 마법의 숫자 AUC

ROC 곡선은 AI의 종합적인 판단 능력을 시각적으로 아름답게 보여줍니다.

그래프가 왼쪽 위로 얼마나 볼록하게 휘어져 있는지를 보면, 그 AI의 실력을 직관적으로 알 수 있죠.

하지만 여러 AI 모델의 성능을 정량적으로 비교해야 할 때, 여러 개의 곡선을 겹쳐놓고 눈으로 비교하는 것은 번거롭고 정확하지 않을 수 있습니다.

마치 여러 학생의 성적표 그래프를 보고 누가 더 뛰어난지 한눈에 판단하기 어려운 것과 같습니다.

이때, 이 복잡한 곡선을 단 하나의 숫자로 깔끔하게 요약해주는 마법 같은 지표가 등장합니다.

그것이 바로 ‘AUC’, 즉 ‘ROC 곡선 아래의 면적’입니다.

이름 그대로, ROC 곡선과 그래프의 가로축이 이루는 영역의 넓이를 계산한 값입니다. 이 AUC 값은 항상 0과 1 사이의 숫자로 나옵니다.

이 숫자가 무엇을 의미할까요?

가장 완벽한 AI, 즉 ROC 곡선이 ‘ㄴ’자 모양인 경우를 생각해 봅시다. 이 곡선 아래의 면적은 가로 1, 세로 1인 정사각형의 넓이와 같으므로, AUC 값은 1이 됩니다.

반대로, 동전을 던져서 찍는 것처럼 완전히 무작위로 판단하는 AI의 경우는 어떨까요? ROC 곡선이 대각선 모양이므로, 그 아래 면적은 정사각형 넓이의 정확히 절반입니다. 따라서 AUC 값은 0.5가 됩니다.

즉, AUC 값이 1에 가까울수록 AI의 성능이 완벽에 가깝다는 뜻이고, 0.5에 가깝다면 사실상 쓸모없는 AI라는 의미입니다.

만약 AUC 값이 0.5보다 낮게 나온다면, 그 AI는 정답과 반대로만 예측하는 ‘청개구리 AI’이므로, 오히려 그 예측을 반대로 뒤집어서 사용하면 성능이 좋아지는 재미있는 상황이 벌어지기도 합니다.

AUC가 F1 스코어와 같은 다른 지표들보다 가지는 가장 큰 장점은 ‘판단의 기준선’이 어떻게 설정되든 상관없이, AI 모델의 순수한 성능 그 자체를 평가할 수 있다는 점입니다.

F1 스코어는 특정 기준선에서 계산된 꼼꼼함과 적극성 점수를 바탕으로 하지만, AUC는 가능한 모든 기준선을 고려한 종합 성적표와 같습니다.

따라서 여러 AI 모델 중 어떤 모델이 근본적으로 더 뛰어난 잠재력을 가졌는지 비교하고 싶을 때, 이 AUC 값은 매우 강력하고 객관적인 기준이 되어 줍니다.

예를 들어, A 모델의 AUC는 0.92이고 B 모델의 AUC는 0.85라고 가정해 봅시다. 이는 B 모델도 훌륭하지만, A 모델이 전반적으로 썩은 사과와 멀쩡한 사과를 더 잘 구분해내는 근본적인 능력을 갖추었다고 판단할 수 있음을 의미합니다.

그 후에, 실제 문제 상황(예: 암 진단)에 맞게 더 우수한 A 모델의 ‘판단의 기준선’을 10%로 낮추어 적극성을 극대화하는 것이 일반적인 개발 과정입니다.

AUC는 마치 학생의 잠재력을 평가하는 것과 같습니다.

어떤 학생이 당장의 특정 시험(특정 기준선에서의 F1 스코어) 점수는 조금 낮더라도, 문제를 이해하고 응용하는 근본적인 학습 능력이 뛰어나다면 우리는 그 학생의 잠재력을 높게 평가합니다.

AUC가 바로 AI의 그런 근본적인 능력과 잠재력을 알려주는 숫자입니다. 이 숫자를 통해 우리는 AI의 겉모습이 아닌, 그 속에 담긴 진짜 실력을 꿰뚫어 볼 수 있게 됩니다.

그래서 이 숫자들, 우리 삶에 어떤 의미가 있나요?

F1 스코어, ROC AUC… 지금까지 우리는 조금은 낯선 개념들을 따라 긴 여행을 해왔습니다.

썩은 사과 이야기에서 시작해, 꼼꼼함과 적극성의 줄다리기, 그리고 AI의 잠재력을 보여주는 마법의 숫자까지 살펴보았죠.

아마 머릿속이 조금 복잡할지도 모릅니다. 하지만 가장 중요한 것은 모든 세부 내용을 암기하는 것이 아닙니다.

대신, 이 숫자들 속에 담긴 생각의 흐름을 이해하는 것입니다.

AI를 평가한다는 것은 단순히 ‘맞았다’, ‘틀렸다’를 세는 기계적인 작업이 아니라는 사실을 말이죠.

그것은 우리가 어떤 실수를 더 용납할 수 없는지에 대한 깊은 고민이자, 상황에 맞는 최선의 균형점을 찾아가는 지혜로운 과정입니다.

이제 여러분은 뉴스에서 “새로운 AI 모델의 F1 스코어가 95%에 달했다”거나 “의료 AI의 AUC가 0.98을 기록했다”는 기사를 보았을 때, 더 이상 막막함을 느끼지 않을 겁니다.

오히려 그 숫자 뒤에 숨겨진 이야기를 상상하게 될 것입니다.

“아, 저 F1 스코어가 높다는 것은 꼼꼼함과 적극성 두 능력의 균형을 잘 잡았다는 뜻이구나. 범용적으로 쓰기 좋은 모델이겠네.”

“의료 AI의 AUC가 저렇게 높다니, 판단 기준을 어떻게 바꾸더라도 환자를 놓치거나 건강한 사람을 환자로 오인하는 근본적인 실수를 할 확률이 매우 낮다는 의미겠구나. 정말 대단한걸.”

이렇게 기술의 언어를 조금이나마 이해하게 되면, 세상은 이전과 다르게 보이기 시작합니다.

우리는 더 이상 기술 발전의 방관자가 아니라, 그 의미를 해석하고 비판적으로 수용할 수 있는 현명한 참여자가 됩니다.

어떤 기업이 자신들의 AI가 99%의 정확도를 가졌다고 홍보할 때, 우리는 이제 질문을 던질 수 있습니다.

“그 정확도는 어떤 상황을 가정한 것인가요? 혹시 소수의 중요한 사례를 모두 놓치는 모델은 아닌가요? 재현율이나 F1 스코어는 어떻게 되나요?”

기술에 대한 막연한 환상이나 공포에서 벗어나, 그 기술이 우리 삶에 어떤 영향을 미칠지 구체적으로 따져볼 수 있는 힘이 생기는 것입니다.

이것이 바로 우리가 기술을 배워야 하는 진짜 이유입니다.

모두가 기술 전문가가 되기 위해서가 아닙니다. AI가 일상이 된 세상에서 소외되지 않고, 기술의 주체로서 당당하게 살아가기 위해서입니다.

F1 스코어와 ROC AUC는 그 시작을 위한 작은 열쇠일 뿐입니다.

이 열쇠로 문을 열고 들어가면, 더 흥미롭고 놀라운 AI의 세계가 펼쳐져 있습니다.

물론 그 길 위에서 또다시 낯선 용어와 어려운 개념들을 만나게 될지도 모릅니다.

하지만 이제 여러분은 알고 있습니다. 아무리 복잡해 보이는 기술이라도, 그 본질은 결국 우리의 삶의 문제를 해결하기 위한 고민에서 출발했다는 사실을요.

그러니 두려워할 필요가 없습니다. 호기심을 가지고, 천천히 한 걸음씩 나아가면 충분합니다.

오늘의 이야기가 여러분 마음속에 자리 잡고 있던 기술에 대한 작은 불안감을 덜어주고, 그 자리에 따뜻한 자신감을 채워주었기를 바랍니다.

AI는 우리를 위협하는 존재가 아닙니다. 우리가 어떻게 사용하고, 어떤 가치를 담아 발전시키느냐에 따라 무한한 가능성을 선물해 줄 강력한 파트너가 될 수 있습니다.

이제 여러분은 그 파트너의 성적표를 읽고 그 성격을 이해할 수 있게 되었습니다.

앞으로는 새로운 기술 소식을 접할 때, 막연한 두려움 대신 건강한 궁금증을 품고 세상을 바라보게 되기를 진심으로 응원합니다.

기술은 언제나 사람을 향해 있어야 하고, 그 기술의 진정한 주인은 바로 우리 자신이니까요.

모델 성능 평가 지표 F1 스코어와 ROC AUC 곡선 해석법

AI가 똑똑하다는 건, 대체 무슨 뜻일까요?

AI의 첫 번째 시험: 얼마나 꼼꼼하게 골라냈나요? (정밀도, Precision)

AI의 두 번째 시험: 혹시 놓친 것은 없나요? (재현율, Recall)

꼼꼼함과 적극성, 두 마리 토끼를 다 잡을 수는 없을까요? (F1 스코어)

상황에 따라 달라지는 마음, 어떤 실수를 더 피해야 할까요?

AI의 진짜 실력은 ‘판단의 기준선’을 조절하는 능력에 있어요 (임계값, Threshold)

의심 많은 AI와 관대한 AI, 그 사이의 아슬아슬한 줄타기 (ROC 곡선)

한눈에 보는 AI의 잠재력, 마법의 숫자 AUC

그래서 이 숫자들, 우리 삶에 어떤 의미가 있나요?

토론

댓글

관련 글

생성형 AI 기본법 시행에 따른 기업 데이터 거버넌스 및 저작권 대응 전략

GPT-5.2 및 Gemini 3.1 API 비용 최적화와 토큰 절약 실무 적용 가이드

클로드 오퍼스 4.6 코딩 능력 딥다이브: 10만 줄 프로젝트 리팩토링 실전 테스트

GPT-5.2 에이전틱 워크플로우 완벽 가이드: 도입부터 실무 적용까지