성과평가 강화, 그 배경에는 AI가 있다

올 상반기도 끝을 향해 달려가고 있습니다. 예년에 비해 성과에 대한 압박이 더 강해졌다고 느끼시나요? ‘성과의 기준이 높아지고, 스택 랭킹(stack ranking)으로 회귀하고, 고성과자에게 보상이 집중되고…’ 최근 글로벌 테크 기업들의 평가 제도 변화 중심에는 AI가 있습니다.
변화는 크게 두 단계로 진행 중입니다. AI가 대중화된 이후 AI 인프라 투자에 막대한 자금이 필요해진 빅테크의 주요 과제는 인력 감축을 통한 비용 효율화였습니다. 올해는 AI로 벌어진 산출물 격차를 어떻게 평가하고 보상에 차등을 둘 것인지에 대한 고민이 제도 개편으로 이어지고 있지요. 이번 Lemonbase Camp Biweekly(LbC Biweekly)에서는 빅테크 기업들의 변화한 평가 제도의 일면을 살펴보면서 구성원에게 요구되는 바가 무엇인지를 짚어보았습니다.

AI를 더 많이 써라
기업들은 구성원들이 AI를 많이 활용하도록 독려하는 것을 넘어, ‘강제’하기에 이르렀습니다.(링크) 메타는 지난해 말 ‘AI 기반 성과(AI-driven Impact)’를 평가 기준으로 제시했습니다. 업무에 AI를 도입했는지 여부가 평가에 반영되고, ‘AI 기반 성과’를 입증하는 구성원에게 더 높은 보상이 주어집니다. AI를 활용해 결과를 도출하는 방식과 생산성 향상에 실질적인 도움이 되는 도구를 개발하는지 등 여부가 평가됩니다. 엔지니어, 마케터 등 모든 직무에 해당 기준을 적용, 관리자는 구성원이 AI를 활용해 산출물의 품질을 얼마나 끌어올렸는지를 평가하게 됩니다. 또, 구성원들이 자기평가에 ‘AI로 이뤄낸 성과(AI-fueled wins)’를 적극 포함하도록 권장합니다.(링크)
다른 빅테크들도 비슷한 행보를 보였습니다. 2025년 6월 줄리아 리우슨 당시 마이크로소프트 개발자 도구 부문장은 “AI 사용은 더이상 선택이 아니다”라고 못박았죠. AI 사용은 협업, 데이터 기반 사고, 효율적인 커뮤니케이션과 마찬가지로 모든 역할과 레벨의 핵심 역량이라고 강조한 것입니다.(링크) 마이크로소프트는 자기평가 초안을 쓰는 구체적인 프롬프트 예시를 공식적으로 공유하는 등 평가에 자사 AI 코파일럿 활용도 적극 권장합니다. 비슷한 시기 구글의 메건 카콜리아 개발 부문 부사장은 “AI를 활용한 문제 해결이 개발자 직무기술서에 포함됐다”며 코딩에 AI 도구를 적극 활용하도록 요구했습니다.(링크)
AI 활용을 의무화하고 ‘AI를 얼마나 자주, 많이 쓰느냐’를 측정함으로써 활용 확대를 독려하기도 합니다. 아마존은 사내에서 매주 AI 도구를 한 번이라도 사용하는 개발자의 비율을 80% 이상으로 유지한다는 전사 목표를 설정했고, 비공식적이지만 사용량이 ‘키로랭크(Kirorank)’라는 순위표에 표시됐습니다. 메타에서도 2026년 4월 한 직원이 만든 ‘클로드노믹스’라는 순위표가 화제가 되기도 했습니다. 8만5000명의 직원을 AI 토큰 소비량으로 줄 세운 대시보드였습니다.
다만 단순히 AI 활용도를 정량화, 수치화하는 것만으로 의도한 행동 변화를 통해 유의미한 성과를 거두는 데는 한계가 있지요. 이러한 순위표는 단지 AI 사용을 보여주기 위한 사용을 부추긴다는 비판에 부딪혀 현재는 폐쇄됐습니다. 누가 토큰을 가장 많이 쓰는지 겨루는 ‘토큰맥싱’이 나타나면서 불필요한 토큰 소비로 컴퓨팅 비용이 급증하는 부작용이 드러났기 때문입니다. 이에 따라 토큰 사용량 대신 실제 업무 기여도를 측정하는 새로운 평가 기준으로의 전환이 요구되고 있습니다. 예를 들어, AI를 통해 제안된 코드 중 실제로 반영된 유용한 코드 양을 측정하는 것입니다. 운영 효율성을 높이기 위해 AI를 사용한 방식, 인원을 늘리지 않으면서 AI를 활용해 역량을 높이고 혁신한 사례 등이 고려돼야 하겠지요.
스스로 업적을 증명하라
또다른 개편 방향은 ‘어떤 일을 해냈는지를 스스로 밝히라’는 데 있습니다. AI가 과정을 축소하면서 결과물에 대한 평가가 더 강화되고 있는 추세입니다.
아마존은 직원들에게 3~5개 개인 업적(accomplishments)을 직접 기술, 제출할 것으로 요구하는 등 개인의 기여도를 더 엄밀하게 평가하려는 의도를 드러냅니다. 강점 중심으로 작성하던 자기평가에서 업적 중심으로 축이 이동한 것인데요.(링크) 여기서 업적은 자신의 업무가 영향을 미친 구체적인 프로젝트, 목표, 계획 또는 개선된 사항을 의미합니다. 자신이 달성한 성과에 대한 구체적인 사례, 회사에서 지속적으로 성장하기 위해 계획하고 있는 행동 방안도 함께 작성합니다.
이는 인력 감축으로 인해 필요한 조치라는 해석도 있습니다. 중간 관리자들을 대거 정리해고한 뒤 보고 체계 재편에 따라 직속 구성원이라고 할지라도 업무 범위를 정확히 알기 어렵기 때문에 관리자의 세심한 관찰을 기대하기보다 구성원들에게 자신의 업적을 구체적으로 밝히도록 요구하는 것이지요.(링크)
탁월한 성과를 내라
고성과자에게 보상을 집중함으로써 더 많은 성과를 내도록 동기 부여하는 움직임도 뚜렷합니다. 메타가 올해 중반부터 도입하는 ‘체크포인트(Checkpoint)’는 Outstanding(탁월함) 20%, Excellent(우수함) 70%, Needs Improvement(개선이 필요함) 7%, Not Meeting Expectations(기대를 충족하지 못함) 3% 등 4개의 평가 등급으로 나누고, 각 비율별로 강제 배분하는 제도입니다.(링크) 평가 주기는 연 1회에서 2회로 늘렸습니다.
보상 체계도 파격적으로 개편했습니다. 성과에 따라 상위 20%에게는 기본 보너스의 200%, 소수의 최상위 성과자에게는 300%의 보너스를 지급합니다. 이에 비해 하위 3% 직원에게는 보너스를 지급하지 않는 차등 보상을 확대했습니다.
중간 등급을 축소하고 고성과자에게 보상을 집중하는 제도 변경은 빅테크 기업 전반에서 다양한 형태로 확인됩니다. 구글도 지난해 4월 비슷한 변화를 발표했습니다. 존 케이시 구글 글로벌 보상 및 복리후생 담당 부사장이 ‘성과 문화 강화(Strengthening our performance culture)’라는 제목의 사내 메모에서 최상위 등급을 받을 수 있는 직원 수를 늘리고, 그 재원을 마련하기 위해 중간 등급에 제공되는 보너스를 줄인다고 밝혔습니다.(링크) 아마존은 최고 등급(Top Tier)에 대한 보상을 정교화했습니다. 여러 해에 걸쳐 최고 등급이 부여될 경우 더 많은 보상을 받는 구조입니다.(링크)
리더가 지금 해야 할 일은
지금과 같은 전환기에는 리더(중간관리자)의 역할이 더 중요해지지요. 리더는 경영진의 기대와 구성원들의 실제 성과 사이의 격차를 좁히는 역할을 맡습니다.(링크) 앞서 살펴본 세 가지 변화는 그 격차를 좁히는 일을 한층 까다롭게 만들기도 합니다. 각각에 대해 리더가 지금 점검해볼 만한 지점을 짚어봅니다.
먼저 AI 활용에 대한 평가입니다. '얼마나 AI를 썼는가'보다 중요한 것은 '그것이 실제로 어떤 결과로 이어졌는가'인데, 이 기준은 아직 조직 내에 합의되어 있지 않은 경우가 많습니다. 토큰맥싱처럼 '쓰는 행위' 자체가 목적이 되지 않도록, 다른 관리자들과 'AI를 잘 활용했다는 것'이 구체적으로 무엇을 의미하는지 미리 맞춰두는 작업이 필요합니다.
두 번째는 구성원이 스스로 업적을 더 구체적으로 기술해야 하는 흐름입니다. 연말에 한 해를 돌아보며 의미 있었던 일을 떠올리는 것은 생각보다 어렵습니다. 리더는 실제 업무와 평가 결과 사이의 시차를 이어주는 역할도 맡아야 합니다. 상반기 리뷰, 1:1 미팅 등 중간 점검을 통해 그 시기의 기대치를 확인하고, 구성원이 어떤 일을 해왔는지 함께 기록해두는 것이 좋습니다. 이 과정에서 필요한 AI 도구, 교육 등 지원이 부족한 부분도 함께 파악할 수 있습니다.
세 번째는 차등 보상의 확대입니다. 등급 간 보상 차이가 커질수록, 그 등급이 어떤 기준으로 결정되었는지에 대한 설명의 무게도 커집니다. 리더는 점검을 통해 '임팩트'를 낸 행동에 주목해 탁월한 성과를 가려낼 수 있어야 합니다.(링크) 구성원이 직접 기술한 업적에서 어떤 결정이 내려졌는지, 어떤 근거와 대안이 있었는지, 그 결과 무엇이 달라졌는지를 함께 들여다보는 것입니다. 예를 들어 "프로젝트의 방향을 바꾼 순간은 언제였나요?"라는 질문으로 구성원이 발휘한 영향력을 확인할 수 있습니다.




