버즈니는 어떻게 상품 클릭율 10%를 높였을까? <2편>

버즈니 검색팀은 모바일 홈쇼핑 포털 앱 ‘홈쇼핑모아’의 ‘베스트’ 탭을 포함한 검색 결과 화면을 개선해 상품 클릭율과 구매하기 클릭수를 각각 약 10%, 약 30% 증가를 이끌어 내는데 성공했다.
검색서비스에서 상품 클릭률은 1~2% 의 증감도 큰 변화인데, 10% 증가는 굉장히 큰 성과라고 할 수 있다. 검색팀이 이러한 성과를 낼 수 있었던 것은 그간 지향해온 ‘문제-가설-검증-학습’ 반복의 과정이 있었기 때문이다.
이 과정을 어떻게 수행했는지 소개하고자 지난 ‘케이스 스터디’ 1편에서 팀 소개부터 문제 인지와 가설 설정, 첫 번째 검증 테스트를 공유했다.
마지막, 2편에서는 두번째 검증 계획, 의견 마찰과 계획 변경, 두번째 검증 테스트와 검증결과, 그리고 최소 기능 구현이 놓치는 부분들, 정식 서비스를 위해 해야할 일들에 대해서 알아봤다.

1부 - 버즈니 검색팀 소개 / 문제 인지와 가설 설정 / 생각보다 쉽지 않은 구현 방법 / 첫번째 검증 테스트 / 검증 결과, 아쉬운점

2부 - 2번째 검증 계획 / 의견 마찰과 계획 변경 / 2번째 검증 테스트 / 2번째 검증 결과, 엄청난 성과! / 최소 기능 구현이 놓치는 부분들

/ 정식 서비스를 위해 해야할 일들 / 마무리

2차 테스트 계획

2차 테스트에서는 ‘TV에서 방영한 상품’ 의 인기순 제공을 사용자가 직관적으로 인지할 수 있도록 UI/UX 테스트를 주요 과제로 진행했다.

‘TV에서 방영한 상품' 의 ‘시간순’ 정렬(편성표)만 있는 검색결과 전면에 ‘인기순’ 정렬도 바로 확인할 수 있도록 화면 변화가 필요했다. 1차때보다는 UI/UX 에 더 많은 시간과 고민이 요구됐다. 최소 4개 이상의 화면을 디자인 해야 했다.

의견충돌

검색팀은 이번에도 한번에 모든 화면을 바꾸지 않고 순서대로 가설을 검증하며 변화를 가져가고자 했다.

1. 4개 화면에서 첫번째 ‘검색결과 화면’ 에서 직관적으로 ‘인기순’ 정렬을 노출하고 니즈를 확인
2. 1번에서 검증된 내용을 반영하여 두번째 ‘편성표 더보기 화면' 개선

하지만 사용자 경험을 최우선으로 고민하는 UX팀의 의견은 달랐다. 화면별 기능은 유기적으로 연결돼 있어서 일부분만의 개선은 서비스 일관성을 해치고 사용자에게 혼란을 가중시킬 수 있다는 것이었다.

2번째 테스트는 UI/UX 변화를 통한 가설 검증이 주요 목표이기때문에 UX팀과의 합의가 중요했다. 그렇다고 아직 검증되지 않은 가설을 바탕으로 모든 화면을 개선하기에는 부담과 우려도 있었다. 빠른 검증을 위한 최소 기능 구현을 포기하고 모든 화면이 준비되기만을 기다려야 할까?

검색팀과 UX팀은 다음과 같이 진행하기로 했다.

- 모든 화면의 리뉴얼 보다는 테스트를 진행할 검색결과 화면에서 이어지는 화면들간의 최소한의 일관성을 가진 변화만 반영

최대한 사용자 경험을 해치지 않는 선에서 검색팀이 원하는 테스트의 본질을 유지할 수 있었다. 이과정에서도 PM, UX디자이너 외에 FE, BE 개발자의 적극적인 참여로 적합한 합의를 이끌어냈다. 메이커라고 해서 구현 가능성 및 공수 파악에 대한 수동인 의견 제시만 내는 것이 아니라 프로젝트의 방향, 이슈 체크 및 솔루션등을 능동적으로 피력한다.

가설을 검증하기 위한 a/b 테스트에서는 주요 변수 외의 변화를 최대한 차단하는것이 분석에 용이하다. 하지만 기획이 구현되는 과정에서는 항상 예상치 못한 빈틈, 더 나은 아이디어들이 산발적으로 등장한다. 발견한 모든 것을 적용하고 싶어진다. 그러다보면 테스트의 목적을 잃는 경우도 발생한다. 최소 기능 구현으로 빠르게 가설을 검증하는 것에 집중하는 것은 생각보다 쉽지 않다.

2번째 검증 테스트

‘시간순' 즉 편성표만 있던 검색결과 화면을 ‘시간순’ 정렬은 ‘방송예정’, ‘이전방송' 탭으로 ‘인기순’ 정렬은 ‘베스트' 탭으로 구분했다.

기존화면, ‘시간순' 탭 우선 노출, ‘인기순' 탭 우선 노출 각각 A,B,C 그룹으로 나누어 A/B 테스트를 진행했다.

가설 :
1. 사용자들은 방송상품을 인기순으로 보고 싶어 할 것이다.

2. 방송상품을 인기순으로 노출하면 이전 보다 더 많이 방송상품을 클릭할 것이다.

주요지표 :
1. 방송상품 클릭수(률) 상승 (방송상품 클릭수 = 방송예정 + 이전방송 + 베스트 상품 모두 포함)

2. 인기순 탭 클릭수(률) (예정방송, 이전방송, 베스트 탭(인기순 탭)을 노출하였을때 가장 많이 클릭한 탭)

성공기준 :
방송상품 클릭율 10%상승, 검색상품 클릭율 -3%이하 방어 (방송상품 클릭율 = 예정방송 + 이전방송 + 베스트상품)

검증 결과

A그룹과 B,C그룹의 비교를 통해 기존의 ‘시간순'만 노출과 ‘시간순', ‘인기순' 동시 노출시의 퍼포먼스 차이를 알 수 있었다. B, C그룹의 비교를 통해 ‘시간순', ‘인기순' 어떤 탭을 우선 노출 하였을때 더 퍼포먼스가 좋은지 알 수 있었다.

A, B그룹은 둘다 ‘시간순' 을 우선 노출하는 결과로 퍼포먼스가 유사했다.

A, C그룹의 비교 결과는 다음과 같았다.

C그룹이 A그룹 대비 방송상품 클릭율(NoResult제외) 약 19% 증가

C그룹이 A그룹 대비 검색상품 클릭율 약 -3% 감소

C그룹이 A그룹대비 방송상품 클릭수 약 21% 증가!

C그룹이 A그룹대비 방송상품 구매 클릭수 약 30% 증가!

성공기준을 넘어서는 엄청난 결과다. 가설이었던 방송상품의 ‘인기순' 정렬의 니즈가 강하게 검증됐다.

C그룹의 퍼포먼스가 높은 대표적인 2가지 이유를 아래와 같이 분석했다.

- 베스트 즉 ‘인기순' 이라는 흥미유발로 인한 상품 클릭
- 리콜의 증가 (기존 ‘시간순' 정렬시에 노출되던 중복상품, 품절상품등이 제거되고 구매가능한 다양한 상품 노출)

최소 기능 구현이 놓치는 부분들

A/B테스트로 가설이 검증됐으니 바로 실서비스화를 할 수 있을까?

아쉽게도 그렇지않다. 심할 때는 불가능이라고 말 할 수 있다. 3개 핵심 기능의 최소구현과 2차례의 테스트는 모두 빠른 ‘가설의 검증’ 만이 목표였다. 즉, 목표 외의 사항들에 대해선 원칙상 불가해도 임시적으로 허용하는 경우가 있었다.

대표적인 예로 기존 기능, 개발 정책과의 충돌 또한 확장성을 고려하지 않은 개발이 있을 수 있다. 새로운 기능과 화면으로 기존 정책의 그릇에 담을 수 없는 경우도 있다.

그렇다면 왜 이런 부분들을 예상하지 못하고, 혹은 안했을까?

그 이유는 속도와 불확실성에 있다. 모든 경우의 수를 고려하다보면 준비하는 시간 자체에 기약이 없어질 수 있다. 그렇게 준비했는데 반드시 성공하리라는 보장도 없다. 오랜 시간 준비하고 실패 혹은 성공하는 것과 최소한으로 준비하고 실패 혹은 성공하는 것 중에서 후자를 택한 것이다. 회복탄력성 역시 후자가 더 높다.

정식 서비스를 위해 해야할 일들

검증을 목표로 구현된 핵심요소들을 기존의 서비스 정책에 맞추면서 정식 구현이 필요하다. 즉, 더이상 임시적으로 동작하는 것이 아닌 장애 대응 및 유지보수가 가능해야하며 확장성에 대한 고려도 반영해야한다. 빠른 검증을 위해 고의적으로 간과했거나 놓친 부분들에 대한 보완, 개선 등을 진행한다. 혹은 이들에 대한 추가 A/B 테스트를 진행할 수도 있다. 이때도 모든 것이 완벽하게 갖춰지는 것을 목표로 하지 않는다. 실서비스가 되면 바로 성과가 있을 검증된 내용을 굳이 묵혀둘 이유가 없다. 가장 빠르게 서비스에 반영할수 있는 방법을 찾고 단계적으로 맞춰나간다.

A/B 테스트로 ‘인기순’ 정렬의 니즈가 검증된 ‘베스트탭’ 역시 실서비스화를 위한 정책 협의 및 코드 리팩토링 등의 과정을 거쳤다. 그후 전체 사용자에게 배포하여 아래와 같은 성과가 있었다.

<‘베스트탭’ 실서비스 반영 전 후의 지표 변화>

배포 당시의 명절 특수로 인해 활성화 사용자수가 일부 감소했음에도

방송상품 클릭률 및 구매하기 클릭 수는 각각 10%, 30% 증가

1인당 방송상품 클릭수, 구매 클릭수도 각각 18%, 42% 증가

핵심기능이던 동일상품분류 로직은 버즈니 AI Lab과 성능을 높이며 버전업을 진행하고 있다.

마무리

글 초반에 작성한 ‘문제-가설-검증-학습’ 이 2차례의 테스트로 끝난것일까?

그렇지 않다. 이후에도 지속적인 모니터링과 문제제기를 하며 새로운 가설과 그것의 검증을 진행하고 있다. 실제로 검색결과화면에서만 3번의 가설-검증-학습을 추가로 했고 4번째 가설 검증을 준비 중이다. 즉, 오래 준비한 한번의 큰 변화가 아닌 작은 개선의 반복을 진행하고 있다. 이런 시도가 급격한 퍼포먼스 향상을 가져오지 않을 수도 있다.

"하지만 꾸준히 반복하며 쌓은 성공과 실패의 학습들이 더 성공률이 높은 시도로 이어지고 반드시 지표에 반영될 것이다."

버즈니는 어떻게 상품 클릭율 10%를 높였을까? <2편>

버즈니 검색팀은 홈쇼핑모아 ‘베스트’ 탭을 포함한 검색 결과 화면을 개선해 상품 클릭율과 구매하기 클릭수를 각각 약 10%, 약 30% 증가를 이끌어 냈다.

2차 테스트 계획

의견충돌

2번째 검증 테스트

검증 결과

최소 기능 구현이 놓치는 부분들

정식 서비스를 위해 해야할 일들

<‘베스트탭’ 실서비스 반영 전 후의 지표 변화>

마무리

버즈니는 어떻게 상품 클릭율 10%를 높였을까? [마침]

버즈니는 어떻게 상품 클릭율 10%를 높였을까? <2편>

버즈니 검색팀은 홈쇼핑모아 ‘베스트’ 탭을 포함한 검색 결과 화면을 개선해 상품 클릭율과 구매하기 클릭수를 각각 약 10%, 약 30% 증가를 이끌어 냈다.

2차 테스트 계획

의견충돌

2번째 검증 테스트

검증 결과

최소 기능 구현이 놓치는 부분들

정식 서비스를 위해 해야할 일들

<‘베스트탭’ 실서비스 반영 전 후의 지표 변화>

마무리

버즈니는 어떻게 상품 클릭율 10%를 높였을까? [마침]

​