Nội dung & thiết kế

A/B testing email: test gì, mẫu bao nhiêu, đọc kết quả

Hầu hết quyết định trong email marketing đều bắt đầu bằng một câu “tôi nghĩ là…”. Tôi nghĩ tiêu đề này hay hơn, tôi nghĩ gửi buổi sáng tốt hơn, tôi nghĩ nút màu cam sẽ nhiều người bấm hơn. Vấn đề là trực giác thường sai, và bạn chỉ phát hiện ra khi đã gửi xong cả danh sách. A/B testing (còn gọi là split test) là cách thay những câu “tôi nghĩ” bằng số liệu thật: gửi hai phương án cho hai nhóm nhỏ ngẫu nhiên, đo xem phương án nào thắng, rồi gửi phương án thắng cho phần còn lại. Bài này đi sâu vào ba câu hỏi mà ai cũng vướng khi bắt đầu: test cái gì, cần bao nhiêu mẫu mới đáng tin, và đọc kết quả ra sao để không tự lừa mình.

A/B test thực sự là gì (và không phải là gì)

A/B test là một thí nghiệm có kiểm soát. Bạn lấy một tệp người nhận, chia ngẫu nhiên thành hai nhóm tương đương, cho mỗi nhóm trải nghiệm một điểm khác biệt duy nhất (phiên bản A và phiên bản B), rồi đo một chỉ số mục tiêu để xem phiên bản nào tốt hơn. Vì hai nhóm được chia ngẫu nhiên và chỉ khác nhau ở đúng một thứ, nếu kết quả chênh lệch đủ lớn thì ta có cơ sở tin rằng chính điểm khác biệt đó tạo ra chênh lệch — chứ không phải may rủi.

Điều A/B test không phải là: gửi email A tuần này, email B tuần sau rồi so sánh. Đó là hai bối cảnh khác nhau (ngày khác, tâm trạng người nhận khác, tin tức khác) nên kết quả vô nghĩa. A/B test đúng nghĩa là cùng thời điểm, cùng tệp, chỉ khác một biến.

Quy tắc vàng: mỗi lần chỉ đổi MỘT biến

Nếu phiên bản B vừa đổi tiêu đề, vừa đổi ảnh, vừa đổi nút kêu gọi, mà B thắng — bạn vẫn không biết yếu tố nào đã thắng. Lần sau dựng email mới, bạn không học được gì để áp dụng. Hãy kỷ luật: một biến, một test. Muốn test nhiều thứ thì làm tuần tự qua nhiều chiến dịch, mỗi chiến dịch một biến.

Test cái gì? Các biến đáng test, xếp theo độ tác động

Không phải biến nào cũng đáng test. Theo kinh nghiệm, những thứ ở gần “cánh cửa” của email (quyết định mở hay không) thường tạo chênh lệch lớn nhất và nên ưu tiên test trước. Dưới đây là các biến phổ biến, từ tác động cao xuống thấp:

1. Tiêu đề (subject line) — biến đáng test nhất

Tiêu đề quyết định email được mở hay bị lướt qua, nên đây là biến cho tỷ lệ đổi cao nhất với công sức ít nhất. Những thứ đáng thử riêng lẻ:

Có vs. không cá nhân hóa tên: “Anh Minh ơi, ưu đãi của riêng anh” so với “Ưu đãi dành riêng cho bạn”.
Lợi ích vs. tò mò: “Giảm 30% đến hết Chủ nhật” (lợi ích rõ ràng) so với “Bạn quên thứ này phải không?” (tạo khoảng trống tò mò).
Có vs. không emoji: một emoji đặt đầu/cuối có thể giúp nổi bật, nhưng cũng có thể phản tác dụng — chỉ test mới biết với tệp của bạn.
Ngắn vs. dài: 5 từ súc tích so với một câu kể chuyện dài hơn.
Có vs. không con số/khẩn cấp: “Còn 6 giờ” so với câu trung tính.

Trước khi đưa hai tiêu đề vào test, hãy soát rủi ro spam của từng câu bằng công cụ Soát từ khóa spam, chăm chút thêm dòng xem trước bằng công cụ Viết preheader, và đọc kỹ hơn về kỹ thuật viết trong bài cách viết tiêu đề tỷ lệ mở cao.

2. Tên & địa chỉ người gửi (from name)

Trong hộp thư, người nhận thấy tên người gửi trước cả tiêu đề. “Mailemdi” so với “Trang từ Mailemdi” so với “Đội ngũ hỗ trợ Mailemdi” có thể cho tỷ lệ mở rất khác nhau. Một cái tên có người thật (“Trang từ …”) thường tạo cảm giác cá nhân, gần gũi hơn tên thương hiệu khô khan. Đây là biến hay bị bỏ quên nhưng tác động lớn — và rất dễ test.

3. Nội dung & thiết kế email

Sau khi mở, điều giữ người nhận tiếp tục và bấm vào nút là nội dung. Các biến đáng test ở tầng này (đo bằng tỷ lệ click chứ không phải tỷ lệ mở):

Nút kêu gọi (CTA): chữ trên nút (“Mua ngay” vs. “Xem ưu đãi của tôi”), màu, vị trí, một nút vs. nhiều nút.
Email dài vs. ngắn: một thông điệp gọn với một nút, so với bố cục nhiều khối, nhiều sản phẩm.
Có ảnh lớn vs. thiên về chữ: email nhiều hình bắt mắt hơn nhưng email thiên văn bản đôi khi vào hộp thư tốt hơn và tải nhanh hơn.
Giọng văn: trang trọng so với thân mật, kể chuyện so với thẳng vào ưu đãi.

Khi test thiết kế, luôn kiểm tra cả dung lượng và khả năng vào hộp thư của từng phiên bản — một email quá nặng ảnh hoặc dính từ nhạy cảm có thể rớt spam, làm sai lệch kết quả. Dùng công cụ Dung lượng email và Soát từ khóa spam cho cả A lẫn B trước khi gửi.

4. Thời điểm gửi (giờ & ngày)

Gửi 9 giờ sáng thứ Ba hay 8 giờ tối thứ Năm? Không có câu trả lời chung — tệp khách B2B mở email trong giờ làm việc, còn tệp bán lẻ có khi mở nhiều vào buổi tối. Lưu ý: test thời điểm hơi khác các biến khác vì bạn không thể gửi “cùng lúc” hai giờ khác nhau. Cách làm thực tế là chia danh sách thành hai nhóm tương đương, gửi nhóm 1 lúc giờ A và nhóm 2 lúc giờ B trong cùng một ngày, rồi so sánh. Cần lặp lại qua vài lần để loại nhiễu, vì một ngày đơn lẻ dễ bị biến cố bất thường (lễ, tin nóng) chi phối.

5. Preheader, tần suất, ưu đãi

Còn nhiều biến nhỏ hơn đáng test khi bạn đã làm chủ những biến lớn: dòng preheader (đoạn xem trước), mức ưu đãi (giảm 15% vs. miễn phí vận chuyển), hay thậm chí tần suất gửi (test trên hai nhóm dài hạn). Hãy để dành những biến này cho giai đoạn tối ưu sâu, sau khi tiêu đề và người gửi đã ổn.

Chọn đúng chỉ số mục tiêu cho mỗi biến

Biến ảnh hưởng tới việc mở (tiêu đề, người gửi, giờ gửi, preheader) thì đo bằng tỷ lệ mở. Biến ảnh hưởng tới việc hành động sau khi mở (CTA, nội dung, ưu đãi) thì đo bằng tỷ lệ click hoặc tốt nhất là tỷ lệ chuyển đổi (mua, đăng ký). Đừng chọn người thắng tiêu đề chỉ vì click cao — vì click còn phụ thuộc nội dung bên trong.

Cần bao nhiêu mẫu? Vì sao danh sách nhỏ không test được

Đây là phần nhiều người làm sai nhất. Giả sử bạn gửi cho 100 người, chia 50–50. Nhánh A có 12 người mở (24%), nhánh B có 9 người mở (18%). Trông như A thắng rõ ràng? Thực ra không. Với cỡ mẫu nhỏ như vậy, chỉ cần 2–3 người mở thêm hay ít đi do tình cờ là kết quả đã đảo ngược. Chênh lệch bạn thấy phần lớn là nhiễu ngẫu nhiên, không phải tín hiệu thật.

Nguyên lý cốt lõi: để phân biệt được chênh lệch thật khỏi may rủi, mỗi nhánh cần đủ số lượt sự kiện (lượt mở, lượt click), chứ không chỉ đủ số người nhận. Chênh lệch càng nhỏ thì càng cần nhiều mẫu để chắc chắn. Vài mốc tham khảo thực chiến:

Quy mô danh sách	A/B test có ý nghĩa?	Gợi ý
Dưới ~1.000	Rất khó tin cậy	Đừng chia mẫu nhỏ để chọn thắng; thay vào đó test trên cả danh sách qua nhiều chiến dịch và tích lũy
~1.000–5.000	Tạm được nếu chênh lệch lớn	Chỉ test biến tác động mạnh (tiêu đề, người gửi); chấp nhận kết quả chỉ mang tính tham khảo
~5.000–20.000	Tốt	Dùng nhóm test 10–20% mỗi nhánh, gửi câu thắng cho 60–80% còn lại
Trên ~20.000	Rất tốt	Nhóm test nhỏ (5–10% mỗi nhánh) cũng đã đủ kết luận; phần lớn danh sách nhận câu thắng

Một cách nhìn khác về cỡ nhóm test: hãy nhắm để mỗi nhánh có ít nhất khoảng 1.000 người nhận và kỳ vọng thu được vài trăm lượt mở mỗi nhánh. Dưới ngưỡng đó, hãy coi kết quả là gợi ý chứ không phải phán quyết.

Chia nhóm test bao nhiêu phần trăm là hợp lý?

Mô hình phổ biến: dùng một phần danh sách làm “nhóm test” (chia đôi cho A và B), phần còn lại là “nhóm chốt” nhận câu thắng. Nếu danh sách lớn, nhóm test 20–30% (mỗi nhánh 10–15%) là đủ để kết luận mà vẫn để dành phần lớn danh sách cho câu thắng — tức bạn vừa học được, vừa không “lãng phí” đa số người nhận vào phương án thua. Danh sách càng lớn, tỷ lệ nhóm test càng có thể nhỏ.

Chạy test trong bao lâu trước khi chốt người thắng?

Một sai lầm kinh điển khác: chốt người thắng quá sớm. Trong 30 phút đầu sau khi gửi, tỷ lệ mở của A và B có thể nhảy múa và đảo ngôi liên tục vì mới chỉ vài chục người mở. Email cũng có “đời sống dài”: nhiều người mở sau vài giờ, thậm chí hôm sau mới mở. Vì vậy:

Với tỷ lệ mở (tiêu đề, người gửi): nên chờ ít nhất 2–4 giờ, lý tưởng là 4–8 giờ, để phần lớn lượt mở “sớm” đã về.
Với tỷ lệ click/chuyển đổi: cần lâu hơn, thường 12–24 giờ trở lên, vì hành vi mua/đăng ký diễn ra rải rác.
Đừng chờ quá lâu một cách máy móc. Nếu ưu đãi “chỉ còn hôm nay”, chờ 24 giờ rồi mới gửi câu thắng thì phần lớn danh sách nhận quá muộn. Cân bằng giữa độ tin cậy và tính kịp thời.

Mẹo thực tế: chọn khung giờ test sao cho thời điểm chốt người thắng vẫn rơi vào lúc người nhận còn hoạt động. Ví dụ test lúc 9 giờ sáng, chốt và gửi câu thắng lúc 13–14 giờ cùng ngày — vừa đủ chín kết quả, vừa còn nguyên buổi chiều tối để phần lớn danh sách kịp mở.

Ý nghĩa thống kê: làm sao biết chênh lệch là thật?

Cụm từ “có ý nghĩa thống kê” nghe học thuật nhưng ý tưởng rất đời thường: nó trả lời câu hỏi “nếu thật ra A và B tốt ngang nhau, thì xác suất ta tình cờ thấy chênh lệch lớn như đang thấy là bao nhiêu?”. Nếu xác suất đó đủ nhỏ (theo thông lệ là dưới 5%, tức “độ tin cậy 95%”), ta kết luận chênh lệch khó mà do may rủi — A thật sự khác B.

Bạn không cần tự tính tay. Nhưng nên nắm ba trực giác để không bị số liệu đánh lừa:

Chênh lệch nhỏ cần mẫu lớn. 24% vs. 23% có thể chỉ là nhiễu trừ khi danh sách rất lớn. 24% vs. 18% thì dễ đạt ý nghĩa hơn nhiều với cùng cỡ mẫu.
Đừng “nhìn lén” rồi dừng sớm. Nếu cứ liên tục kiểm tra và dừng test ngay khoảnh khắc A vượt lên, bạn gần như chắc chắn sẽ bắt được một chênh lệch ngẫu nhiên thoáng qua. Hãy định trước thời gian/cỡ mẫu rồi mới đọc kết quả.
Không có ý nghĩa cũng là kết quả. Nếu A và B hòa, bài học là biến đó không quan trọng với tệp này — hãy chuyển sang test biến khác có sức nặng hơn.

Cảnh báo: “người thắng” từ test bé thường không lặp lại

Nếu bạn test trên danh sách nhỏ và thấy B thắng 27% vs. 21%, rất có thể lần sau gửi lại, A và B đảo chỗ. Đó không phải vì bạn làm sai mà vì chênh lệch ban đầu phần lớn là ngẫu nhiên. Cách chống lại: hoặc tăng cỡ mẫu, hoặc lặp lại cùng một test qua nhiều chiến dịch và chỉ tin vào xu hướng ổn định, không tin vào một lần thắng đơn lẻ.

Mailemdi chọn người thắng và gửi tiếp như thế nào

Mailemdi hỗ trợ A/B test ngay trong trình tạo chiến dịch, và làm được nhiều hơn chỉ test tiêu đề. Ở bước soạn chiến dịch, bạn chọn một trong ba chế độ: Không test (một tiêu đề duy nhất), A/B test (so kè Phương án A và B), hoặc Multivariate (thử tối đa 8 tổ hợp tiêu đề cùng lúc). Bạn không phải tự chia danh sách, tự bấm giờ hay tự tính toán — quy trình diễn ra như sau:

Bạn khai báo phương án cần test. Với chế độ A/B, điểm mạnh là bạn có thể test đa yếu tố — bật riêng từng yếu tố muốn so sánh giữa A và B: tiêu đề, tên người gửi, nội dung email, hoặc thời điểm gửi. (Lưu ý kỷ luật: dù hệ thống cho bật nhiều yếu tố, muốn học được “yếu tố nào thắng” thì mỗi test vẫn nên chỉ đổi một yếu tố.) Với chế độ Multivariate, bạn nhập nhiều dòng tiêu đề (tối đa 8) để hệ thống tự so.
Chọn cỡ nhóm thử và thời gian chốt. Bạn đặt tỷ lệ nhóm thử (mặc định 20% danh sách được tách ra để thử, phần còn lại nhận phương án thắng) và thời gian chờ trước khi chốt người thắng (mặc định 4 giờ).
Hệ thống chia nhóm test ngẫu nhiên. Nhóm thử được tách ra và chia đều, ngẫu nhiên cho từng phương án để các nhánh tương đương về thành phần.
Gửi đồng thời và theo dõi. Mỗi nhánh nhận một phương án, Mailemdi đo hiệu quả của từng nhánh theo thời gian thực.
Chọn câu thắng theo chỉ số bạn đặt. Bạn được chọn tiêu chí chốt người thắng: theo tỷ lệ mở (mặc định, hợp cho test tiêu đề/người gửi) hay theo tỷ lệ click (hợp khi yếu tố quyết định nằm ở nội dung). Hết thời gian chờ, phương án dẫn đầu theo chỉ số đó là người thắng.
Tự gửi câu thắng cho phần còn lại. Toàn bộ danh sách chưa nhận (nhóm chốt) sẽ nhận email với phương án thắng — để phần lớn người nhận được phương án tốt nhất.

Toàn bộ chỉ số mở/click của từng nhánh đều hiển thị trong báo cáo chiến dịch, nên bạn vừa có câu thắng tự động, vừa giữ lại dữ liệu để rút kinh nghiệm. Xem chi tiết cách đọc các chỉ số này trong hướng dẫn Tạo & theo dõi chiến dịch. Với các luồng gửi tự động (welcome, giỏ hàng bỏ quên…), bạn cũng có thể áp dụng tư duy test tương tự khi dựng kịch bản trong Automation.

Nền tảng gửi tốt thì kết quả test mới đáng tin

Nếu domain chưa xác thực SPF/DKIM/DMARC hoặc danh sách bẩn, một phần email rớt spam một cách ngẫu nhiên — và điều đó làm méo kết quả test (bạn tưởng tiêu đề A kém hơn, thực ra nó vô tình rơi vào nhóm bị lọc nhiều hơn). Hãy bảo đảm nền tảng gửi vững trước khi tin vào số liệu. Mailemdi hướng dẫn bạn thêm và kiểm tra bản ghi SPF/DKIM/DMARC ngay trong phần cài đặt domain; đọc quy trình đầy đủ trong bài SPF, DKIM, DMARC toàn tập và hướng dẫn Vào hộp thư đến.

Quy trình A/B test thực chiến, từng bước

Gom tất cả lại thành một quy trình bạn có thể lặp cho mọi chiến dịch lớn:

Đặt giả thuyết rõ ràng. Viết ra một câu: “Tôi tin tiêu đề có cá nhân hóa tên sẽ mở cao hơn vì cảm giác riêng tư.” Có giả thuyết thì kết quả mới có ý nghĩa để học.
Chọn đúng một biến. Tiêu đề, hoặc người gửi, hoặc CTA — không gộp.
Chọn chỉ số mục tiêu. Mở (cho tiêu đề/người gửi) hay click/chuyển đổi (cho nội dung/CTA).
Ước lượng cỡ mẫu. Danh sách đủ lớn để mỗi nhánh có vài trăm lượt sự kiện. Nếu quá nhỏ, đừng chia — tích lũy qua nhiều lần thay vì.
Soát kỹ thuật cả hai phiên bản. Cả A và B đều qua Soát từ khóa spam và đo dung lượng email để không phiên bản nào bị thiệt vì lý do kỹ thuật.
Định trước thời gian chốt. Quyết định “chờ 4 giờ rồi chốt” ngay từ đầu, đừng vừa gửi vừa nhìn lén rồi dừng theo cảm tính.
Đọc kết quả & ghi lại. Ai thắng, chênh bao nhiêu, có đủ ý nghĩa không. Lưu vào “sổ tay test” của bạn.
Áp dụng & test tiếp. Biến bài học thành mặc định cho lần sau, rồi chọn biến mới để test. Tối ưu là một vòng lặp, không phải một lần.

Những sai lầm khiến A/B test trở nên vô nghĩa

Đổi nhiều biến cùng lúc. Thắng mà không biết nhờ đâu thì không học được gì.
Mẫu quá nhỏ. Chênh lệch trên vài chục người mở gần như luôn là nhiễu.
Chốt quá sớm. Tỷ lệ trong 30 phút đầu chưa phản ánh kết quả cuối.
Nhìn nhầm chỉ số. Chọn người thắng tiêu đề theo tỷ lệ click thay vì tỷ lệ mở.
So sánh hai chiến dịch khác ngày. Đó không phải A/B test — bối cảnh khác nhau làm kết quả vô giá trị.
Không ghi lại bài học. Test mà không lưu kết quả thì mỗi lần lại bắt đầu từ con số không.
Tin tuyệt đối vào một lần thắng. Một kết quả đẹp trên mẫu nhỏ chưa phải quy luật; hãy chờ xu hướng lặp lại.

Đọc thêm

Cách viết tiêu đề email tỷ lệ mở cao — nguyên liệu cho mọi A/B test tiêu đề, kèm hơn 30 mẫu.
Công cụ Viết preheader — chăm chút dòng xem trước đi kèm tiêu đề cho từng phương án trước khi test.
Công cụ Soát từ khóa spam — bảo đảm cả A và B không phiên bản nào bị thiệt vì rủi ro spam.
Công cụ Kiểm tra link — soát link hỏng/sai ở cả hai phiên bản để click không bị mất oan khi test nội dung/CTA.
Tạo & theo dõi chiến dịch — đọc báo cáo mở/click của từng nhánh để chọn và học từ người thắng.
Liên hệ hỗ trợ — cần tư vấn thiết kế test cho danh sách của bạn? Hỏi đội ngũ Mailemdi.

Để Mailemdi lo phần chia mẫu, đo lường và chọn người thắng

Mailemdi giúp bạn A/B test tiêu đề ngay trong trình tạo chiến dịch: tự chia nhóm test ngẫu nhiên, đo tỷ lệ mở theo thời gian thực, chọn câu thắng và gửi cho phần còn lại của danh sách — cộng thêm xác thực domain SPF/DKIM/DMARC, phân khúc, làm nóng domain và theo dõi mở/click để mỗi quyết định của bạn dựa trên số liệu thật, không phải phỏng đoán.

Bắt đầu miễn phí với Mailemdi