国产性生交XXXXX免费,天堂网在线最新版www资源网

把抖音、今日頭條背后的技術(shù)開(kāi)放給企業(yè)，字節(jié)跳動(dòng)揭秘A/B測(cè)試產(chǎn)品

日期： 2021-04-22

來(lái)源：機(jī)器之心

關(guān)鍵詞： 抖音今日頭條

　　「A/B 測(cè)試不一定是最好的評(píng)估方法。它不是萬(wàn)能的，但不會(huì) A/B 測(cè)試肯定是不行的。」

　　4 月 20 日，首個(gè)火山引擎技術(shù)開(kāi)放日在北京方恒時(shí)尚中心舉辦，字節(jié)跳動(dòng)副總裁楊震原以《聊聊數(shù)據(jù)驅(qū)動(dòng)和用 A/B 測(cè)試解決問(wèn)題》為題，分享了他對(duì)于 A/B 測(cè)試的理解。

　　楊震原稱(chēng)，A/B 測(cè)試是字節(jié)跳動(dòng)一項(xiàng)非?；A(chǔ)的工具，從公司成立之初就在使用，支撐了抖音、今日頭條等產(chǎn)品的增長(zhǎng)迭代。目前，字節(jié)跳動(dòng) A/B 測(cè)試每日新增 1500 + 實(shí)驗(yàn)，服務(wù)于 400 多項(xiàng)大大小小的業(yè)務(wù)，累計(jì)做了 70 多萬(wàn)次實(shí)驗(yàn)。這項(xiàng)工具已經(jīng)實(shí)現(xiàn)產(chǎn)品化，通過(guò)火山引擎向企業(yè)客戶(hù)開(kāi)放。

　　A/B 測(cè)試廣泛應(yīng)用于字節(jié)跳動(dòng)方方面面，包括產(chǎn)品命名、交互設(shè)計(jì)、推薦算法等。但楊震原表示，這項(xiàng)工具也存在很多應(yīng)用局限，比如獨(dú)立性、置信度、長(zhǎng)短期等問(wèn)題。

　　楊震原透露，抖音產(chǎn)品名字，其實(shí)是綜合了 A/B 測(cè)試和人為判斷的結(jié)果，「『抖音』這個(gè)名字在測(cè)試結(jié)果中排名第二。但大家覺(jué)得，這個(gè)名字更符合認(rèn)知，更能體現(xiàn)它的形態(tài)，所以還是選了它?！?/p>

　　楊震原在火山引擎技術(shù)開(kāi)放日現(xiàn)場(chǎng)

　　以下為楊震原演講全文：

　　大家好，我叫楊震原。非常高興在火山引擎技術(shù)開(kāi)放日上和大家交流分享，希望對(duì)大家有所幫助。

　　字節(jié)跳動(dòng)做了很多產(chǎn)品，我們希望技術(shù)團(tuán)隊(duì)對(duì)待自家產(chǎn)品就像對(duì)待客戶(hù)一樣。我們不僅有內(nèi)部客戶(hù)，像抖音、今日頭條，也希望有更多外部客戶(hù)，把我們的技術(shù)能力輸出，于是就有了火山引擎品牌。火山引擎技術(shù)開(kāi)放日也是這個(gè)目的，希望把我們的技術(shù)對(duì)外，跟更多朋友分享交流。當(dāng)然，也有點(diǎn)私心，希望我們的產(chǎn)品能賣(mài)到更多地方去。

　　今天我們聊的話(huà)題是 “數(shù)據(jù)驅(qū)動(dòng)和用 A/B 測(cè)試解決問(wèn)題”。這里的關(guān)鍵詞是“解決問(wèn)題、數(shù)據(jù)驅(qū)動(dòng)、A/B 測(cè)試”。解決問(wèn)題一定要有好的方法，每個(gè)人都想用更好的方法解決問(wèn)題，這涉及用什么方法，達(dá)成什么目標(biāo)。“數(shù)據(jù)驅(qū)動(dòng)” 是我們公司內(nèi)非?？粗氐囊幌盗蟹椒ǎ癆/B 測(cè)試”是 “數(shù)據(jù)驅(qū)動(dòng)” 中的一個(gè)具體方法。

　　用戶(hù)畫(huà)像和使用時(shí)長(zhǎng)不是好的目標(biāo)

　　要想解決問(wèn)題，第一個(gè)問(wèn)題是：目標(biāo)是什么？很多人覺(jué)得：這個(gè)很簡(jiǎn)單啊！目標(biāo)嘛，今天想干一個(gè)什么事情，我就確定一個(gè)目標(biāo)，接下來(lái)就是照著這個(gè)目標(biāo)去完成。但是，確認(rèn)目標(biāo)，以及這個(gè)目標(biāo)是否可量化，其實(shí)是特別重要的。

　　我給大家舉幾個(gè)例子。我大概 2014 年初來(lái)到字節(jié)跳動(dòng)。剛來(lái)時(shí)，張一鳴說(shuō)把我們的推薦質(zhì)量提升提升，想想辦法怎么做改進(jìn)。所以，當(dāng)時(shí)我的目標(biāo)就是提升今日頭條產(chǎn)品的用戶(hù)體驗(yàn)，把推薦做得更好。

　　很快我發(fā)現(xiàn)，這方面其實(shí)已經(jīng)有很多項(xiàng)目在做了，其中有一個(gè)子方向的目標(biāo)是“全面、精準(zhǔn)的用戶(hù)畫(huà)像體系”。但在我看來(lái)，這個(gè)目標(biāo)其實(shí)有很多問(wèn)題。

　　我們的實(shí)際目標(biāo)是“提升推薦的用戶(hù)體驗(yàn)”。我們有很多方法來(lái)達(dá)成目標(biāo)，用戶(hù)畫(huà)像只是方法之一。它是個(gè)子目標(biāo)，不是我們要解決的目標(biāo)，甚至可能都不是重要的方法。即使假設(shè)這個(gè)目標(biāo)就是我們的主要目標(biāo)，我們也還要評(píng)估它是不是可衡量的。

　　如何評(píng)估這一點(diǎn)非常難，比如衡量用戶(hù)畫(huà)像是不是好，很難量化。用戶(hù)的實(shí)際興趣是什么，很難評(píng)估。問(wèn)用戶(hù)喜歡不喜歡旅游，一般人都說(shuō)喜歡，但是推薦旅游相關(guān)文章看不看？實(shí)際上很多人都不看。

　　因此，用戶(hù)畫(huà)像不是一個(gè)好的目標(biāo)。首先，這個(gè)目標(biāo)優(yōu)先級(jí)不一定高，其次，它的評(píng)估非常難，這就意味著，這個(gè)目標(biāo)很難指導(dǎo)我們的具體工作。

　　還有一種常用目標(biāo)，叫“使用時(shí)長(zhǎng)”。A 做了一個(gè)算法，平均使用時(shí)長(zhǎng) 40 分鐘，B 做的算法，平均使用時(shí)長(zhǎng) 45 分鐘，那是不是 B 就比 A 好？這個(gè)聽(tīng)起來(lái)似乎很科學(xué)。

　　但是我要跟大家講一個(gè)例子。大概在 2016 年，有一個(gè)傳統(tǒng)老牌外企，它在美國(guó)的 PC 端有一款產(chǎn)品是新聞推薦。這個(gè)公司在中國(guó)有一個(gè)研究所，其中一項(xiàng)工作是去提高新聞推薦質(zhì)量，采用的評(píng)估標(biāo)準(zhǔn)是用戶(hù)使用時(shí)長(zhǎng)。對(duì)于用戶(hù)在平臺(tái)上閱讀了多少時(shí)長(zhǎng)，這個(gè)研究所每個(gè)季度都有 KPI，連續(xù)幾年他們每年都能完成目標(biāo)，并且經(jīng)常超額完成。但后來(lái)我跟他們聊的時(shí)候，這個(gè)研究所快要解散了。

　　原來(lái)，雖然使用時(shí)長(zhǎng)在增加，但這個(gè)產(chǎn)品的用戶(hù)規(guī)模其實(shí)是不好的，用戶(hù)體驗(yàn)也不夠理想，整個(gè)產(chǎn)品的留存在下降。我問(wèn)他們，為什么你們的時(shí)長(zhǎng)一直在漲，但是你們產(chǎn)品卻不行了？對(duì)方說(shuō)：時(shí)長(zhǎng)是在漲，但時(shí)長(zhǎng)增長(zhǎng)有兩種方式，一種是用戶(hù)體驗(yàn)變好了、用戶(hù)看的時(shí)間更長(zhǎng)了；還有一種方式是用著很好的用戶(hù)繼續(xù)留下來(lái)了，而一些時(shí)長(zhǎng)很短的用戶(hù)看了看覺(jué)得這個(gè)產(chǎn)品不好，就走了。這些用戶(hù)走了以后，平均時(shí)長(zhǎng)繼續(xù)變長(zhǎng)。于是就變成了 “不斷驅(qū)趕體驗(yàn)差的用戶(hù)，平均時(shí)長(zhǎng)卻變長(zhǎng)了” 這樣一個(gè)過(guò)程。

　　這是很可怕的，看起來(lái)是個(gè)很好的目標(biāo)，但卻把產(chǎn)品做死了?？梢灶A(yù)見(jiàn)，如果我們只用使用時(shí)長(zhǎng)作為目標(biāo)的話(huà)，是有風(fēng)險(xiǎn)的。

　　那怎么辦呢？我們也沒(méi)有大招，只能是盡量將多個(gè)目標(biāo)綜合。既要考慮用戶(hù)體驗(yàn)，也要考慮一些客觀指標(biāo)，同時(shí)可能輔以一些用戶(hù)訪談的直觀印象，最后綜合去制定我們的方向。

　　好的目標(biāo)層次合理、可衡量

　　如何選一個(gè)合適的目標(biāo)？我覺(jué)得至少有兩個(gè)角度，需要去考慮。

　　第一個(gè)角度，目標(biāo)層次合理性。

　　什么叫“層次合理性”？比如你是一家公司的首席技術(shù)官（CTO），CEO 問(wèn)你公司的技術(shù)目標(biāo)是什么，你說(shuō)“我要讓我們的公司市值做得更大，原來(lái)估值 5 億美元，10 年之后估值 50 億美元”。這個(gè)目標(biāo)很泛、很高層次，跟最終目標(biāo)很接近。通常大家也不會(huì)質(zhì)疑說(shuō)這個(gè)目標(biāo)有錯(cuò)誤。但是這個(gè)目標(biāo)就不太能指導(dǎo)你的工作。CTO 下面的總監(jiān)、經(jīng)理、工程師這個(gè)季度該干什么呢？這個(gè)目標(biāo)能有些推導(dǎo)分解嗎？很難。雖然目標(biāo)層次很高，不容易偏離，但是對(duì)具體工作很難有指導(dǎo)。

　　那我們定非常具體的目標(biāo)可以嗎？比如像剛才的例子，以使用時(shí)長(zhǎng)為目標(biāo)。這種時(shí)候，會(huì)有另一個(gè)問(wèn)題：這個(gè)目標(biāo)很具體、很能指導(dǎo)工作，但是它偏離了怎么辦？還有一個(gè)可能出現(xiàn)的問(wèn)題是，這個(gè)目標(biāo)沒(méi)有偏離，但不可衡量，它不利于指導(dǎo)工作。

　　所以，應(yīng)該選一個(gè)不要太高、不要太低的目標(biāo)，并且定期衡量特別重要。聊數(shù)據(jù)驅(qū)動(dòng)思路時(shí)，當(dāng)試圖用數(shù)據(jù)驅(qū)動(dòng)思路去細(xì)化目標(biāo)時(shí)，有利于你仔細(xì)反思：我的目標(biāo)是不是這個(gè)？我的目標(biāo)能不能量化？它會(huì)逼你把目標(biāo)想得很清楚。

　　第二個(gè)角度，目標(biāo)可衡量。這一點(diǎn)特別重要。它跟數(shù)據(jù)驅(qū)動(dòng)的理念互相幫助，定好目標(biāo)，才能更好的應(yīng)用數(shù)據(jù)驅(qū)動(dòng)，當(dāng)你用數(shù)據(jù)驅(qū)動(dòng)的方法去做事情時(shí)，它就會(huì) push 你的目標(biāo)到底是不是合理。比如你想了想這個(gè)目標(biāo)：哦，之前的目標(biāo)就定錯(cuò)了，怪不得搞不清楚。

　　什么是靠譜的評(píng)估方法？

　　當(dāng)目標(biāo)想清楚了，那我們就評(píng)估吧。通常我們有哪些方法？

　　一是經(jīng)驗(yàn)判斷。不管什么公司，每天都在不停的用這個(gè)方法，這個(gè)方法非常靠譜的，但是有它的問(wèn)題。

　　二是非 A/B 測(cè)試的數(shù)據(jù)分析。

　　三是 A/B 測(cè)試的數(shù)據(jù)分析。我特別把 A/B 測(cè)試和非 A/B 測(cè)試區(qū)分了一下，因?yàn)樗且粋€(gè)更接近真實(shí)、更能夠把握住本質(zhì)的一個(gè)方法。相信很多朋友都了解因果推斷，做精準(zhǔn)的 A/B 測(cè)試能夠把因果說(shuō)得更清楚，所以是更有效的方法。

　　經(jīng)驗(yàn)判斷是什么？本質(zhì)上是就靠人，這個(gè)方法是普遍采用的。舉個(gè)例子，大家都知道我們公司在做短視頻，怎么評(píng)估質(zhì)量好壞？很多時(shí)候都靠人去判斷，如果你用客觀指標(biāo)判斷它，會(huì)有另外的風(fēng)險(xiǎn)，所以很多時(shí)候用人判斷。在很多公司，比如戰(zhàn)略決策通常是人判斷的，很難靠數(shù)據(jù)定你的戰(zhàn)略方向，這是一個(gè)很重要的方法。

　　但它的問(wèn)題在于：執(zhí)行層面很容易不一致，尤其對(duì)一個(gè)很大的公司來(lái)說(shuō)，每天要決策的事情很多，并不是每個(gè)決策都由 CEO 或者高管來(lái)做，可能會(huì)分到公司很多團(tuán)隊(duì)很多部門(mén)，每個(gè)部門(mén)都有很多人，這些人在他們的點(diǎn)上去做希望對(duì)公司正確的決策，但他們的意見(jiàn)有可能是不一致的。而且每個(gè)人可能有每個(gè)人的偏好，這是很難避免的。尤其公司比較大的時(shí)候，就會(huì)帶來(lái)非常多風(fēng)險(xiǎn)，比如不一致性和有偏性。

　　非 A/B 測(cè)試的數(shù)據(jù)分析。這個(gè)主要想強(qiáng)調(diào)關(guān)聯(lián)跟因果的問(wèn)題，我們來(lái)舉個(gè)例子就很容易看到。暑假前，運(yùn)營(yíng)團(tuán)隊(duì)做了一波活動(dòng)，聲勢(shì)非常浩大，到了暑假開(kāi)始的時(shí)候，發(fā)現(xiàn)用戶(hù)的活躍度大幅上升，這個(gè)提升是我們的運(yùn)營(yíng)活動(dòng)帶來(lái)的嗎？二者是有關(guān)聯(lián)的，但是關(guān)聯(lián)并不代表因果。很明顯，暑假就是一個(gè)因素，暑假帶來(lái)的變化跟運(yùn)營(yíng)活動(dòng)帶來(lái)的變化，到底誰(shuí)更大？這個(gè)事情很難歸因的。每個(gè)人都覺(jué)得自己做的事情有用，關(guān)聯(lián)分析中往往就會(huì)帶有偏見(jiàn)。

　　我們?cè)倥e個(gè)有趣的例子，諾貝爾獎(jiǎng)和巧克力消費(fèi)量的關(guān)系圖。圖片顯示，巧克力吃得越多的國(guó)家，諾貝爾獎(jiǎng)得主就越多。如果想改進(jìn)中國(guó)的科技水平，多拿諾貝爾獎(jiǎng)，我們應(yīng)該多吃巧克力嗎？這顯然不靠譜?？赡軙?huì)變胖，但很難拿到諾貝爾獎(jiǎng)。

　　這可以說(shuō)明一件事情，這兩個(gè)事件有關(guān)聯(lián)性，但是它不是因果性。從數(shù)據(jù)分析中得出結(jié)論，就會(huì)面臨很多這樣的風(fēng)險(xiǎn)，它會(huì)混淆關(guān)聯(lián)性和因果性，并不能解決問(wèn)題。

　　真正的完美解決方案是什么？得靠平行宇宙了。當(dāng)前時(shí)空是這個(gè)狀態(tài)，做了一波 A 操作，比如一些同事搞了一波活動(dòng)，時(shí)間退回去，他沒(méi)有做這個(gè)事情。我們?cè)倩剡^(guò)頭來(lái)看這兩個(gè)平行宇宙的差別是什么，這個(gè)差別就是這個(gè)活動(dòng)所帶來(lái)的，這個(gè)很好理解。但是我們沒(méi)辦法做平行宇宙的實(shí)驗(yàn)，就只能做 A/B 測(cè)試了。

　　怎么做 A/B 測(cè)試？當(dāng)我們想觀測(cè)某個(gè)方面，比如說(shuō)人群或者某類(lèi)產(chǎn)品，就把人群和產(chǎn)品分成 A、B 兩組，比如你的操作是發(fā)紅包，或者改了設(shè)計(jì)頁(yè)面，又或者是做了運(yùn)營(yíng)活動(dòng)。除了這些操作之外，其他的分布完全一樣。當(dāng)然了，這件事情只能無(wú)限逼近，不能做到理論上完全一樣，除非是平行宇宙。

　　A/B 測(cè)試看上去好像效率很低，非常復(fù)雜，要分組，還要看因素是不是剝離干凈了。但是當(dāng)你真正把一個(gè)事情搞清楚以后，就可以一個(gè)臺(tái)階一個(gè)臺(tái)階往上走。如果你搞不清楚，做得很快，有可能今天上一個(gè)臺(tái)階，明天下一個(gè)臺(tái)階，后天上一個(gè)臺(tái)階，不能保證一直在前進(jìn)，這是非常大的差別。

　　字節(jié)跳動(dòng)的 A/B 測(cè)試實(shí)踐

　　早期有記載的 A/B 測(cè)試，是在 1747 年，詹姆斯 · 林德治療壞血病的臨床實(shí)驗(yàn)。他們把患有壞血病的水手分成 6 組，每組 2 個(gè)人。在 6 天的時(shí)間內(nèi)，他們把大家安排在同樣的治療室中，吃同樣的食物，盡量排除實(shí)驗(yàn)的干擾。這個(gè)人群選擇也很重要，我們應(yīng)該選擇各種年齡段的，各種國(guó)家地區(qū)的。這里沒(méi)有寫(xiě)，沒(méi)有足夠的數(shù)量，這是它不嚴(yán)謹(jǐn)?shù)牡胤?。唯一的不同是每組的治療方案，吃什么東西？檸檬、橘子、蘋(píng)果汁、醋、海水等等。最后的實(shí)驗(yàn)結(jié)果是檸檬 / 橘子、蘋(píng)果汁有用。

　　在此之前有很多玄學(xué)，這個(gè)病，有人說(shuō)用這個(gè)方法有用，用那個(gè)方法有用，有的是碰上了，有的是有效了。這個(gè)實(shí)驗(yàn)雖然不夠嚴(yán)謹(jǐn)，還可以做得更好，但是它真正確定了什么原因。當(dāng)你非常確信這個(gè)結(jié)論時(shí)，就可以繼續(xù)深入研究，比如從這個(gè)食物中分離出它所必要的真正有效物質(zhì)是什么。在很確定結(jié)論的基礎(chǔ)上不斷演化，就能夠往后走得很遠(yuǎn)。

　　知道了 A/B 測(cè)試的源頭后，現(xiàn)在說(shuō)下字節(jié)跳動(dòng)做的 A/B 測(cè)試實(shí)踐。

　　2012 年公司成立，那時(shí)候我還沒(méi)來(lái)。聽(tīng)說(shuō)那會(huì)兒一鳴還在自己寫(xiě)代碼，已經(jīng)開(kāi)始做 A/B 測(cè)試。

　　我大概是 2014 年來(lái)的，發(fā)現(xiàn)公司已經(jīng)非常重視這方面。這跟我的理念非常像，我也在繼續(xù)推動(dòng)這件事情。比如定目標(biāo)，推動(dòng) A/B 測(cè)試的平臺(tái)化，讓它更嚴(yán)謹(jǐn)，以及發(fā)現(xiàn)它的問(wèn)題，在公司中更廣泛地使用。

　　到 2016 年，已經(jīng)變成一個(gè)內(nèi)部廣泛使用的平臺(tái)了，叫 Libra 平臺(tái)，它有很多的功能。到 2019 年時(shí)，我們已經(jīng)不只是內(nèi)部平臺(tái)了，正式立項(xiàng)，開(kāi)始做對(duì)外平臺(tái)，給外部更多客戶(hù)來(lái)用我們的產(chǎn)品。

　　內(nèi)部來(lái)說(shuō)，我們用 A/B 測(cè)試確實(shí)很多，現(xiàn)在每天大概新增 1500 個(gè)實(shí)驗(yàn)，服務(wù)了 400 多項(xiàng)業(yè)務(wù)，累計(jì)已經(jīng)做了 70 萬(wàn)次實(shí)驗(yàn)。

　　應(yīng)用在哪些方面呢？產(chǎn)品命名、交互設(shè)計(jì)，比如改一個(gè)字體、一個(gè)彈窗、界面大小，都會(huì)做 A/B 測(cè)試。推薦算法就不說(shuō)了，從一鳴自己寫(xiě)代碼開(kāi)始，就一直在做了。廣告優(yōu)化，這是業(yè)界普遍做法。用戶(hù)增長(zhǎng)，也是這樣。市場(chǎng)活動(dòng)，我們做了一小部分。內(nèi)部基本上就是，能用 A/B 測(cè)試的都用。

　　A/B 測(cè)試不是萬(wàn)能的

　　那 A/B 測(cè)試是不是就一統(tǒng)天下了呢？顯然也不是。A/B 測(cè)試不一定是最好的評(píng)估方法，它不是萬(wàn)能的，但是我覺(jué)得，不會(huì) A/B 測(cè)試肯定是不行的。

　　為什么說(shuō)它不一定是最好的評(píng)估方法？我們說(shuō)說(shuō)它的一些局限和問(wèn)題。

　　首先是獨(dú)立性的問(wèn)題。如果你真的想做 A/B 測(cè)試，就要對(duì)你的實(shí)驗(yàn)對(duì)象進(jìn)行分組，分組之后，去做一個(gè)操作，觀測(cè)結(jié)果。這個(gè)分組要求兩組是非常獨(dú)立，除了你的這個(gè)操作之外，其他部分都一樣，至少是分布一樣。但有時(shí)候這點(diǎn)并不容易保證。

　　舉個(gè)例子，網(wǎng)約車(chē)的司機(jī)分配策略，比如這個(gè)網(wǎng)約車(chē)分配什么司機(jī)？誰(shuí)離你最近，我就分配，這是一個(gè)策略。我們還可以考慮價(jià)格，以及車(chē)型和時(shí)間等等，做別的策略。A 同學(xué)做了 A 策略，B 同學(xué)做了 B 策略，哪個(gè)策略更好？

　　我們可以來(lái)做個(gè) A/B 實(shí)驗(yàn)，把用戶(hù)分成兩組，A 組是一部分用戶(hù)，用 A 策略，B 組是另一部分用戶(hù)，用 B 策略。但這是有很多問(wèn)題的。如果只按用戶(hù)來(lái)分，A 策略和 B 策略的用戶(hù)有可能都用同一個(gè)司機(jī)，A 策略的用戶(hù)把這個(gè)司機(jī)訂走了，B 組的用戶(hù)就訂不到這個(gè)司機(jī)了。

　　也就是說(shuō)，你最后觀測(cè)到的統(tǒng)計(jì)指標(biāo)，比如成單量、成單率，可能會(huì)有交叉影響，但具體是多少？單從這個(gè)實(shí)驗(yàn)數(shù)據(jù)來(lái)講，是看不出來(lái)的，也不太容易分析，所以它不獨(dú)立。交叉影響在哪？按用戶(hù)分了，但是司機(jī)沒(méi)有分開(kāi)，兩波用戶(hù)有可能會(huì)聯(lián)系到同一個(gè)司機(jī)，這就叫“獨(dú)立性問(wèn)題”。

　　更嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)怎么做？應(yīng)該把用戶(hù)和司機(jī)都分開(kāi)，把用戶(hù)編個(gè)組，司機(jī)也編個(gè)組，用戶(hù)司機(jī) A 組，用戶(hù)司機(jī) B 組。當(dāng)你發(fā)現(xiàn)你要觀測(cè)的對(duì)象不能被嚴(yán)格切分的話(huà)，就需要考慮獨(dú)立性的問(wèn)題，這時(shí)候你做的結(jié)論很可能是錯(cuò)的。

　　我們?cè)倏匆粋€(gè)置信度的問(wèn)題。比如做搜索評(píng)估，我們?cè)u(píng)估 100 個(gè)隨機(jī)測(cè)試，把它們分成 A、B 兩個(gè)測(cè)試組，其中有 22 個(gè)變好了，有 20 個(gè)變差了，加起來(lái)是 42 個(gè)，剩下的 58 個(gè)兩邊一樣。

　　請(qǐng)問(wèn)，A 組是比 B 組變好了嗎？有人說(shuō)，系統(tǒng)變好 10%，效果非常明顯。你相信嗎？你要相信的話(huà)就被蒙蔽了。

　　我這里寫(xiě)了一個(gè)置信度，P 值 = 0.75，這是什么意思？我們通常認(rèn)為，P 值要小于 0.05，這個(gè)數(shù)據(jù)才是可信的，也就是 A 比 B 好。0.75 的意思是 “A 比 B 好” 碰巧出現(xiàn)的概率是 75%，這是不可信的。我們把這個(gè)箱型圖畫(huà)出來(lái)，它波動(dòng)的范圍如果按照 95% 的區(qū)間，從 - 0.1 一直到 0.147，是非常大的范圍。把置信度畫(huà)出來(lái)，發(fā)現(xiàn)這個(gè)實(shí)驗(yàn)完全不能說(shuō)明 A 比 B 好。結(jié)論就是：這個(gè)實(shí)驗(yàn)不可信，沒(méi)有顯著性，完全不能從這個(gè)實(shí)驗(yàn)中得出 A 比 B 好的結(jié)論。

　　還有長(zhǎng)短期的影響，這也是一個(gè)常見(jiàn)的問(wèn)題。我舉一個(gè)例子，比如說(shuō)，我們對(duì)每個(gè)商品會(huì)有評(píng)價(jià)，現(xiàn)在興趣電商比較熱，電商的推薦主要會(huì)考慮它的評(píng)價(jià)，對(duì)于評(píng)價(jià)低的商品，我們會(huì)做一些控制和懲罰，讓它的推薦少一些。如果加大懲罰力度，或者由不懲罰變成懲罰，交易量會(huì)怎么樣變化？

　　如果做 A/B 實(shí)驗(yàn)，會(huì)發(fā)現(xiàn)加上這個(gè)懲罰，它的交易量是下降的。這很顯然，商品本來(lái)可以買(mǎi)，現(xiàn)在不讓買(mǎi)了，那它的交易量肯定下降。如果你看了 A/B 測(cè)試，說(shuō)我們不應(yīng)該做，對(duì)這些差的產(chǎn)品就應(yīng)該保持，那你很可能就錯(cuò)了。

　　有時(shí)候，靠人的經(jīng)驗(yàn)相信這個(gè)事情是對(duì)的，堅(jiān)持做，你很可能會(huì)得到一個(gè)正確的答案。為什么？我們這個(gè)實(shí)驗(yàn)不再測(cè) 3 天或者 1 個(gè)星期，而是測(cè) 1 個(gè)月，你會(huì)發(fā)現(xiàn)，這個(gè)交易量開(kāi)始是下降的，但是慢慢持平了。隨著時(shí)間再往前推移，它的交易量就變好了。

　　可以想象，當(dāng)你做了一些正確的事情，短期可能會(huì)受一定損失，但是積累了用戶(hù)口碑，這些東西周期都很長(zhǎng)的，慢慢效果就體現(xiàn)出來(lái)了。A/B 測(cè)試通常不會(huì)做那么多時(shí)間。

　　所以有時(shí)候要結(jié)合判斷相信背后本質(zhì)的東西，可以用更長(zhǎng)期的 A/B 測(cè)試驗(yàn)證它，這時(shí)候你會(huì)做出更正確的選擇。如果相信短期，就掉到溝里了，得出錯(cuò)誤的結(jié)論。

　　抖音的名字是怎么來(lái)的？

　　最后再講講抖音取名字的故事。很多人都很關(guān)心這件事，甚至有人說(shuō)抖音的名字是找大師算過(guò)的。起名字是可以做 A/B 測(cè)試的。當(dāng)年，我們做了這個(gè)短視頻產(chǎn)品，有很多候選名字，那會(huì)兒已經(jīng)有一些產(chǎn)品 demo 了。

　　我們就把這個(gè) demo 產(chǎn)品起成不同的名字，用不同的 logo，在應(yīng)用市場(chǎng)商店做 A/B 測(cè)試，同樣的預(yù)算，同樣的位置，這能測(cè)出用戶(hù)對(duì)這個(gè)名字的關(guān)心程度，吸引力程度，下載轉(zhuǎn)化率等等，但其實(shí)也是非常短期的。

　　做完這個(gè)測(cè)試之后，我們得出了一個(gè)排名，比如第一名是什么，第二名是什么?！岸兑簟笔桥琶诙?，不是最好的名字。當(dāng)時(shí)負(fù)責(zé)抖音的產(chǎn)品經(jīng)理，討論應(yīng)該用哪個(gè)名字。

　　你去看這個(gè)分析和排名，看那個(gè)過(guò)程，就會(huì)發(fā)現(xiàn)有一些是符合你的感覺(jué)，有一些不是符合你的感覺(jué)，才知道，原來(lái)人們對(duì)這個(gè)東西可能會(huì)這么想。所以 A/B 測(cè)試的過(guò)程，有時(shí)不完全看它的結(jié)論，它也會(huì)給你帶來(lái)很多認(rèn)知，這就是經(jīng)驗(yàn)帶來(lái)的偏差。A/B 測(cè)試可以糾正這些偏差，但是它也會(huì)有這樣或那樣的問(wèn)題，有時(shí)候你不會(huì)完全采納它的結(jié)論。

　　我們就沒(méi)有采納排名第一的名字，大家覺(jué)得，“抖音”長(zhǎng)期來(lái)講更符合認(rèn)知，更能體現(xiàn)它的形態(tài)，所以就選擇了 “抖音” 這個(gè)排名第二的選項(xiàng)。

　　從這個(gè)故事中可以看到，真正想去做一個(gè)科學(xué)決策，是很難有完美方法的，沒(méi)有一招鮮的方法，只有最合適的方法。充分地做 A/B 測(cè)試，這是一個(gè)能夠在很大程度上補(bǔ)充信息的過(guò)程，能夠消除很多偏見(jiàn)，能夠帶來(lái)很多客觀的事實(shí)。但是它也不是完美的，需要補(bǔ)充其他方法一起來(lái)用。就像 “抖音” 起名字的例子一樣。在公司中更廣泛地使用 A/B 測(cè)試，我相信對(duì)提高整個(gè)公司的決策質(zhì)量是很有幫助的。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話(huà)：010-82306118；郵箱：aet@chinaaet.com。

把抖音、今日頭條背后的技術(shù)開(kāi)放給企業(yè)，字節(jié)跳動(dòng)揭秘A/B測(cè)試產(chǎn)品

日期： 2021-04-22

來(lái)源： 機(jī)器之心

相關(guān)內(nèi)容

把抖音、今日頭條背后的技術(shù)開(kāi)放給企業(yè)，字節(jié)跳動(dòng)揭秘A/B測(cè)試產(chǎn)品

來(lái)源：機(jī)器之心