新老策略模型究竟孰好孰壞?
在行業(yè)里做過較長時間策略或模型的人,一定會經歷模型策略迭代的過程;而迭代過程中你總會遇到新策略是不是一定比舊策略好的問題。新老策略模型究竟孰好孰壞呢?如何分辨?本文提出了4種解決方法,希望能給你帶來幫助。
任何在這個行業(yè)里做過較長時間策略或模型的人,一定會經歷模型策略迭代的過程;任何經歷過模型策略迭代的人,只要有過獨立思考,一定會遇到新策略是不是一定比舊策略更好的問題。
貸前也好,貸中也罷,當前的風險表現都是當前的這套風險策略的結果。當我們要迭代模型策略的時候,KS也好,Lift值也罷,你會高估新模型策略的效果,更為可靠的說法是,你會高估新版對舊版的提升效果。
因為評估的樣本,并非完全是應用的樣本,這就由此產生了選擇偏差,或者說幸存者偏差,我們是在“幸存者”上確保了B好于A。
常見的現象是,新模型永遠比舊模型好,但卻并不一定是真的好。試問,如果新模型新策略永遠比舊模型舊策略更好的話,為什么業(yè)務沒有變得更好?
因為上述問題的必然性和重要性,新老策略模型究竟孰好孰壞,可以說是這個行業(yè)最經典的問題。
我們今天來聊一聊解決辦法。思來想去,解決辦法似乎有四種,是哪四種呢?這四種又具備哪些優(yōu)劣點呢?
01 隨機流量
最徹底的一種是隨機流量。隨機一部分流量例如1%,讓其通過,給隨機額度隨機息費,任其表現。也不需要100%通過,政策風險、欺詐風險等前置穩(wěn)定不變的策略還是可以照常有。
這部分流量,可以用來建模,可以用來評估,最重要的是用來評估。任你選什么樣本,任你做多少模型,任你套什么算法,只要在這個隨機流量上效果是更優(yōu)的,就有理由認定為模型是更優(yōu)的。策略當然也是一樣。
當前,普適的前提還是需要滿足,例如樣本量得足夠大、時間窗口得足夠長、模型本事穩(wěn)定性可靠性得盡可能高。因為,真正的目標是未來的隨機流量上的效果好。
這個辦法沒有任何壞處,除了費錢。信貸領域,隨機流量的成本太高了,年化24%的產品,多少個好客戶的收益才能彌補一個壞客戶的成本?
所以,這個辦法用的并不多。只有頭部效應明顯、營收穩(wěn)定的平臺有可能會預留一部分資產預算用于隨機流量。
也不對,遠超過24%年化的那個黃金年代,也適用,只是他們不是為了隨機流量而隨機,而是沒有太多風控,暴力催收+高息可以搞定。
02 拒絕推斷
顧名思義,拒絕推斷就是對拒絕的樣本進行表現的推斷,是去解決幸存者偏差的問題。有了全量樣本的表現,模型策略孰好孰壞一算便知。
上面說的隨機流量,其實就可以看作拒絕推斷的一種解決辦法。其他的辦法,不管是推斷拒絕樣本的表現也好,還是獲取拒絕樣本在其他產品上的表現也好,總歸是非真實的。你說引入了信息,我說引入了噪聲。
引入不精確的信息來解決精確性的問題,總歸是值得懷疑的。
所以,對于拒絕推斷,實際上在用的是少之又少。因為太多假設,因為不準,就不如不用,就像判別模型大體總是比生成模型有效。
03 冠軍挑戰(zhàn)者
國外來的叫法,但其實就是ABtest。
當前線上的策略作為冠軍組,擬上線的策略作為挑戰(zhàn)組,挑戰(zhàn)組可以有多個。因為表現期滯后且損失大,隨機切小部分流量給挑戰(zhàn)組,不宜過多,例如10%。任其表現,優(yōu)劣自明。
挑戰(zhàn)成功,則挑戰(zhàn)者成為新的冠軍者,可以全部切換新策略。但也可以不全切,甚至可以永遠保持50%:50%的冠軍挑戰(zhàn)者。好處當然是對比得更充分,且可以應對突發(fā)情況,其一下線其一遞補。
ABtest當然具備很強的嚴謹性,但在風控領域,效率不行。前已備述,風控不需要做ABTest?
ABtest最大的優(yōu)勢是在當你無法評估多個方案的優(yōu)劣時,你不知道哪種字體、哪個顏色、哪種文案、多少度的倒角,究竟哪個好哪個壞,試了才知道。
而風控領域,你做了一個模型,然后跟老板說我也不知道有沒有更好,測了才知道。祝你好運!
你做的模型一定是要離線評估更優(yōu)的,當然,離線評估沒有線上真實去測的可靠性那么高,但也可以盡可能高。
04 分群評估
上述辦法的弱點都很明顯,那有沒有弱點沒那么明顯的辦法?有,那就是分群評估。
請君靜聽。
分群評估當然就是把整個客群分成很多的客群,分別看這些客群下的效果。關于分群的藝術,可以說是互聯網業(yè)務中最重中之重的法寶。不信?我的客群觀,互聯網業(yè)務的流量之爭。
分群評估的奧秘在于,不同客群的通過率或者額度定價是不同的,受策略影響大的客群評估效果離真相越遠,那受策略影響小的客群評估效果則離真相就會越近。
在一個通過率10%的客群上,新模型優(yōu)于舊模型易如反掌;在一個通過率90%的客群上,新模型優(yōu)于舊模型才是真的更優(yōu)。
分群評估在這個問題上有效,取決于一個假設,那就是一個模型相比另一個模型要好,那會是全方位地好。如果模型B優(yōu)于模型A,那么不管是整體,還是各個客群,都是B更好。
反之亦然。在受樣本有偏影響更小的客群上,即可靠性高的客群,新模型優(yōu)于舊模型,則有理由認為在其他客群上也會更優(yōu)。
值得強調的是,我們所討論的是模型策略迭代的對比,如果你針對的就是局部客群的優(yōu)化,則不在此列。
總結
前面三個你大概率都看過,那第四個值得你看四遍。
僅存的問題是,局部客群的提升幅度能多大程度上代表整體?
我不喜歡過度依據數據來判斷道理,道理很多時候是可以跨越數據而成立的。如果一個數據不符合某個道理,我更傾向于懷疑數據而不是道理,但程度問題必然還是依靠數據。
上述程度問題我無法判斷。如你們有這樣的試驗數據,或者有這樣的文獻結果,請告知我。以饗讀者。
來源:人人都是產品經理
以上是關于用戶增長師的相關信息,以供大家查看了解。想要了解更多用戶增長師信息,第一時間了解用戶增長師相關資訊,敬請關注唯學網用戶增長師欄目,如有任何疑問也可在線留言,小編會為您在第一時間解答!