🎯 2021.03.04 召回-负例的艺术(wip)
type
status
date
slug
summary
tags
category
icon
password
召回是负例选择的艺术,如何根据场景选择合适的召回负例,是决定召回效果的关键。目前的实践来看负例一般有以下几个选项:随机负例,真实负例,in-batch负例,级联负例。

1. 随机负例

首先一个众所周知的实践结果是只用“真实负例+正例”的效果非常差,远不如“随机负例+正例”。
为什么呢?一般认为是训练空间和预测空间的不一致导致的:能展现在用户面前的“真实负例”毕竟是少数,而召回模型面临的是超大规模的候选集,如果大部分的广告或者内容这个模型都从未见过,那显然会有泛化性能的问题。
从另一个角度来看,通过粗排和精排层层筛选展现在用户面前的内容都已经是相对优秀的内容,这部分内容相对于召回的海量候选,算得上是困难样本,两者的分布差异巨大,只用困难样本训练必然导致召回模型过拟合于困难样本,就难以泛化到全量候选中的简单样本。
召回的作用是海选,需要有比较强大的泛化能力,需要让召回模型见到各种各样的样本,因此随机样本正是起到了这样的作用。正样本与随机样本的比例需要通过实验来确定,一般来说在 1:5 到 1:10 的水平比较合适。
💰 2021.01.09 怎么算投资回报率
type
status
date
slug
summary
tags
category
icon
password
 
 
一个例子:
 
一些收益率计算总结