🎯 2021.03.04 召回-负例的艺术(wip)
type
Post
status
Published
date
Mar 4, 2021
slug
2021.03.04 召回-负例的艺术
summary
2021.03.04 召回-负例的艺术
tags
推荐
召回
样本
category
算天算地系列
icon
password
召回是负例选择的艺术,如何根据场景选择合适的召回负例,是决定召回效果的关键。目前的实践来看负例一般有以下几个选项:随机负例,真实负例,in-batch负例,级联负例。

1. 随机负例

首先一个众所周知的实践结果是只用“真实负例+正例”的效果非常差,远不如“随机负例+正例”。
为什么呢?一般认为是训练空间和预测空间的不一致导致的:能展现在用户面前的“真实负例”毕竟是少数,而召回模型面临的是超大规模的候选集,如果大部分的广告或者内容这个模型都从未见过,那显然会有泛化性能的问题。
从另一个角度来看,通过粗排和精排层层筛选展现在用户面前的内容都已经是相对优秀的内容,这部分内容相对于召回的海量候选,算得上是困难样本,两者的分布差异巨大,只用困难样本训练必然导致召回模型过拟合于困难样本,就难以泛化到全量候选中的简单样本。
💰 2021.01.09 怎么算投资回报率
type
Post
status
Published
date
Jan 9, 2021
slug
2021.01.09 怎么算投资回报率
summary
2021.01.09 怎么算投资回报率
tags
算法
投资
金钱
category
算天算地系列
icon
password
 
 
一个例子:
 
🎯 2020.10.13 最近召回技术的发展趋势
type
Post
status
Published
date
Oct 13, 2020
slug
2020.10.13 最近召回技术的发展趋势
summary
2020.10.13 最近召回技术的发展趋势
tags
算法
召回
category
算天算地系列
icon
password
 

1. 召回技术的发展历程

关于召回技术的发展大体可以分为 4 个阶段:

1.1 第一代召回技术

第一代以启发式规则为代表,大体可分为基于用户的协同过滤、 基于物品的协同过滤,基于模型的协同过滤(比如 MF 矩阵分解等),以基于 item 的协同过滤思想为例,根据两个item 被同时点击的频率来计算这两个 item 之间的相似度,然后推荐用户历史行为中各个 item的相似相关 item。这一类方法的优点是简单、性能较高,因此在实际的推荐场景中用途十分广泛,缺点是不能面向全量商品库来做检索,系统只能在用户历史行为过的商品里面找到侯选的相似商品来做召回,并且难以结合候选 item 的 Side Information(比如 brand,品类一些 id 信息),使得整个推荐结果的多样性差、对长尾商品的效果差,容易导致推荐系统出现“越推越窄”的问题,即系统总是给你推荐看过的或者买过的商品。
🎯 2020.03.18 数据流采样优化
type
Post
status
Published
date
Mar 18, 2020
slug
2020.03.18 数据流采样优化
summary
2020.03.18 数据流采样优化
tags
样本
算法
广告
推荐
category
算天算地系列
icon
password
本文介绍了几种对样本流进行采样的方法,采样后可以减少参与训练的样本量,提升训练速度,同时尽可能保证效果。

1. 均匀采样和纠偏

这是最常见的采样方法,一般对负样本进行概率为的均匀采样,这样可以减少的负样本量,大大提升训练的速度。同时,均匀负采样会让正负样本的差异变小,特别是长尾样本,因此会降低模型对这部分样本的区分度,所以在模型的泛化能力不足的情况下,这样做可以减少这些样本对模型的影响,优化一部分模型的泛化能力,当模型的泛化能力足够好的时候,均匀负采样就是纯粹的提升训练效率。
由于采样后改变了正负样本的分布,因此需要对结果进行纠偏,通常有两种纠偏方法:
(1) serving 阶段纠偏,即用采样后的数据正常 training,在 serving 的时候进行纠偏。但这种方法非常不灵活,比如数据流在不同时间段的采样率不一样,或者构成数据流的不同路数据采样率不一样的时候,就无法在 serving 阶段进行纠偏。因此业界一般都是在 training 阶段进行纠偏;
🎯 2018.08.18 curveball 优化算法推导
type
Post
status
Published
date
Aug 18, 2018
slug
2018.08.18 curveball 优化算法推导
summary
2018.08.18 curveball 优化算法推导
tags
优化算法
推荐
算法
category
算天算地系列
icon
password
 
前段时间,VGG 的一拨人搞了个叫 curveball 的优化算法,能够将二阶信息用起来,同时避免了之前的传统方法要么去近似 Hessian 矩阵的逆,要么通过 conjugate-gradient 的方法去得到 Hessian 矩阵的逆,这些传统方法既耗时又对噪声敏感。而 curveball 算法并不需要直接算 Hessian 矩阵和它的逆,每次只是去估计梯度与 Hessian 矩阵的乘积即可,所付出的代价仅仅是额外的两次正向传播。 由于这篇文章写的极为简略,很多过程都直接略掉了,今天我们就来推导这个算法,将作者略去的部分补上。
 
文章链接:点我
文章代码 github 链接:点我
🎯 2018.06.09 神经网络的二阶导推导
type
Post
status
Published
date
Jun 9, 2018
slug
2018.06.09 神经网络的二阶导推导
summary
2018.06.09 神经网络的二阶导推导
tags
算法
category
算天算地系列
icon
password
 
练练手,强推神经网络的二阶导。
本文推导内容的 pdf 链接:点我

推导细节

notion image
🎯 2018.05.17 广告实时反馈CTR特征的使用方法
type
Post
status
Published
date
May 17, 2018
slug
2018.05.17 广告实时反馈CTR特征的使用方法
summary
2018.05.17 广告实时反馈CTR特征的使用方法
tags
推荐
广告
算法
category
算天算地系列
icon
password
 
在广告点击率预估场景中,特征工程绝对是最重要的工作,没有之一。能否从海量的数据中找到最有效的特征,决定了一个算法工程师每周是否可以加上一个鸡腿。在实践中我们发现,广告的实时反馈 CTR 特征是一个可以让工程师加鸡腿的特征,这里就来聊聊它的正确使用方法。

1. 为什么有用

广告的实时反馈 CTR 特征的意思就是当前的广告正在投放,已经投放一部分了,这部分的点击率基本可以认为是这个广告的点击率了,也可以认为是这个广告质量的体现,把它作为点击率预估的特征之一相当于把目标y的信息带入了x中,说白了就是合法的作弊了。

2. 特征分段

🎯 2018.05.11 SVRG算法的阅读理解和实践
type
Post
status
Published
date
May 11, 2018
slug
2018.05.11 SVRG算法的阅读理解和实践
summary
2018.05.11 SVRG算法的阅读理解和实践
tags
算法
推荐
优化算法
category
算天算地系列
icon
password
 
最近拜读了下大名鼎鼎的 SVRG 算法 [5],读完后把前前后后涉及到的方法都看了一遍,这里做个简单的综述和阅读理解,并描述了如何将方差缩减思想应用于在线学习。

1. 背景介绍

考虑优化问题:
📖 2018.05.07 意识诞生于上帝沉默时
type
Post
status
Published
date
May 7, 2018
slug
2018.05.07 意识诞生于上帝沉默时
summary
2018.05.07 意识诞生于上帝沉默时
tags
思考
读书
category
胡言乱语系列
icon
password
 
最近西部世界第二季开播了,等了一年,终于等到了。西部世界关于意识的理论用了所谓的二分心智理论,这个理论是美国心理学家朱利安·杰恩斯(Julian Jaynes)在他的神书《二分心智的崩塌:人类意识的起源(The Origin of Consciousness in the Breakdown of the Bicameral Mind)》里提出的,这是个神奇的理论,转发一篇介绍此人及此书的文章。
本文来源于微信公众号‘机器之心’(almosthuman2014)机器之心
本文选自Nautilus,作者VERONIQUE GREENWOOD,机器之心子牙、孟婷 、Salmoner翻译,微胖校对。
译者按:加拿大科幻小说之父Robert J. Sawyer在他的关于网络觉醒故事的全新三部曲《WWW》之《Wake》中讨论了意识起源,其中, 故事主人公 Caitlin花了大量时间去思索Julian Jaynes的著作《The Origin of Consciousness in the Breakdown of the Bicameral Mind》。本文正好对这部神作做了一番介绍,著作主要研究人类意识的起源。该书作者Julian Jaynes认为,直到史诗描述的时代为止,人类思维与现代人的思维大相径庭,当时的人类,缺乏自知、自我意识。他认为,人类服从他们认定为神祗的声音,直到人类思维产生了自我意识为止。其中,《伊利亚特》提供了非常重要的证据:几乎所有行为,都是神灵推动,早期译文中人物也明显缺乏内省。与主流将意识视为生物现象(比如,行为主义)不同,Julian Jaynes将意识起源归于文化(特别是语言的兴起)。如今,他的「奇谈怪论」却成了神经科学家们、哲学家们的热议话题甚至是灵感来源。
📖 2018.01.18 白夜行编年史
type
Post
status
Published
date
Jan 18, 2018
slug
2018.01.18 白夜行编年史
summary
2018.01.18 白夜行编年史
tags
读书
category
胡言乱语系列
icon
password
 
最近一直在看东野圭吾的书,除了《解忧杂货店》,最喜欢的就是这本《白夜行》了,简直让人过瘾,这是我读过的构思极为精巧的小说之一,这个小说时间跨度长达 20 年,中间若干条线交织并行,因此得梳理下其时间线,要不然真容易晕。
《白夜行》是日本作家东野圭吾创作的长篇小说,也是其代表作。该小说于 1997 年 1 月至 1999 年 1 月间连载于期刊,单行本 1999 年 8 月在日本发行。故事围绕着一对有着不同寻常情愫的小学生展开。1973 年,大阪的一栋废弃建筑内发现了一具男尸,此后 19 年,嫌疑人之女雪穗与被害者之子桐原亮司走上截然不同的人生道路,一个跻身上流社会,一个却在底层游走,而他们身边的人,却接二连三地离奇死去,警察经过 19 年的艰苦追踪,终于使真相大白。

1973年

桐原亮司11岁小学5年级,西本雪穗11岁小学5年级(故事开始)