📖 2022.01.01 读《置身事内》
type
Post
status
Published
date
Jan 1, 2022
slug
2022.01.01 读《置身事内》
summary
2022.01.01 读《置身事内》
tags
读书
category
胡言乱语系列
icon
password
基本信息
- 推荐指数:🌟🌟🌟🌟🌟
- 作者:兰小欢,2001年获得东北财经大学经济学学士学位,2006年获得中国社会科学院经济学硕士学位,2012年获得美国弗吉尼亚大学经济学博士,2012年作为研究学者加入长江商学院,复旦大学经济学院副教授,复旦大学中国经济研究中心研究员,上海国际金融与经济研究院研究员。曾任长江经济带产业基金战略与研究总监。主要研究中国的经济发展以及中国的政治经济等。著有经济学科普读物《一转念:用经济学思考》,编译《腐败与反腐败的经济学》,《置身事内: 中国政府与经济发展》
- 出版年份:2021/8
📖 2021.12.01 读《中国为什么有前途》
type
Post
status
Published
date
Dec 1, 2021
slug
2021.12.01 读《中国为什么有前途》
summary
2021.12.01 读《中国为什么有前途》
tags
读书
category
胡言乱语系列
icon
password
基本信息
- 推荐指数:🌟🌟🌟🌟
- 作者:翟东升翟dí东升(1976年-),江苏启东人,中国人民大学国际关系学院副院长、教授,国际政治经济学专业博士生导师,中国人民大学国际货币研究所特聘研究员。主要研究方向:货币的国际政治经济学,中国对外经济关系,中国改革的政治经济学,国际战略思想史。翟东升在2020年11月28日的一场公开演讲中讲述,中国当局在过去几十年中利用“美国权势核心圈内的老朋友”来影响美国政治和对华政策。该视频最先在中国社交媒体传播,随后被官方紧急下架。与此同时,翟东升的发言在海外网络上引起了广泛讨论,得到了福克斯新闻等美国主流媒体的报导,相关报导内容随后也得到了美国总统唐纳德·特朗普本人在推特上转发。近年出版有《中国为什么有前途——对外经济关系及其战略潜能》、《货币、权力与人——民本主义政治经济学视角下的货币金融问题》、《大国货币》等著作。
- 出版年份:2019-6-1
🎯 2021.03.04 召回-负例的艺术(wip)
type
Post
status
Published
date
Mar 4, 2021
slug
2021.03.04 召回-负例的艺术
summary
2021.03.04 召回-负例的艺术
tags
推荐
召回
样本
category
算天算地系列
icon
password
召回是负例选择的艺术,如何根据场景选择合适的召回负例,是决定召回效果的关键。目前的实践来看负例一般有以下几个选项:随机负例,真实负例,in-batch负例,级联负例。
1. 随机负例
首先一个众所周知的实践结果是只用“真实负例+正例”的效果非常差,远不如“随机负例+正例”。
为什么呢?一般认为是训练空间和预测空间的不一致导致的:能展现在用户面前的“真实负例”毕竟是少数,而召回模型面临的是超大规模的候选集,如果大部分的广告或者内容这个模型都从未见过,那显然会有泛化性能的问题。
从另一个角度来看,通过粗排和精排层层筛选展现在用户面前的内容都已经是相对优秀的内容,这部分内容相对于召回的海量候选,算得上是困难样本,两者的分布差异巨大,只用困难样本训练必然导致召回模型过拟合于困难样本,就难以泛化到全量候选中的简单样本。
💰 2021.01.09 怎么算投资回报率
type
Post
status
Published
date
Jan 9, 2021
slug
2021.01.09 怎么算投资回报率
summary
2021.01.09 怎么算投资回报率
tags
算法
投资
金钱
category
算天算地系列
icon
password
一个例子:
🎯 2020.10.13 最近召回技术的发展趋势
type
Post
status
Published
date
Oct 13, 2020
slug
2020.10.13 最近召回技术的发展趋势
summary
2020.10.13 最近召回技术的发展趋势
tags
算法
召回
category
算天算地系列
icon
password
1. 召回技术的发展历程
关于召回技术的发展大体可以分为 4 个阶段:
1.1 第一代召回技术
第一代以启发式规则为代表,大体可分为基于用户的协同过滤、 基于物品的协同过滤,基于模型的协同过滤(比如 MF 矩阵分解等),以基于 item 的协同过滤思想为例,根据两个item 被同时点击的频率来计算这两个 item 之间的相似度,然后推荐用户历史行为中各个 item的相似相关 item。这一类方法的优点是简单、性能较高,因此在实际的推荐场景中用途十分广泛,缺点是不能面向全量商品库来做检索,系统只能在用户历史行为过的商品里面找到侯选的相似商品来做召回,并且难以结合候选 item 的 Side Information(比如 brand,品类一些 id 信息),使得整个推荐结果的多样性差、对长尾商品的效果差,容易导致推荐系统出现“越推越窄”的问题,即系统总是给你推荐看过的或者买过的商品。
🎯 2020.03.18 数据流采样优化
type
Post
status
Published
date
Mar 18, 2020
slug
2020.03.18 数据流采样优化
summary
2020.03.18 数据流采样优化
tags
样本
算法
广告
推荐
category
算天算地系列
icon
password
本文介绍了几种对样本流进行采样的方法,采样后可以减少参与训练的样本量,提升训练速度,同时尽可能保证效果。
1. 均匀采样和纠偏
这是最常见的采样方法,一般对负样本进行概率为
的均匀采样,这样可以减少
的负样本量,大大提升训练的速度。同时,均匀负采样会让正负样本的差异变小,特别是长尾样本,因此会降低模型对这部分样本的区分度,所以在模型的泛化能力不足的情况下,这样做可以减少这些样本对模型的影响,优化一部分模型的泛化能力,当模型的泛化能力足够好的时候,均匀负采样就是纯粹的提升训练效率。由于采样后改变了正负样本的分布,因此需要对结果进行纠偏,通常有两种纠偏方法:
(1) serving 阶段纠偏,即用采样后的数据正常 training,在 serving 的时候进行纠偏。但这种方法非常不灵活,比如数据流在不同时间段的采样率不一样,或者构成数据流的不同路数据采样率不一样的时候,就无法在 serving 阶段进行纠偏。因此业界一般都是在 training 阶段进行纠偏;
🎯 2018.08.18 curveball 优化算法推导
type
Post
status
Published
date
Aug 18, 2018
slug
2018.08.18 curveball 优化算法推导
summary
2018.08.18 curveball 优化算法推导
tags
优化算法
推荐
算法
category
算天算地系列
icon
password
前段时间,VGG 的一拨人搞了个叫 curveball 的优化算法,能够将二阶信息用起来,同时避免了之前的传统方法要么去近似 Hessian 矩阵的逆,要么通过 conjugate-gradient 的方法去得到 Hessian 矩阵的逆,这些传统方法既耗时又对噪声敏感。而 curveball 算法并不需要直接算 Hessian 矩阵和它的逆,每次只是去估计梯度与 Hessian 矩阵的乘积即可,所付出的代价仅仅是额外的两次正向传播。 由于这篇文章写的极为简略,很多过程都直接略掉了,今天我们就来推导这个算法,将作者略去的部分补上。
文章链接:点我
文章代码 github 链接:点我