作者 | 吴海波
责编 | 何永灿(heyc@csdn.net)
随着电商竞争的日益加剧,如何准确预估每个商品的GMV转化率,实现流量的最大化,继而达到收益的最大化,这
是所有电商在技术层面都在力求解决的核心问题。
那么,这个核心问题到底是怎么解决的呢?
前蘑菇街(现如今,蘑菇街和美丽说合并后,更名美丽联合集团)电商排序及推荐的技术负责人吴海波近日写了一篇
文章,非常详细地阐述了蘑菇街机器学习从无到有的过程,以及在3年中,技术是如何通过模型迭代,来服务于不同
阶段业务目标----打造爆款、追求效率、提升品质。
比如:追求效率阶段,即提升对商品的GMV转化率,实现流量最大化;而在追求品质阶段,目标则变成了如何减少
损失。
由此,他也提出相应的模型:爆款模型、转化率模型以及个性化模型等。
这是机器学习在电商发展中的从爆款模型再到个性化模型这是业务重心的快速变化,更是电商的适应性进化,
吴海波多年的经验,如果说要用一句话总结,那便是,“模型本身的迭代需配合业务目标才能发挥出最大的价值,因
此选择模型迭代的路线,必须全盘考虑业务的情况。”
这既是蘑菇街的打法,而从中也能窥到整个电商的打法进化论。如今,在新的起点上,电商再次迎来深度学习,强化
学习。关于深度学习和强化学习在具体实践中,是如何服务电商业务,我们在以后的文章再谈。
这场电商抢夺战之间的技术壁垒,真真是越来越高了。
以
下为
吴
海波
的
原
文
,
最
早
发
自
《
程
序
员
》
杂
志
,
本
文
经
授
权
转
自
人
工
智
能
头
条
(
微
信
号
:
AI_Thinker
),
enjoy
!
通
常
机
器
学
习
在
电
商
领
域
有
三
大
应
用
,
推
荐
、
搜
索
、
广
告
。
这
次
我
们
聊聊
三个
领
域
里
都
会
涉
及
到
的
商
品
排
序
问
题
。
从业务角度,一般是在一个召回的商品集合里,通过对商品排序,追求GMV或者点击量最大化。进一步讲,就是基
于一个目标,如何让流量的利用效率最高。很自然的,如果我们可以准确预估每个商品的GMV转化率或者点击率,
就可以最大化利用流量,从而收益最大。
蘑菇街是一个年轻女性垂直电商平台,主要从事服饰鞋包类目,2015年时全年GMV超过了百亿,后与美丽说合并后
公司更名为美丽联合集团。2014年时入职蘑菇街,那时候蘑菇街刚刚开始尝试机器学习,这3年中经历了很多变化,
打造爆款、追求效率、提升品质等等。虽然在过程中经常和业务方互相challenge,但我们的理念——技术服务于业
务始终没有变化过。模型本身的迭代需配合业务目标才能发挥出最大的价值,因此选择模型迭代的路线,必须全盘考
虑业务的情况。
在开始前,先和大家讨论一些方法论。
在
点
击
率
预
估
领
域
,
常
用
的
是
有
监督
的
模
型
,
其
中
样
本
、
特
征
、
模
型
是
三个
绕
不
开
的
问
题
。首先,如何构建样本,涉及模型的目标函数是什么,即要优化什么。原则上,我们希望样本构建越接
近真实场景越好。比如点击率模型常用用户行为日志作为样本,曝光过没有点击的日志是负样本,有点击的是正样
本,去构建样本集,变成一个二分类。在另一个相似的领域——Learning to rank,样本构建方法可以分为三类:
pointwise、pairwise、listwise。
简单来讲,前面提到的构建样本方式属于pointwise范畴,即每一条样本构建时不考虑与其他样本直接的关系。但真
实的场景中,往往需要考虑其他样本的影响,比如去百度搜一个关键字,会出来一系列的结果,用户的决策会受整个
排序结果影响。故pairwise做了一点改进,它的样本都是由pair对组成,比如电商搜索下,商品a和商品b可以构建一
个样本,如果a比b好,样本pair{a,b}是正样本,否则是负样本。当然,这会带来新问题,比如a>b,b>c,c>a,这
个时候怎么办?有兴趣的同学可以参考: