学界 | 如何帮助大家找工作?领英利用深度表征学习提升人才搜索和推荐系统

百家 作者:机器之心 2018-10-20 06:49:01

选自arXiv

作者:Rohan Ramanath 等

机器之心编译

参与:路、王淑婷


本文介绍了领英利用深度表征学习模型来提升人才搜索和推荐系统。


领英征才解决方案(LinkedIn Talent Solutions,LTS)业务为领英贡献了大约 65% 的年收入,该业务方便职位提供者接触潜在应聘者,也方便求职者找到合适的工作机会。领英求职生态系统的设计方向是使其成为连接职位提供者和求职者的平台,高效匹配潜在应聘者和工作机会。帮助实现这些目标的关键机制是领英雇佣帮手(LinkedIn Recruiter),它帮助招聘人员寻找相关的应聘者,获取适合其空缺职位的推荐应聘者。


人才搜索和推荐系统的重要挑战在于底层的查询机制很复杂,它结合了多个结构化字段(如标准职位、标准技能、公司名)和非结构化字段(如任意文本关键词)。而通过领英雇佣帮手,查询可以是输入查询文本和选择侧面(人才搜索)这样的显性形式,也可以是工作机会这样的隐性形式,或者职位的完美应聘者(人才推荐)。领英的目标是从数亿结构化的应聘者资料中选出最相关的候选人,然后列出排名。


结构化字段作为机器学习排序模型的一部分,为特征空间添加了稀疏性。该设置适用于密集表征学习实验,因为它不仅减少了稀疏性,还增加了信息在特征空间中的比重。本论文展示了如何将表征学习技术应用于领英人才搜索排序。本文主要贡献如下:


  • 在学习对应用进行排序时使用嵌入作为特征。这通常包括:

  • 用于排序、评估层级(全连接)架构优势的嵌入式模型;

  • 使用逐点学习和成本函数中的成对损失训练模型时的考虑因素。


  • 使用 LinkedIn Economic Graph [30] 的结构学习稀疏实体(如招聘者 id、应聘者 id、技能 id 等)语义表征的方法:

  • 使用领英生态系统中 Economic Graph network 数据的无监督表征学习;

  • 利用来自人才搜索域的应用特定数据的监督表征学习。


  • 在领英人才搜索的语境中对上述方法进行大量离线和在线评估,并讨论实践中的挑战和经验教训。


尽管该讨论大部分是在领英人才搜索的语境中进行的,但它可有效泛化至任意的多维搜索引擎,包括电影、食物/餐厅等高维度。


论文:Towards Deep and Representation Learning for Talent Search at LinkedIn




论文链接:https://arxiv.org/abs/1809.06473


摘要:领英人才搜索和推荐系统力求匹配潜在应聘者与招聘人员的招聘需求,或招聘人员以搜索查询或发布职位的方式表达需求。该领域的近期研究主要关注线性模型(不考虑特征之间的复杂关系)和集成树模型(引入非线性,但仍不足以探索所有潜在的特征交互),且严格分隔特征生成和建模。本论文展示了我们在领英雇佣帮手上应用我们的深度表征学习模型的结果。我们的主要贡献包括:1)学习人才搜索领域中稀疏实体(如招聘者 id、应聘者 id 和技能 id 等)的语义表征,所用的神经网络模型使用 LinkedIn Economic Graph;2)学习人才搜索应用中招聘者邀请和应聘者回应的深度模型。我们还尝试学习对应用于深度模型的方法进行排序,并展示这在人才搜索用例中的益处。3)最后,我们展示了对领英人才搜索和推荐系统的离线和在线评估结果,并讨论通往完全深度模型架构过程中的潜在挑战。本文所讨论的挑战和方法可泛化至任意多维搜索引擎。


2 背景和问题设置


这部分简要介绍了领英雇佣帮手这款产品和现有的排序模型,并正式展示人才搜索排序问题。


2.1 背景


领英是世界上最大的职业社交网络,覆盖来自全世界的 5 亿多名成员。领英的每个成员都有一个资料页,用来记录职业成绩和资料,如图 1 所示。典型的成员资料包含 5-40 个结构化和非结构化的字段,如职位名称、公司、经历、技能、教育和总结等。


图 1:领英资料页示例。


在人才搜索方面,领英成员可被分为两类:应聘者和招聘者。应聘者寻找合适的工作机会,招聘者寻找合适的员工。本研究解决了领英雇佣帮手这款产品中的建模挑战,帮助招聘者寻找合适的应聘者。


与只关注字段与给定查询之间关联度的传统搜索和推荐系统不同,人才搜索领域需要招聘者和应聘者「看对眼」。也就是说,我们不仅需要推荐的应聘者与招聘者的查询相关,还需要招聘者联系的应聘者必须对这一工作机会感兴趣。


2.2 当前模型


当前的人才搜索排序系统功能如下 [12, 13]。第一步,系统利用搜索查询指定的硬性筛选条件,从超过 5 亿领英用户中检索出包含数千成员的集合。具体来说,查询请求基于从查询文本中提取的标准化字段和选择维度(如技能、职位名称和行业)创建。然后,将查询请求发送给分布式搜索服务层,它建立在领英 Galene 搜索平台 [26] 之上。应聘者列表则基于匹配特征(如职位名或技能匹配)生成。第二步,搜索排序系统使用排序模型对这些应聘者打分,然后返回排名靠前的应聘者列表。本论文主要关注第二步使用的排序模型。


3 方法


本章展示了我们的方法,主要包含两个方面:


  • 学习深度模型来评估应聘者和招聘者之间产生双向兴趣的可能性;

  • 学习人才搜索领域中实体的监督和无监督嵌入。


3.1 用于排序的嵌入式模型


如前所述,我们想要一个灵活的排序模型,可以轻松适应新特征和训练机制。近期神经网络的发展使得它们成为很多统计学习任务的当前最优技术,包括排序模型 [4, 19],因此神经网络因其模块化结构和利用梯度优化方法进行端到端训练的能力,成为最佳选择。因此我们使用神经网络 ranker 作为领英人才搜索的排序模型。具体来说,我们提出具备自定义激活函数的多层感知机(MLP),并利用它执行排序任务。我们的模型支持多种模型正则化方法的混合,包括 L2 范数惩罚项和 dropout [27]。


出于神经网络的训练目标,我们考虑了两个学习排序模型的常用方法:


  • 逐点学习。又叫二分类排序。该方法需要利用训练集中的每个样本和标签训练二分类器,然后将来自同样搜索会话的样本分成一组,再基于分数进行排序。

  • 成对学习。尽管逐点学习易于实现,且性能较好,但人才搜索排序的主要目标是提供应聘者的排名,这需要可用会话数据中的内在信息。


3.2 学习人才搜索中稀疏实体的语义表征


接下来,我们来看稀疏实体表征的问题,它将不同实体(技能、职位名等)转换为低维向量格式,使得不同种类的模型能够直接利用实体作为特征向量。


无监督方法学习实体的共享表征空间,从而构建查询表征和成员表征。我们不使用人才搜索的专门互动来监督表征学习。


监督方法利用招聘者和应聘者在历史搜索结果中的互动,同时学习表征空间和最终得分。


图 3:具备浅层查询网络和深层成员网络的架构。


图 4:每个顶点代表一家公司,由颜色、虚线或常规边来表示的边权重代表曾在这两家公司工作过的成员。


图 5 展示了本文提出的人才搜索排序系统的在线架构,包括嵌入步骤。我们设计该架构的目的是能够离线计算成员嵌入,但查询嵌入需要在运行时计算。


图 5:人才搜索排序在线系统架构。


4 实验


表 3:使用逐点损失、成对损失和不同层训练的端到端 MLP 模型与基线梯度提升树模型相比的准确率变化情况。


表 4:使用无监督嵌入的离线实验。


表 5:使用监督嵌入的离线实验。


表 6:在线 A/B 测试结果。



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接