酷应用

学界 | 如何帮助大家找工作？领英利用深度表征学习提升人才搜索和推荐系统

百家作者：机器之心 2018-10-20 06:49:01

选自arXiv

作者：Rohan Ramanath 等

机器之心编译

参与：路、王淑婷

本文介绍了领英利用深度表征学习模型来提升人才搜索和推荐系统。

领英征才解决方案（LinkedIn Talent Solutions，LTS）业务为领英贡献了大约 65% 的年收入，该业务方便职位提供者接触潜在应聘者，也方便求职者找到合适的工作机会。领英求职生态系统的设计方向是使其成为连接职位提供者和求职者的平台，高效匹配潜在应聘者和工作机会。帮助实现这些目标的关键机制是领英雇佣帮手（LinkedIn Recruiter），它帮助招聘人员寻找相关的应聘者，获取适合其空缺职位的推荐应聘者。

人才搜索和推荐系统的重要挑战在于底层的查询机制很复杂，它结合了多个结构化字段（如标准职位、标准技能、公司名）和非结构化字段（如任意文本关键词）。而通过领英雇佣帮手，查询可以是输入查询文本和选择侧面（人才搜索）这样的显性形式，也可以是工作机会这样的隐性形式，或者职位的完美应聘者（人才推荐）。领英的目标是从数亿结构化的应聘者资料中选出最相关的候选人，然后列出排名。

结构化字段作为机器学习排序模型的一部分，为特征空间添加了稀疏性。该设置适用于密集表征学习实验，因为它不仅减少了稀疏性，还增加了信息在特征空间中的比重。本论文展示了如何将表征学习技术应用于领英人才搜索排序。本文主要贡献如下：

在学习对应用进行排序时使用嵌入作为特征。这通常包括：

用于排序、评估层级（全连接）架构优势的嵌入式模型；
使用逐点学习和成本函数中的成对损失训练模型时的考虑因素。

使用 LinkedIn Economic Graph [30] 的结构学习稀疏实体（如招聘者 id、应聘者 id、技能 id 等）语义表征的方法：

使用领英生态系统中 Economic Graph network 数据的无监督表征学习；
利用来自人才搜索域的应用特定数据的监督表征学习。

在领英人才搜索的语境中对上述方法进行大量离线和在线评估，并讨论实践中的挑战和经验教训。

尽管该讨论大部分是在领英人才搜索的语境中进行的，但它可有效泛化至任意的多维搜索引擎，包括电影、食物／餐厅等高维度。

论文：Towards Deep and Representation Learning for Talent Search at LinkedIn

论文链接：https://arxiv.org/abs/1809.06473

摘要：领英人才搜索和推荐系统力求匹配潜在应聘者与招聘人员的招聘需求，或招聘人员以搜索查询或发布职位的方式表达需求。该领域的近期研究主要关注线性模型（不考虑特征之间的复杂关系）和集成树模型（引入非线性，但仍不足以探索所有潜在的特征交互），且严格分隔特征生成和建模。本论文展示了我们在领英雇佣帮手上应用我们的深度表征学习模型的结果。我们的主要贡献包括：1）学习人才搜索领域中稀疏实体（如招聘者 id、应聘者 id 和技能 id 等）的语义表征，所用的神经网络模型使用 LinkedIn Economic Graph；2）学习人才搜索应用中招聘者邀请和应聘者回应的深度模型。我们还尝试学习对应用于深度模型的方法进行排序，并展示这在人才搜索用例中的益处。3）最后，我们展示了对领英人才搜索和推荐系统的离线和在线评估结果，并讨论通往完全深度模型架构过程中的潜在挑战。本文所讨论的挑战和方法可泛化至任意多维搜索引擎。

2 背景和问题设置

这部分简要介绍了领英雇佣帮手这款产品和现有的排序模型，并正式展示人才搜索排序问题。

2.1 背景

领英是世界上最大的职业社交网络，覆盖来自全世界的 5 亿多名成员。领英的每个成员都有一个资料页，用来记录职业成绩和资料，如图 1 所示。典型的成员资料包含 5-40 个结构化和非结构化的字段，如职位名称、公司、经历、技能、教育和总结等。

图 1：领英资料页示例。

在人才搜索方面，领英成员可被分为两类：应聘者和招聘者。应聘者寻找合适的工作机会，招聘者寻找合适的员工。本研究解决了领英雇佣帮手这款产品中的建模挑战，帮助招聘者寻找合适的应聘者。

与只关注字段与给定查询之间关联度的传统搜索和推荐系统不同，人才搜索领域需要招聘者和应聘者「看对眼」。也就是说，我们不仅需要推荐的应聘者与招聘者的查询相关，还需要招聘者联系的应聘者必须对这一工作机会感兴趣。

2.2 当前模型

当前的人才搜索排序系统功能如下 [12, 13]。第一步，系统利用搜索查询指定的硬性筛选条件，从超过 5 亿领英用户中检索出包含数千成员的集合。具体来说，查询请求基于从查询文本中提取的标准化字段和选择维度（如技能、职位名称和行业）创建。然后，将查询请求发送给分布式搜索服务层，它建立在领英 Galene 搜索平台 [26] 之上。应聘者列表则基于匹配特征（如职位名或技能匹配）生成。第二步，搜索排序系统使用排序模型对这些应聘者打分，然后返回排名靠前的应聘者列表。本论文主要关注第二步使用的排序模型。

3 方法

本章展示了我们的方法，主要包含两个方面：

学习深度模型来评估应聘者和招聘者之间产生双向兴趣的可能性；
学习人才搜索领域中实体的监督和无监督嵌入。

3.1 用于排序的嵌入式模型

如前所述，我们想要一个灵活的排序模型，可以轻松适应新特征和训练机制。近期神经网络的发展使得它们成为很多统计学习任务的当前最优技术，包括排序模型 [4, 19]，因此神经网络因其模块化结构和利用梯度优化方法进行端到端训练的能力，成为最佳选择。因此我们使用神经网络 ranker 作为领英人才搜索的排序模型。具体来说，我们提出具备自定义激活函数的多层感知机（MLP），并利用它执行排序任务。我们的模型支持多种模型正则化方法的混合，包括 L2 范数惩罚项和 dropout [27]。

出于神经网络的训练目标，我们考虑了两个学习排序模型的常用方法：