酷应用

Quora十大机器学习作者与Facebook十大机器学习、数据科学群组

百家作者：AI100 2017-07-07 09:01:31

1.Håkon Hapnes Strand, Data Scientist - 264,665 views, 206 answers

Q：你认为在机器学习算法中记住高级公式很重要吗？ - http://t.cn/Rod9Ixg

A：我不认为记住公式很重要。事实上，我觉得甚至会产生反效果。

如果你了解机器学习算法的工作原理，我的意思是基本上能真正理解它，而不仅仅是依靠直觉，那么你应该尝试自己导出公式。

记住，一个公式可能给你一个错觉，你应该明白背后的原则。

2.Roman Trusov, Facebook AI Research Intern 2016 - 254,241 views, 404 answers

Q：该花钱买一个好的GPU学习深度学习吗？ - http://t.cn/RoduWWE

A：你需要[本地GPU平台]吗？如果你想认真学习DL，应该买。了解架构或算法并使其正常工作是两件截然不同的事，获取知识的唯一途径就是自己尝试并分析结果。

如果你考虑购买多个便宜的GPU来学习如何使用它们 - 不提倡。如果你的框架支持分布式计算，它将无缝运行。如果不这样做，这不是一个初学者的任务，一般在后面会更痛苦。

对于现代架构的训练，CPU不能以任何方式代替GPU。我有一个非常好的CPU，需要几个星期的时间，训练我通常在一夜之间训练的网络。消费级i5（我不认为i7超支是个好主意）甚至更慢。

3. Zeeshan Zia, PhD in Computer Vision and Machine Learning - 142,140 views, 377 answers

Q：如何为计算机视觉研究科学家采访做准备？- http://t.cn/RoduN6N

A：有关于计算机视觉和机器学习的编程问题，大约占了一半。其他，根本没有技术问题。通常情况下，如果您自己编程并定期参加会议，那么您不需要为此部分做好准备。如果真的需要，最多可以在几天内刷C ++。...

4. Ian Goodfellow, AI Research Scientist - 115,921 views, 143 Answers

Q：使用GAN生成图像有什么好的建议吗？- http://t.cn/RoduSO2

A：你可以使用GAN来：

生成模拟训练数据和模拟训练环境
填写缺失数据
训练具有半监督学习的分类器（分类器从标记和未标记的数据中学习...，并且与GAN同时从完全虚构的数据中学习）
监督学习，监督信号表示多个正确答案中的任何一个可以接受，而不是仅仅提供一个具体的答案，每个训练示例
用统计生成代替昂贵的模拟
来自生成模型的后验分布的样本
了解对其他任务有用的嵌入

5. Clayton Bingham, Worked as Data Analyst at Informatics firm, Neural Engineering Researcher - 105,861 views, 12 answers

Q：机器学习（深入学习之外）有什么趋势？- http://t.cn/Roduq90

A：我不知道趋势，但我知道一个强大的方法，在主流ML之外，被证明具有巨大的灵活性，可解释性和在VLSI / FPGA硬件中相对容易实现的优势。

6. Xavier Amatriain Former ML researcher, now leading Engineering at Quora - 97,947 views, 85 answers - http://t.cn/RoduL85

Q：什么是训练机器学习模型的最佳方法？

A：指标

你应该选择与产品目标相关的离线优化指标。很多时候，产品目标的良好代理可以是在线A / B测试结果或其他在线指标。

你只能通过操作不同的实验和跟踪离线指标，了解衡量标准与在线A / B测试相关倾向于与排名问题相关的指标是召回@ n，NDCG或MRR（平均互惠等级）

一个很好的指标：应该容易比较不同的型号，应该尽可能容易理解和解释。

跟踪您关心的每个用户细分的指标是一个好主意（例如新用户，老用户，非常活跃的用户，区域设置....）

在测试集上测量你的指标（不是训练，而不是验证）

7. Chomba Bupe, develops machine learning algorithms - 96,608 views, 460 answers - http://t.cn/RoduzvO

Q：除了KNN算法，还有其它分类方法可以添加类和训练样本，而无需重新训练所有数据吗？

是的，有种算法叫做迁移学习，你几乎可以用任何机器学习（ML）算法，而不需要重新整理系统。例如，可以获得一个预先训练的网络，并在顶部添加一个额外的简单分类器，并且只对新的训练样本上的分类器进行训练，同时保持预训练的权重。这在相关任务的实践中运行良好。

然而，迁移学习存在局限性，因为它运行很好，我们需要确保新的样本具有与样品相似的分布。

8. Liang Huang , Ph.D. Computer Science, University of Pennsylvania (2008) - 92,987 views, 3 answers

Q：在AI深入学习中，你认为谁是Hinton，Lecun和Bengio之后的最顶尖的研究人员？ - http://t.cn/RodmkaD

A：这个问题不该这么问。现在我们都知道，Schmidhuber与Hinton，Lecun，Bengio的贡献是一致的，而不是谁更重要。

DL的两个核心：CNN（Fukushima-LeCun）和 LSTM（Schmidhuber）

其他，包括Hinton和Bengio的工作，都是次要的。这并不是说那些并不重要，而是它们在推广NN方面是有贡献的，但如果你只是谈论诺贝尔奖应该颁给谁，那么毫无疑问是LeCun，更早的Fukushima, and Schmidhuber。如果有DL的诺贝尔奖，这些人应该入选。

9. Yoshua Bengio, Head of Montreal Institute for Learning Algorithms, Professor @ U. Montreal - 90,211 views, 112 answers

Q：如何在机器学习中进行研究，并从Coursera或edX的MOOC获得的必要知识？- http://t.cn/Rodm3VW

我不认为一个MOOC就够了。你需要认真练习，例如，尝试重现在你感兴趣的几篇论文中获得的结果，参加Kaggle比赛等。然后尝试加入其他学生和研究人员的群体，作为访问者/实习生或研究生，进入深入学习的学术实验室。

10. Shehroz Khan, ML Researcher, Postdoc @U of Toronto - 87,791 views, 715 answers

Q：计算科学家如何决定使用哪种交叉验证？- http://t.cn/RodmR2W

A：让我们考虑一个2级难题，训练和测试数据相同的分布。

如果在折叠形成期间，验证集不包含来自负类别的任何样本，训练集只包含正样本，K-fold交叉验证（CV）可能会失败。为了避免这种情况，你可能需要进行分层的K-fold CV，以确保训练和验证集中样本的比例。

使用相同的学习方法和数据集的不同的10倍交叉验证实验经常产生不同的结果，源于随机变化对选择折叠本身的影响。分层减少变化，但不能完全消除它。

缺一交叉验证更好，因为你可以得到最大训练集的训练; 然而，成本是需要的训练过多（对于1000个样本的数据，你必须做1000次）。当我们说数据是随机生成的时候，可能会出现一个非常戏剧化的情况，最好的一个分类器可以做的是预测大多数类，因此是50％的错误率。但是，在每次闲置一次的情况下，测试实例的相反类别是多数 - 因此预测总是不正确的，导致估计错误率为100％。缺一交叉验证不能分层，因为只有样本要测试。

通常，使用10次10分层CV。

1. machinelearningforum（数据挖掘/机器学习/ AI）- http://t.cn/RodreRR

这是该领域最大的组织，由八名管理员（2007年8月18日创建）维护。该小组由29,638名成员组成，方向为数据挖掘，机器学习，人机交互和人工智能等。

2. 数据分析（分析，数据挖掘，预测建模，人工智能）- http://t.cn/Rodd7fx

这是一个26,427名成员的小组，8年前由Guru Talreja创建。成员每天大概有二十多个帖子。这些内容包括用于数据科学和生命科学的网络活动以及开发语言共享文件。

3. BigDataisonline（大数据）- http://t.cn/RoddAKR

虽然这个小组由21,239名成员组成，但仅由两名管理员（Daniyal Bashir和Mustafa Ali Qizilbash）负责维护，但它是一个封闭的组织，仅讨论限于大数据。

4. thesqlgeeks（SQL Server的怪才）- http://t.cn/Rodd4Li

已有17,980名成员（2012年11月18日创建）。该组由Amit RS Bansal（SQL MCM主管，SQL MVP，SQLMaestros的MCT主管）创建。它是作为一组SSGAS推出的，亚洲最大的SQL会议http://www.sqlservergeeks.com/。印度2016年的最后一次峰会在3天内吸引了900多位观众和70多位演讲嘉宾，共130多场。

5. hadoop.group（Apache的Hadoop的生态系统）- http://t.cn/RoddtJX

该组有17,080名成员，于2008年3月1日成立。目前由Siddharth Tiwari（戴尔EMC研发负责人，约5年前加盟）和John FX Berns（拉扎达数据科学主管高级副总裁）集团在3年前加入）管理。虽然该组主要专注于Java编写的分布式计算平台（Hadoop），但它还包括Big data·Machine Learning这些关键标签。最近他们在大数据中有活动，例如Master Big Data和Hadoop Step Scratch by Scratch（enFrançais）和Face Detection使用MapReduce。

6. bigdatalearnings（大数据学习）- http://t.cn/RoddMHO

该团队由Microsoft Redmond Campus的软件开发工程师（BI / Big Data）Karan Gulati于2012年创建，拥有16,860名会员。这些天，它也由Sudhir Rawat（微软首席技术顾问）管理。该小组讨论了大数据和微软的Hadoop分布又称HDInsight。团队管理员每两周在Hadoop和Big Data上进行小组讨论，所有讨论都会上传到他们的YouTube频道 - https://www.youtube.com/user/Debarchans。

7.大数据分析（Bigdata Machine Learning）- http://t.cn/Rodd6FF

该小组拥有14,549名成员，并于2013年由 Min-kyung Kim （BICube有限公司首席执行官）成立。

8. sqlbangalore（SQLBangalore）- http://t.cn/Rodd98C

这是一个位于印度IT中心班加罗尔的小组，并得到班加罗尔.NET UG（BDotNet），班加罗尔ITPro UG（BITPro），SQLPass和微软的支持。该组的讨论主题仅限于SQL Server，NoSQL，Big Data和BI。目前的群组人数为13,078人。

9. analyticsedge（数据科学与R语言）- http://t.cn/Rodd0gl

这是一个私密的小组，有11,923个成员。在2015年创建，由四名管理员维护。他们经常举办R和数据科学研讨会。

10. 大数据统计（大数据，数据科学，数据挖掘与统计）- http://t.cn/Roddj8e

这是2012年12月28日由Henrik Nordmark（Profusion的数据科学主管）创建的大数据，数据科学，数据挖掘和统计的小组。小组是一个由多达10,814人组成的不同背景和技能的不同群体。

专属福利：中国国内级别最高、规模最大的人工智能大会——中国人工智能大会（CCAI）将于7.22-7.23在杭州举行，目前大会 8 折专属优惠门票火热抢购中，赶快扫描下方图片中的二维码或点击【阅读原文】火速抢票吧。

关于CCAI

中国人工智能大会（CCAI），由中国人工智能学会发起，目前已成功举办两届，是中国国内级别最高、规模最大的人工智能大会。秉承前两届大会宗旨，由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办，CSDN、中国科学院自动化研究所承办的第三届中国人工智能大会（CCAI 2017）将于 7 月 22-23 日在杭州召开。

作为中国国内高规格、规模空前的人工智能大会，本次大会由中国科学院院士、中国人工智能学会副理事长谭铁牛，阿里巴巴技术委员会主席王坚，香港科技大学计算机系主任、AAAI Fellow 杨强，蚂蚁金服副总裁、首席数据科学家漆远，南京大学教授、AAAI Fellow 周志华共同甄选出在人工智能领域本年度海内外最值得关注的学术与研发进展，汇聚了超过 40 位顶级人工智能专家，带来 9 场权威主题报告，以及“语言智能与应用论坛”、“智能金融论坛”、“人工智能科学与艺术论坛”、“人工智能青年论坛”4 大专题论坛，届时将有超过 2000 位人工智能专业人士参与。