酷应用

208个最新最全大数据/人工智能专有名词术语中英对照（上）

百家作者：原力AI学院 2017-08-02 10:34:55

写在前面

一个产业的蓬勃发展离不开基础知识点的整理与沉淀。

我们相信这一份「208个关于大数据和人工智能的专用名词术语」中英文对照版 ;会成为大家以后日常工作中常用的工具，无论是你在翻译、写产品文档、写论文、又或者尝试国外新技术的时候都会用得上。所以，我们很高兴可以把它整合并且分享出来，并且按照字母进行了排序。

由于文字太多，今天先放出从A-I部分，明天会放出J-Z部分。

感谢大家长期以来的关注和支持。

Apache Kafka：命名于捷克作家卡夫卡，用于构建实时数据管道和流媒体应用。它如此流行的原因在于能够以容错的方式存储、管理和处理数据流，据说还非常「快速」。鉴于社交网络环境大量涉及数据流的处理，卡夫卡目前非常受欢迎。

Apache Mahout：Mahout 提供了一个用于机器学习和数据挖掘的预制算法库，也可用作创建更多算法的环境。换句话说，机器学习极客的最佳环境。

Apache Oozie：在任何编程环境中，你都需要一些工作流系统通过预定义的方式和定义的依赖关系，安排和运行工作。Oozie 为 pig、MapReduce 以及 Hive 等语言编写的大数据工作所提供正是这个。

应用程序开发（APP DEV）：应用程序开发是根据用户要求建造出软件系统或者系统中的软件部分的过程，包括需求捕捉、需求分析、设计、实现和测试的系统工程。一般是用某种程序设计语言来实现的。通常采用应用程序开发工具可以进行开发。

Apache Drill, Apache Impala, Apache Spark SQL：这三个开源项目都提供快速和交互式的 SQL，如与 Apache Hadoop 数据的交互。如果你已经知道 SQL 并处理以大数据格式存储的数据(即 HBase 或 HDFS)，这些功能将非常有用。抱歉，这里说的有点奇怪。

Apache Hive：知道 SQL 吗?如果知道那你就很好上手 Hive 了。Hive 有助于使用 SQL 读取、写入和管理驻留在分布式存储中的大型数据集。

Apache Pig：Pig 是在大型分布式数据集上创建、查询、执行例程的平台。所使用的脚本语言叫做 Pig Latin(我绝对不是瞎说，相信我)。据说 Pig 很容易理解和学习。但是我很怀疑有多少是可以学习的?

Apache Sqoop：一个用于将数据从 Hadoop 转移到非 Hadoop 数据存储(如数据仓库和关系数据库)的工具。

Apache Storm：一个免费开源的实时分布式计算系统。它使得使用 Hadoop 进行批处理的同时可以更容易地处理非结构化数据。

人工智能(Artificial Intelligence)：研发智能机器和智能软件，这些智能设备能够感知周遭的环境，并根据要求作出相应的反应，甚至能自我学习

聚合(Aggregation) – 搜索、合并、显示数据的过程

算法(Algorithm)：算法可以理解成一种数学公式或用于进行数据分析的统计学过程。那么，「算法」又是何以与大数据扯上关系的呢?要知道，尽管算法这个词是一个统称，但是在这个流行大数据分析的时代，算法也经常被提及且变得越发流行。

异常检测(Anomaly detection) – 在数据集中搜索与预期模式或行为不匹配的数据项。除了“Anomalies”,用来表示异常的词有以下几种：outliers, exceptions, surprises, contaminants.他们通常可提供关键的可执行信息

匿名化(Anonymization) – 使数据匿名，即移除所有与个人隐私相关的数据

应用(Application) – 实现某种特定功能的计算机软件

分析法(Analytics)：用于发现数据的内在涵义。让我们试想一个很可能发生的情况，你的信用卡公司给你发了封记录着你全年卡内资金转账情况的邮件，如果这个时候你拿着这张单子，开始认真研究你在食品、衣物、娱乐等方面消费情况的百分比会怎样?你正在进行分析工作，你在从你原始的数据(这些数据可以帮助你为来年自己的消费情况作出决定)中挖掘有用的信息。那么，如果你以类似的方法在推特和脸书上对整个城市人们发的帖子进行处理会如何呢?在这种情况下，我们就可以称之为大数据分析。所谓大数据分析，就是对大量数据进行推理并从中道出有用的信息。以下有三种不同类型的分析方法，现在我们来对它们分别进行梳理。

批处理(Batch processing)：尽管批量数据处理从大型机(mainframe)时代就已经存在了，但是在处理大量数据的大数据时代面前，批处理获得了更重要的意义。批量数据处理是一种处理大量数据(如在一段时间内收集到的一堆交易数据)的有效方法。分布式计算(Hadoop)，后面会讨论，就是一种专门处理批量数据的方法。

行为分析(Behavioral Analytics)：你有没有想过谷歌是如何为你需要的产品/服务提供广告的?行为分析侧重于理解消费者和应用程序所做的事情，以及如何与为什么它们以某种方式起作用。这涉及了解我们的上网模式，社交媒体互动行为，以及我们的网上购物活动(购物车等)，连接这些无关的数据点，并试图预测结果。举一个例子，在我找到一家酒店并清空购物车后，我收到了度假村假期线路的电话。我还要说多点吗?

商业智能(Business Intelligence)：我将重用 Gartner 对 BI 的定义，因为它解释的很好。商业智能是一个总称，包括应用程序、基础设施、工具以及最佳实践，它可以访问和分析信息，从而改善和优化决策及绩效。

生物测定学(Biometrics)：这是一项 James Bondish 技术与分析技术相结合的通过人体的一种或多种物理特征来识别人的技术，如面部识别，虹膜识别，指纹识别等。

描述性分析法(Descriptive Analytics)：如果你只说出自己去年信用卡消费情况为：食品方面 25%、衣物方面 35%、娱乐方面 20%、剩下 20% 为杂项开支，那么这种分析方法被称为描述性分析法。当然，你也可以找出更多细节。

大数据科学家(Big Data Scientist)：能够设计大数据算法使得大数据变得有用的人

大数据创业公司(Big data startup)：指研发最新大数据技术的新兴公司

B字节 (BB: Brontobytes)：约等于1000 YB(Yottabytes)，相当于未来数字化宇宙的大小。1 B字节包含了27个0！

大数据 (Big data)：指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

数据科学平台(Data science platforms)：是数据科学家创造和测试数据科学解决方案的工作平台。按照高德纳的定义，数据科学平台是“由紧密相关的多项数据处理核心技术模块组合而成的软件系统，以支持各类数据科学解决方案的开发及其在业务流程、周边基础设施和产品中的应用。

点击流分析(Clickstream analytics)：用于分析用户在网络上浏览时的在线点击数据。有没有想过即使在切换网站时，为什么某些谷歌广告还是阴魂不散?因为谷歌大佬知道你在点击什么。

聚类分析(Cluster Analysis)：是一个试图识别数据结构的探索性分析，也称为分割分析或分类分析。更具体地说，它试图确定案例的同质组(homogenous groups)，即观察、参与者、受访者。如果分组以前未知，则使用聚类分析来识别案例组。因为它是探索性的，确实对依赖变量和独立变量进行了区分。SPSS 提供的不同的聚类分析方法可以处理二进制、标称、序数和规模(区间或比率)数据。

比较分析(Comparative Analytics)：因为大数据的关键就在于分析，顾名思义，比较分析是使用诸如模式分析、过滤和决策树分析等统计技术来比较多个进程、数据集或其他对象。我知道它涉及的技术越来越少，但是我仍无法完全避免使用术语。比较分析可用于医疗保健领域，通过比较大量的医疗记录、文件、图像等，给出更有效和更准确的医疗诊断。

关联分析(Connection Analytics)：你一定看到了像图表一样的蜘蛛网将人与主题连接起来，从而确定特定主题的影响者。关联分析分析可以帮助发现人们、产品、网络之中的系统，甚至是数据与多个网络结合之间的相关连接和影响。

Cassandra：是一个很流行的开源数据管理系统，由 Apache Software Foundation 开发并运营。Apache 掌握了很多大数据处理技术，Cassandra 就是他们专门设计用于在分布式服务器之间处理大量数据的系统。

云计算(Cloud computing)：构建在网络上的分布式计算系统，数据是存储于机房外的（即云端），软件或数据在远程服务器上进行处理，并且这些资源可以在网络上任何地方被访问，那么它就可被称为云计算。

集群计算(Cluster computing)：这是一个来描述使用多个服务器丰富资源的一个集群(cluster)的计算的形象化术语。更技术层面的理解是，在集群处理的语境下，我们可能会讨论节点(node)、集群管理层(cluster management layer)、负载平衡(load balancing)和并行处理(parallel processing)等等。

分类分析(Classification analysis) ：从数据中获得重要的相关性信息的系统化过程; 这类数据也被称为元数据(meta data),是描述数据的数据。

商业分析（Commerce analytics）：指的是包括审视预计的销售额、成本和利润是否达到公司预计目标；如达到，则此产品概念才能进一步发展到产品开发阶段。

聚类分析(Clustering analysis) – 它是将相似的对象聚合在一起，每类相似的对象组合成一个聚类(也叫作簇)的过程。这种分析方法的目的在于分析数据间的差异和相似性。

冷数据存储(Cold data storage) – 在低功耗服务器上存储那些几乎不被使用的旧数据。但这些数据检索起来将会很耗时。

众包（Crowdsourcing）：从一广泛群体，特别是在线社区，获取所需想法，服务或内容贡献的实践。

集群服务器（Cluster server）：把多台服务器通过快速通信链路连接起来，从外部看来，这些服务器就像一台服务器在工作，而对内来说，外面来的负载通过一定的机制动态地分配到这些节点机中去，从而达到超级服务器才有的高性能、高可用。

对比分析(Comparative analysis) – 在非常大的数据集中进行模式匹配时，进行一步步的对比和计算过程得到分析结果。

复杂结构的数据(Complex structured data) – 由两个或多个复杂而相互关联部分组成的数据，这类数据不能简单地由结构化查询语言或工具(SQL)解析。

计算机产生的数据(Computer generated data) – 如日志文件这类由计算机生成的数据。

并发(Concurrency) – 同时执行多个任务或运行多个进程。

相关性分析(Correlation analysis) – 是一种数据分析方法，用于分析变量之间是否存在正相关，或者负相关。

客户关系管理(CRM: Customer Relationship Management) – 用于管理销售、业务过程的一种技术，大数据将影响公司的客户关系管理的策略。

云数据（Cloud data）：是基于云计算商业模式应用的数据集成、数据分析、数据整合、数据分配、数据预警的技术与平台的总称。

数据分析师(Data Analyst)：数据分析师是一个非常重要和受欢迎的工作，除了准备报告之外，它还负责收集、编辑和分析数据。

数据清洗(Data Cleansing)：顾名思义，数据清洗涉及到检测并更正或者删除数据库中不准确的数据或记录，然后记住「脏数据」。借助于自动化或者人工工具和算法，数据分析师能够更正并进一步丰富数据，以提高数据质量。请记住，脏数据会导致错误的分析和糟糕的决策。

数据即服务(DaaS)：通过给用户提供按需访问的云端数据，DaaS 提供商能够帮助我们快速地得到高质量的数据。

数据虚拟化(Data virtualization)：这是一种数据管理方法，它允许某个应用在不知道技术细节(如数据存放在何处，以什么格式)的情况下能够抽取并操作数据。例如，社交网络利用这个方法来存储我们的照片。

脏数据(Dirty Data)：脏数据就是不干净的数据，换言之，就是不准确的、重复的以及不一致的数据。显然，你不会想着和脏数据搅在一起。所以，尽快地修正它。

暗数据(Dark data)：公司积累和处理的实际上完全用不到的所有数据，从这个意义上来说我们称它们为「暗」的数据，它们有可能根本不会被分析。这些数据可以是社交网络中的信息，电话中心的记录，会议记录等等。很多估计认为所有公司的数据中有 60% 到 90% 不等可能是暗数据，但实际上没人知道。

数据流（data stream）:最初是通信领域使用的概念，代表传输中所使用的信息的数字编码信号序列。然而，我们所提到的数据流概念与此不同。

数据湖(Data lake)：即一个以大量原始格式保存了公司级别的数据知识库。这里我们介绍一下数据仓库(Data warehouse)。数据仓库是一个与这里提到的数据湖类似的概念，但不同的是，它保存的是经过清理和并且其它资源整合后的结构化数据。数据仓库经常被用于通用数据(但不一定如此)。一般认为，一个数据湖可以让人更方便地接触到那些你真正需要的数据，此外，你也可以更方便地处理、有效地使用它们。

数据资源管理(Data Resources):是应用信息技术和软件工具完成组织数据资源管理任务的管理活动。

数据源（Data Source）:顾名思义，数据的来源，是提供某种所需要数据的器件或原始媒体。在数据源中存储了所有建立数据库连接的信息。就像通过指定文件名称可以在文件系统中找到文件一样，通过提供正确的数据源名称，你可以找到相应的数据库连接。

数据挖掘(Data mining)：从一大群数据中以复杂的模式识别技巧找出有意义的模式，并且得到相关洞见。

数据分析平台(Data analyst platforms): 主要通过集成企业内部运营支撑系统和外部数据，包括交易型大数据（Big Transaction Data）和交互型大数据（Big Interaction Data），通过多种云计算的技术将之集成和处理，向企业内部和外部企业客户提供有极大商业价值的信息支撑和智能解决方案，基于大数据平台建设的数据仓库的基础上，提供报表工具，分析工具，结合企业的实际需求进行的解决方案实施服务；企业的管理人员、业务分析人员等可以通过web、手机或其它移动设备访问，以便随时了解企业的关键指标和进行深度业务分析。

分布式文件系统(Distributed File System)：大数据数量太大，不能存储在一个单独的系统中，分布式文件系统是一个能够把大量数据存储在多个存储设备上的文件系统，它能够减少存储大量数据的成本和复杂度。

。

仪表板(Dashboard) ：使用算法分析数据，并将结果用图表方式显示于仪表板中。

数据存取(Data access):是指数据库数据存贮组织和存贮路径的实现和维护。

数据传送(data transfer):是指在数据源和数据宿之间传送数据的过程，也称数据通信。

数据聚合工具(Data aggregation tools) ：将分散于众多数据源的数据转化成一个全新数据源的过程。

数据库(Database) ：一个以某种特定的技术来存储数据集合的仓库。

数据库管理系统(DBMS: Database Management System) ：收集、存储数据，并提供数据的访问。

数据中心(Data centre) ：一个实体地点，放置了用来存储数据的服务器。

数据管理员(Data custodian) ：负责维护数据存储所需技术环境的专业技术人员。

数据道德准则(Data ethical guidelines) ：这些准则有助于组织机构使其数据透明化，保证数据的简洁、安全及隐私。

数据订阅(Data feed) ：一种数据流，例如Twitter订阅和RSS。

数据集市(Data marketplace) ：进行数据集买卖的在线交易场所。

数据建模(Data modelling) ：使用数据建模技术来分析数据对象，以此洞悉数据的内在涵义。

数据集(Data set) ：大量数据的集合。

数据虚拟化(Data virtualization) ：数据整合的过程，以此获得更多的数据信息，这个过程通常会引入其他技术，例如数据库，应用程序，文件系统，网页技术，大数据技术等等。

去身份识别(De-identification) ：也称为匿名化(anonymization)，确保个人不会通过数据被识别。

判别分析(Discriminant analysis) ：将数据分类；按不同的分类方式，可将数据分配到不同的群组，类别或者目录。是一种统计分析法，可以对数据中某些群组或集群的已知信息进行分析，并从中获取分类规则。

分布式文件系统(Distributed File System) ：提供简化的，高可用的方式来存储、分析、处理数据的系统。

文件存贮数据库(Document Store Databases) 又称为文档数据库(document-oriented database), 为存储、管理、恢复文档数据而专门设计的数据库，这类文档数据也称为半结构化数据。

数据治理(Data Governance) ：数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。

数据转换服务(Data Transfer Service)：主要用作在不同的数据库之间转换数据，比如在SQL Server和Oracle之间转换数据。

数据集成(Data integration)：是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为企业提供全面的数据共享。

ETL：ETL 代表提取、转换和加载。它指的是这一个过程：「提取」原始数据，通过清洗/丰富的手段，把数据「转换」为「适合使用」的形式，并且将其「加载」到合适的库中供系统使用。即使 ETL 源自数据仓库，但是这个过程在获取数据的时候也在被使用，例如，在大数据系统中从外部源获得数据。

企业级应用（Enterprise applications）:其实是一个软件行业内部通用的一个术语。如果解释成通俗易懂的话来说，那就是一个企业范围内所使用的、基于计算机的稳定的、安全的和高效的分布式信息管理系统。

探索性分析(Exploratory analysis) ：在没有标准的流程或方法的情况下从数据中发掘模式。是一种发掘数据和数据集主要特性的一种方法

E字节(EB: Exabytes)：约等于1000 PB(petabytes), 约等于1百万 GB。如今全球每天所制造的新信息量大约为1 EB。

提取-转换-加载(ETL: Extract, Transform and Load) – 是一种用于数据库或者数据仓库的处理过程。即从各种不同的数据源提取(E)数据，并转换(T)成能满足业务需要的数据，最后将其加载(L)到数据库。

企业生产力（Enterrrise productivity）:企业在一定时期为社会提供某种产品或劳务的能力。

模糊逻辑(Fuzzy logic)：我们有多少次对一件事情是确定的，例如 100% 正确?很稀少!我们的大脑将数据聚合成部分的事实，这些事实进一步被抽象为某种能够决定我们决策的阈值。模糊逻辑是一种这样的计算方式，与像布尔代数等等中的「0」和「1」相反，它旨在通过渐渐消除部分事实来模仿人脑。

故障切换(Failover) ：当系统中某个服务器发生故障时，能自动地将运行任务切换到另一个可用服务器或节点上。

架构(Framework):又名软件架构，是有关软件整体结构与组件的抽象描述，用于指导大型软件系统各个方面的设计。

流量监控(Flow monitoring): 流量监控指的是对数据流进行的监控，通常包括出数据、入数据的速度、总流量。微信用户可以在腾讯手机管家4.7上实现流量的精准监控。

容错设计(Fault-tolerant design) ：一个支持容错设计的系统应该能够做到当某一部分出现故障也能继续运行。

金融（Finance）：是人们在不确定环境中进行资源跨期的最优配置决策的行为。

游戏化(Gamification) ：在其他非游戏领域中运用游戏的思维和机制，这种方法可以以一种十分友好的方式进行数据的创建和侦测，非常有效。

图形数据库(Graph Databases) ：运用图形结构(例如，一组有限的有序对，或者某种实体)来存储数据，这种图形存储结构包括边缘、属性和节点。它提供了相邻节点间的自由索引功能，也就是说，数据库中每个元素间都与其他相邻元素直接关联。

网格计算(Grid computing) ：将许多分布在不同地点的计算机连接在一起，用以处理某个特定问题，通常是通过云将计算机相连在一起。

Hadoop 用户体验(Hadoop User Experience /Hue)：Hue 是一个能够让使用 Apache Hadoop 变得更加容易的开源接口。它是一款基于 web 的应用;它有一款分布式文件系统的文件浏览器;它有用于 MapReduce 的任务设计;它有能够调度工作流的框架 Oozie;它有一个 shell、一个 Impala、一个 Hive UI 以及一组 Hadoop API。

人力资本（Human capital）：是指劳动者受到教育、培训、实践经验、迁移、保健等方面的投资而获得的知识和技能的积累，亦称“非物力资本”。

硬件设施（Hardware）: 计算机系统中由电子，机械和光电元件等组成的各种物理装置的总称。

高性能分析应用(HANA)：这是 SAP 公司为大数据传输和分析设计的一个软硬件内存平台。

HBase: 一个分布式的面向列的数据库。它使用 HDFS 作为其底层存储，既支持利用 MapReduce 进行的批量计算，也支持利用事物交互的批量计算。

Hadoop – 一个开源的分布式系统基础框架，可用于开发分布式程序，进行大数据的运算与存储。

Hadoop数据库(HBase) ：一个开源的、非关系型、分布式数据库，与Hadoop框架共同使用。

分布式文件系统(Hadoop Distributed File System)：是一个被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。

高性能计算(HPC: High-Performance-Computing) ：使用超级计算机来解决极其复杂的计算问题。

部署在云上的Hadoop（Hadoop in the cloud）：某些云解决方案完全基于某个特定服务，该服务将会加载并处理数据。例如，借助 IBM Bluemix，您可以基于 IBM InfoSphere BigInsights 配置一个 MapReduce 服务，该服务可以处理高达 20GB 的信息。但 Hadoop 服务的大小、配置与复杂性是不可配置的。其他基于服务的解决方案也提供同样类别的复杂性。

基础设施即服务(Infrastructure As a Service)：消费者通过Internet 可以从完善的计算机基础设施获得服务。这类服务称为基础设施即服务。

基础设施即代码(Infrastructure As a Code)：一种通过源代码就可以解析计算和网络架构的一种方式，然后就可以认为是任何一种软件系统。这些代码可以在源代码管理中被保存以确保可审性和再塑性，受限于测试实践和持续交付的所有准则。这是十几年前就被用在处理成长中的云计算平台的方法，也将会是日后处理计算架构的主要方式。

内存计算(In-memory computing)：通常认为，任何不涉及到 I/O 访问的计算都会更快一些。内存计算就是这样的技术，它把所有的工作数据集都移动到集群的集体内存中，避免了在计算过程中向磁盘写入中间结果。Apache Spark 就是一个内存计算的系统，它相对 Mapreduce 这类 I/O 绑定的系统具有很大的优势。

物联网(IoT)：最新的流行语就是物联网(IoT)。IoT 是嵌入式对象中(如传感器、可穿戴设备、车、冰箱等等)的计算设备通过英特网的互联，它们能够收发数据。物联网生成了海量的数据，带来了很多大数据分析的机遇。

内存数据库(IMDB: In-memory) ：一种数据库管理系统，与普通数据库管理系统不同之处在于，它用主存来存储数据，而非硬盘。其特点在于能高速地进行数据的处理和存取。

法律上的数据一致性(Juridical data compliance) ：当你使用的云计算解决方案，将你的数据存储于不同的国家或不同的大陆时，就会与这个概念扯上关系了。你需要留意这些存储在不同国家的数据是否符合当地的法律。