问小白 wenxiaobai
资讯
历史
科技
环境与自然
成长
游戏
财经
文学与艺术
美食
健康
家居
文化
情感
汽车
三农
军事
旅行
运动
教育
生活
星座命理

大数据是什么?从零开始,认识大数据定义、分析与工具 2025 年版

创作时间:
2025-03-16 00:49:59
作者:
@小白创作中心

大数据是什么?从零开始,认识大数据定义、分析与工具 2025 年版

引用
1
来源
1.
https://www.largitdata.com/blog_detail/20190725

大数据是当今科技领域的重要概念,它不仅改变了企业的运营方式,也影响着我们的日常生活。本文将从零开始,全面介绍大数据的定义、分析过程、相关工具,以及大数据与人工智能的关系。即使你从未接触过大数据,也能通过本文了解其在数字时代备受关注的原因。

电商巨头亚马逊通过"大数据"预测顾客行为,大幅节省物流与仓储成本;阿里巴巴依靠数据分析,打造品牌数据银行并在11天内增加300万位目标消费者;就连中华邮政也设定2019年为"数位元年",开放邮务资料并举办竞赛,计划从大数据中找到提高作业效率、优化顾客体验的方法。所谓"大数据"是指数量庞大而无法以传统方式处理的资料,无论何种产业皆能透过分析大数据预测未来趋势,使大数据成为各行业都在发展的数位技术。

大数据的兴起使资料探勘、统计领域成为热门科目,也使大数据工具开发更加快速、更容易取得与使用。以下会介绍大数据的定义、分析过程与相关工具,以及其背后的隐私争议。即使你不曾听过大数据,也能从无到有,了解大数据在数位时代备受关注的原因。

大数据的定义:4V

比起大数据,"数据"人人都熟悉,比如银行户头的转账纪录、网页的浏览纪录、购物网站中的消费纪录,种种资料都可被称作数据,而大数据就是这些资料的增量版。大数据还有以下几种特性,统称为4V:

Volume大,资料量

大数据与传统数据最大的差异在于资料量,资料量远大于传统数据,因此以"大数据"一词来叙述并区分两者的不同。若以量化表示,大数据特指在一天内可生成1TB以上资料量的数据,等同于128个8G随身碟。也因为资料量大,无法以传统的方式储存处理,因此衍生出大数据这一新兴科学。

Variety杂,资料多样性

与前述的转账纪录、浏览纪录仅纪录一种数据不同,大数据的资料类型庞杂,比如脸书上的帐户纪录,就包含照片、文字、超链接等多钟数据形式。由于形式多元复杂,大数据储存也需要不同於传统数据的储存技术。

Velocity快,资料即时性

大数据与传统数据最大的不同点,就是生成速度飞快。由于网际网路兴起与资讯设备普及,以用户突破20亿人的脸书为例,如果每个用户每天按一个like,就会有20亿笔资料。每一個人随时随地都可以创造数据,数据生成的速度已非过去可比拟。

Veracity真,资料真实性

在3V成为大数据的主要定义后,随着储存资料的成本下降、取得成本也下降,大数据发展出第四个特性:Veracity,意旨除了资料量,也需要确认资料的真实性,过滤掉造假的数据与异常值后,分析出来的结果才能达到准确预测的目的。

大数据分析:数据统计与资料探勘

比起大数据本身的4V特性,使它在数位时代脱颖而出的是准确预测未来的能力。而分析大数据的步骤其实与处理传统数据相同,只是使用的工具有所差异。

数据统计是什么?

处理数据的第一步是获得并储存,大数据在发展期间碰到的第一个问题就是资料生成过于快速且大量,需要开发新的储存方式处理源源不绝的资料。

若能成功储存大量资料,仅只是简单的描述统计,也有助于了解提供数据者的特征。职业数据网站Comparably就从数据面分析Google、脸书、微软、苹果、亚马逊五家科技公司的面试难度,发现大多数Google的员工觉得面试过程很困难,反之到微软面试工程职位时,即使穿着T恤、牛仔裤也可以被接受。从大量数据中即可发现各家公司的差异,应徵者也可以在面试前就做好相对应的心理准备。

资料探勘是什么?

大数据无法使用过去人工方式统计与分析,即使能达成也需要耗費大量时间。因此在处理大数据时经常使用人工智能、机器学习等技术,让机器协助人类在短时间内分析巨量资料,这整理资料并找出其中规律的过程被称为资料探勘。

资料探勘技术可以追踪分析看似不相关的数据,应用在侦查、取得线索等领域上,甚至是追查犯罪者、预测犯罪地点。硅谷的大数据公司Palantir就以独特的资料探勘技术,协助美国军方找到盖达组织首領宾拉登,也多次为企业与警方提供金融犯罪的线索。

大数据分析步骤

大数据分析第一步:取得

数据随时随地都在产生,就连你上班时的行走路线,都可以成为商家选择新店地址的参考资料。若是拥有大量使用者的企业,蒐集使用者的活动纪录就可达到以数据预测未来的目标;若是较小型的企业,则可主动邀请使用者填写问卷,逐步累积资讯量。

大数据分析第二步:储存

由于资料量庞大,突破储存技术式处理大数据的第一个难关。因此处理大数据时多使用分散式处理系统,透过分割资料与备份储存,突破记忆体过小的障碍。

大数据分析第三步:运算

为达成预测未来的目的,机器可以透过分类、回归分析、排序、关联分析等方式找出其中规律,并运用决策树、遗传演算法、人工神经网络等模型进行计算。

大数据分析第四步:视觉化

经过分析后的数据仍是数字与列表,不易阅读。因此可搭配视觉化工具,将数据转化为较容易阅读与理解的形式。

常见的大数据工具有哪些?

大数据取得工具:Google Form与SurveyCake

除了Amazom、Facebook等拥有大量使用者而能快速累积资料的大企业,一般企业可以用统计软件取得资料,或请目标客群填写问卷,持续累积资料量。相关工具包括:Google Form、SurveyCake,可以让你免费製作线上问卷并提供简单的问卷结果统计与分析。

大数据储存工具:Apache Hadoop

目前最常见大数据转体技术为Hadoop,是由Apache软件基金会使用Java语言所发展的软件框架,并开放原始码供人免费使用。

Hadoop使用HDFS分散式档案系统(Hadoop Distributed File System),在储存资料时,会将同一份档案切割成小份,将每一小份製作多个备份后分别储存于不同位置。即使部分资料损毁,也可使用其他备份重製出完整的资料。这种储存技术可以突破巨量资料难以储存的困境,同时确保资料的完整性,因此能成功累积资料并持续发展。

大数据分析工具:Hadoop MapReduce

Hadoop MapReduce是Hadoop的项目之一,可将储存于HDFS中的资料调出、统计、处理后再回传数据。整个Hadoop系统使用HDFS储存资料,并交由Hadoop MapReduce处理资料,Hadoop MapReduce因此成为最常见大数据分析软件之一。

大数据分析工具:Spark

Spark是近年新型的大数据分析软件,运算速度比Hadoop MapReduce还要快100倍。由于Hadoop MapReduce会在运算的同时储存资料,资料需在记忆体与处理器之间不断转化。而Spark使用记忆体内运算技术,可直接在记忆体内运算,因此省下资料转换时的能源与时间。

不过Spark只能分析大数据,而不能储存大数据,使用时仍须搭配HDFS储存系统,是Hadoop难以被取代的主要原因。

大数据视觉化工具:Tableau

Tableau可将大数据转换为图表、地图等视觉化资料,并可以配合多种资料形式,包括Excel、txt、xml等,即使没有科技背景的使用者也很容易操作,仅需平移、拖放等操作,适合用来呈现已分析过的资料。

大数据视觉化工具:Wordcloud

Wordcloud,又称为文字云,可用來表示单一个词在文件中出现的次数多寡与比例,且呈现方式简单易懂,是非常常见大数据视觉化方式,目前网路上也可找到处理少量资料的文字云製作工具。

大数据的忧患:隐私

尽管大数据由于应用范围广泛,已成为各领域的發展趋势,但数据的公布有时会伴随使用者隐私的曝光,比如Facebook资料外洩、Google+个资外洩风潮等因数据外洩而引发隐私问题的事件層出不穷。数据外洩问题会对蒐集数据的企业产生极大影响,动摇使用者的信心,甚至可能导致使用者不愿再次使用产品。

企业在蒐集数据前应告知使用者将提供何种数据给第三方,以及数据可能的使用方式,并应维护使用者的隱私權。但当所有人随时随地都在产生数据、当数据对人的生活影响渐增,隐私与正当使用的界线也值得探讨,隐私也將成为未来大数据发展的方向。

大数据与人工智能(AI)的共生关系

随着大数据与人工智能(AI)技术的快速发展,两者之间形成了紧密的共生关系,相辅相成地推动各行各业的数位转型。了解两者之间的关系对于掌握现代科技发展趋勢至關重要。

AI依赖大数据来训练与优化模型

现代的AI(尤其是机器学习和深度学习模型)高度依赖大量的资料来进行训练。资料愈多樣、愈龐大,模型就能学到更全面的模式,预测也更精確。例如,热门的大型语言模型如ChatGPT就是利用数以百萬計的文件语料进行训练,通过海量数据学习语言模式。没有大数据作为"燃料",AI演算法往往无法充分学习複杂的關係,智能程度也会大打折扣。

大数据促进AI更准确地预测与决策

大数据的蓬勃发展为AI提供了前所未有的资料来源,使AI模型能在更广阔的情境中学习并验证其算法。在大数据时代,企业和研究者可以取得长期累积的巨量资料来训练AI,让AI具备从过去经验中预测未来的能力。充足且多元的數據让AI的決策更有依据:模型不仅看到量的增長,也看到样本多樣性,因此能捕捉到过去難以察覺的細微模式。換言之,巨量資料集讓高效的AI成为可能,提供了更全面的训练,使其预测与决策能力大幅提升。

AI自动分析与处理大数据,提高数据价值

面对规模庞大且复杂的數據,传统的人工分析已经力不从心,此时AI大显身手。AI擅长高速处理和关联分析,能从海量数据中自动识别出隐藏的模式与知识。这种能力可以将原本沉睡的大数据转化为即时且可行的信息价值。例如,社交媒体平台运用机器学习模型即时分析上亿用户的行為数据,据此动态调整每个人的消息流内容和推荐页面;串流影音服务商(如Netflix)利用大量观众的观影记录,由AI演算法预测每位观众可能喜愛的影片类型并加以推荐。由此可見,大数据与AI实质上形成了一种共生关系:一方面,大数据为AI提供了学习养分;另一方面,AI为大数据的分析利用提供了强大的工具。

大数据与AI的主要差异

尽管AI和大数据紧密相关,但在技术本质、应用场景和目标上仍存在显著差异:

技术本質不同

人工智能属于演算法与软件技术范畴,核心在于开发能模仿人类智能行为的模型和程式;而大数据则属于资料处理与管理技术范畴,重点在于运用新的架构和工具来储存、处理巨量且多元的资料。换言之,AI更关注"如何让机器变聪明",大数据则关注"如何处理极大量的资料"。两者一个偏向算法与智能(例如神经网络、决策树等AI模型),一个侧重基础设施与数据处理(例如Hadoop分散式储存、Spark平行计算等框架)。

应用场景不同

AI通常应用在需要自动化决策或智慧化处理的场景,例如影像辨识、语音助理、自动驾驶等。这些应用都涉及让机器"像人一样"做出判断或行动。

而大数据的典型应用场景是资料分析与统计,例如商业智能(分析消费者行为和市场趋势)、科学研究中的资料探勘,或物联网中感测器资料的即时监控。大数据应用往往着重于从数据中找出规律而非直接执行动作。

目标与作用不同

AI的最终目标是实现机器智慧,让电脑系统能自主执行複杂任务并模拟人类的推理和决策过程。它追求的是行为上的智慧化,希望机器能"做出正确的行动"。

相较之下,大数据的目标在于从龐杂的资料中萃取知识,强调洞见的发现。简而言之,AI注重决策和行动,让机器成为决策主体;大数据注重分析和发现,为决策提供依据。

彼此依存与独立性

从理论上看,AI和大数据可以被看作独立的领域——我们可以有不依赖大数据的AI(例如基于知识规则的专家系统),也可以有不涉及AI的大数据分析(例如简单的批次资料统计)。

然而在实践中,两者高度互補,往往相辅相成。在当代的技术图景中,AI与大数据更多表现为一种互相依存的关系:大数据是AI的"原料",机器学习是处理原料的方法,AI则是最终产出的智能成果。

大数据快速掌握现在局势、推断未来走向

大数据由于基数庞大,从其中推断出的趨勢因此足够准确。除了电商可用大数据完成预测式购物、社群网站可以推荐使用者感興趣的内容,一般企业也可以大数据监控网络舆情,了解目前消费者的喜好,做出精准营销决策与准确公关反应。

InfoMiner 即时輿情分析平台使用自行研发的大数据、人工智能处理技术与文字探勘技术,可以即时掌握社群风向,追蹤特定关键字,彙整为短文与图表,分析輿情,以Email或LINE将目前最新的即时舆论资讯寄送给使用者。掌握最新情报,在危机发生时第一时间反应,做好危机处理降低风险。

© 2023 北京元石科技有限公司 ◎ 京公网安备 11010802042949号