BigData 大数据-春季班

(0评价)
价格: 890.00元

1)hadoop是什么?HDFS,mapreduce,common

2)hdfs架构,namenode,datanode

3)mapreduce框架 map分,reduce总

4)hadoop的生态系统 hive,hbase,pig oozie

5) hadoop的发行版,cloudera cdh/hortonworks hdp

6) hadoop版本的选择 hadoop 1.x/hadoop 2.x

namenoe ha(0.21.x, 0.22.x, 2.x)

hdfs federation & yarn(0.23.x 2.x)

 

HDFS集群环境搭建

HDFS Shell命令使用

HDFS Shell脚本分析

操作实验

[展开全文]

Hadoop是什么?

一般原理

二次开发

 

Hadoop运维:负责集群安装与维护

Hadoop开发:根据企业和客户需求制定相应的业务逻辑,编写相应的MapReduce Job / 做开源软件,围绕各个子系统进行二次开发

 

云计算与大数据

狭义/广义|三层模型

。支持PB级别数据

。支持非结构化数据

。支持结构化数据

。支持万级每秒查询

。支持高可靠性系统

。支持高效率统计分析

Hadoop起源

-hadoop组件:common,HDFS,Mapreduce(mrv1,mrv2)

-Google核心技术

Hadoop的特点

Hadoop架构简介

-Hadoop core(haddop内核):

--1.HDFS组件

--2.MapReduce组件

--3.Common组件

Hadoop生态系统

Hadoop发行版

Hadoop版本选择

1,是否支持文件追加功能

2,是否支持HDFS文件连接

3,是否能保证hadoop的安全性

4,是否加入了NameNode HA(hadoop 0.21.x,0.22.x,2.x)

5,是否加入了HDFS Federation和YARN(hadoop 0.23.x,2.x)

 

[展开全文]

hadoop:HDFS+Mapreduce+Common

HDFS架构:nameNode ,dataNode

MapReduce框架:map分 reduce总

hadoop生态系统:hive hbase pig oozie

 

[展开全文]

HDFS分布式文件系统

common组件

Hbase数据库

Hive(SQL)

 

[展开全文]

hbase

分布式、面向列的数据库

利用hdfs作为底层存储,提供高可靠性、高性能、列存储、可伸缩、实时读写,适合非结构数据存储。

mapreduce处理数据

zookeeper提供协同服务

数据模型

三维,rowkey、column、version

client

root表、meta表

[展开全文]

hdfs管理

1设置元数据、数据的存储路径

dfs.name.dir\dfs.data.dir\fs.checkpoint.dir

2fsck

3,设置namenode安全模式

4,datanode数据扫描线程

dfs.datanode.scan.period.hourses

mapreduce作业管理

[展开全文]

hadoop jar test.jar mr/InputFormatTest /a.txt /output1

jar tf test.jar

 

[展开全文]

1,编写map、reduce处理函数,配置输入、输出路径,其他配置,如输出压缩

2,向jobtracker请求,getnewjobid

检查job的相关输出路径,提交job以及相关jar到jobtracker,相关的libjar是通过distributedcache方式传递到jobtracker

jobclient计算输入分片,把splitmetainfo写入jobsplit

把job xml配置文件发送到jobtracker

使用jobsubmissionprotocol的submitjob方法真正提交作业。

3,jobtracker接收client的submitjob后,会把调用放到内部队列中,交由taskscheduler调度,创建一个代表正在运行作业的对象jobinprogress,jobinprogress的inittasks方法初始化工作:读取作业分片信息;创建map任务和reduce任务,为每个map task和reducetask生成taskinprogress对象。reduce的数量由mapred reduce tasks属性决定,而map的数量是由输入分片的个数决定。

4,jobtracker、tasktracker之间的通信和任务分配是通过心跳机制完成。tasktracker会主动向jobtracker询问是否有作业,如果自己有空闲slot,就可以在心跳阶段得到jobtracker发送过来的map任务或reduce任务。tasktracker-》transmitheartbeat。拷贝所有信息到本地(代码、配置信息、数据分片)。

5,tasktracker拷贝代码、任务信息到本地,启动jvm运行任务。代码可以查看tasktracker-》startnewtask-》localizejob,然后调用launchtaskforjob启动taskrunner执行task;taskrunner分为maptaskrunner和reducetaskrunner。

6,task在运行过程中,把自己的状态发送给tasktracker,由tasktracker再汇报给jobtracker。任务进度通过计数器实现。

7,jobtracker接受最后一个任务完成后,才会将任务标志变成成功状态。同时会把执行的中间结果删除等。

错误处理:

task失败、jobtracker失败、tasktracker失败

作业调度

fifo、fairscheduler、capacityscheduler

shuffle、sort

[展开全文]

1,作业配置

2,提交作业

3,作业初始化

4,任务分配

5,任务执行

6,进度和状态更新

7,作业完成

[展开全文]

序列化、反序列化

将结构化对象转换成字节流,方便传输和存储。

 

[展开全文]

gzip比较适中,bzip2压缩的比较小,但是比较慢,只有bzip2支持分割,别的压缩算法不支持分割。

 

-Djava.library.path=

[展开全文]

io,

压缩、数据完整性、序列化、基于文件的数据结构

native:

代码在src/native/src下,

 

编译so
  924  apt-get install autoconf
  926  automake
  927  apt-get install libtool
  934  apt-get install zlibc
  936  apt-get install zlib-devel
  937  ant compile-native

 

[展开全文]

1

hdfs,对数据块存储,64M

namenode、datanode、

不适合小文件,小于64m的文件也需要一个块存储

fastdfs:开源轻量级,对文件的管理,对文件存储,分组存储,一个组有多台存储器

难以并行化,难以负载均衡

moosefs:master 、chunk

2secondnamenode

解决单点故障,合并fsimage、editlog,

2.0中被checkpoint和backupnode代替

3

snn

杀进程,删namenode数据,合并,检查健康,启动namenode

 

kill <namenode-pid>

rm -rf /tmp/hadoop/dfs/name/*

rm -rf /tmp/hadoop/secondarynamenode/in_use.lock

hadoop namenode -importCheckpoint

hadoop_daemon.sh start namenode
hadoop fsck /

 

 

 

[展开全文]

配置hadoop

vi core-site.xml

配置hsfs

vi hdfs-site.xml

格式化namenode路径

./hadoop namenode -format

开启hdfs

./start-dfs.sh

查看根目录

./hadoop fs -lsr /

上传文件到根目录

./hadoop fs -put <filename> /

查看hdfs用量

./hadoop fs -du /

删除hadoop

./hadoop fs -rm /hadoop

创建zf目录

./hadoop fs -mkdir /zf

上传文件到hdfs的zf目录下

./hadoop fs -put <filename> /zf/

命令查看hdfs使用情况

./hadoop dfsadmin -report

网页查看hdfs地址

http://192.168.159.128:50070/

hdfs只读模式

./hadoop dfsadmin -safemode enter

限制上传文件大小

./hadoop dfsadmin --setSpaceQuota 1000 /zf

hdfs文件系统检查

1,检查文件系统健康状态2,检查文件所在数据块3,删除一个坏块4,查找一个缺失的块

./hadoop fsck /zf -files -blocks

启动负载均衡器

./hadoop balancer

./hadoop archive

 

 

[展开全文]

hadoop jar hadoop-examples-1.2.1.jar  wordcount /input /output

 

hadoop fs -cat <filename>

 

[展开全文]

hdfs 部署

1,独立模式

2,伪分布模式

3,分布模式

配置文件

conf/core-site.xml=> nameNode访问路径conf/hdfs-site.xml =>副本的个数

conf/hadoop-env.sh=>相关的环境变量

namenode-format

 

[展开全文]

QQ客服: 810476411

QQ咨询: 810476411

QQ吐槽: 810476411

服务时间: 9:00 - 21:00

刘老师: 18516031455

微信公众号:开源力量