1 结构化数据与非结构化数据 · 大数据学习笔记


本站和网页 https://chu888chu888.gitbooks.io/hadoopstudy/content/Content/chapter0201.html 的作者无关,不对其内容负责。快照谨为网络故障时之索引,不代表被搜索网站的即时页面。

1 结构化数据与非结构化数据 · 大数据学习笔记
大数据学习笔记
介绍
第一章 概念
第二章 云计算技术
1 结构化数据与非结构化数据
第三章 Hadoop是什么
1.基本概念
2.原理漫画
3.技术选型
第四章 Hadoop的安装
1.Hadoop 2.6.2伪分布式
2.Hadoop 2.6.2完全分布式
3 Hadoop 2.7.2完全分布式
4.Hadoop的组件
5.SSH免密钥登录
第五章 Ambari集群管理
1.Ambari集群安装
第六章 Hive
1.Hive 1.1.1的安装
2.Hive 2.1.0的安装
3.Hive的基本使用与导入导出
4.Hive数据类型与文件格式
5 Hive的存储架构与HQL语法
6 Hive的模式设计与事务性
7 Hive综合案例实战
8 Hive开发
9 Hive安全
10 FAQ
第七章 Sqoop
1.Sqoop2的安装
2.Sqoop1的安装
3.Sqooq1综合案例
4.Sqooq2综合案例
5.DataX性能对比
第八章 HBASE
1.HBASE的伪分布安装与分布式安装
2.HBASE常用的Shell命令
3.基于HBASE的Java开发
4.基于HBASE的Python开发
5.HBASE与传统数据库的区别
6.HBASE安装疑难杂症
7.Hive与Hbase的区别
第九章 HBASE实战
1.HBASE基于Java开发
2.整合SQL引擎层
3.基本数据迁移
4.基于Bulk load的数据迁移
5.使用管理工具
6 Hbase 数据备份及恢复
7 监控与诊断
副录-HBase资源收集
第十章 Spark
1. 基YARN安装
2.基于Mesos安装
3.Hadoop与Spark的区别
第十一章 CDH的发行版本
1.基于Centos的安装
2.基于Ubuntu的安装
第十二章 TDH发行版本
1.安装
2.Inceptor-SQL使用
3.使用JDBC、ODBC工具连接Inceptor
4 Sqoop的使用
5 使用JDBC、ODBC工具连接Inceptor
6 SQL兼容测试
7 SQL语法知识
附录 POC前的准备工作
第十三章 HUE安装与配置
第十四章 数据采集与爬虫
第十五章 Hadoop相关资源
1 github相关资源收集
第十五章 Hadoop100问
第十六章 大数据框架合集
1.电商网站架构案例
第十七章 运维
1.运维常用工具
第十八章 机器学习入门
第十九章 Centos下的Oracle安装
第二十章 基于JFinal的大数据框架快速开发
1 基于Gradle的项目构建
第二十一章 ELK
附录 Hadoop运维技能要求
Powered by GitBook
1 结构化数据与非结构化数据
1 结构化数据与非结构化数据
相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。
非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。
非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。
结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)
非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等
所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。
数据模型:
结构化数据:二维表(关系型)
半结构化数据:树、图
非结构化数据:无
RMDBS的数据模型有:如网状数据模型、层次数据模型、关系型
结构化数据:先有结构、再有数据
半结构化数据:先有数据,再有结构
随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露地越来越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化数据库时代。
results matching ""
No results matching ""