AVRO文件结构分析
guibin.beijing@gmail.com
研究了AVRO的规范,比较形象的图形表达了文件中内容布局,仅做参考。详细说明在图形下方。
使用AVRO标准系列化生成二进制的文件,该文件总体上由文件头(Header)和数据块(Data Block)及同步标识(Synchronization marker)三部分组成。
- 文件头为标识为Header的青色大框部分。
- 数据块为文件头下方紧邻的灰色的Data Block部分。
- 同步标识为数据块下方紧接着的橘色的Synchronization marker部分。
AVRO通过使用同步标识,将大块数据分割成小块,连续存储在同一个文件中,便于并发处理,即不同线程可以相互无影响的同时操作不同的数据块。因此,在上图最下方的数据块之后,根据情况,会有更多的同步标识和数据块。
AVRO的文件头由三部分组成,如上图所示。
- 文件头由四个字节'O', 'b', 'j'开始,后面紧接着1,一般称这四个字节为魔术字符(magic)
- 紧接着文件头的是AVRO的Meta Data
- 文件头的最后由同步标识结尾
- 描述: AVRO文件结构
- 大小: 47.1 KB
分享到:
相关推荐
添加基本数据分析功能,例如聚合操作和检查数据比例。 请注意,建议您下载版本以便仅查看本地大数据二进制文件,它是轻量级的,不依赖于AWS开发工具包,Azure开发工具包等。说实话,您可以从AWS的Web门户下载...
《Hadoop权威指南(影印版)(第3版)(修订版)》的内容包括:使用Hadoop分布式文件系统(HDFS)保存大数据集;使用MapReduce运行分布式计算;使用Hadoop的数据和I/O构件实现压缩、数据完整性、序列化(包括Avro)和持久...
《Hadoop权威指南(第3版)(修订版)(影印版)》的内容包括:使用Hadoop分布式文件系统(HDFS)保存大数据集;使用MapReduce运行分布式计算;使用Hadoop的数据和I/O构件实现压缩、数据完整性、序列化(包括Avro)...
2.2.2 导入导出半结构化和二进制文件 技术点2 自动复制文件到HDFS 的机制 技术点3 使用Oozie 定期执行数据导入活动 2.2.3 从数据库中拉数据 技术点4 使用MapReduce 将数据导入数据库 技术点5 使用Sqoop ...
68_脚本分析的过程" ?' q# U7 B/ ~" W, e- I 69_开启和关闭一个进程 70_hadoop常用的命令和关闭防火墙) Q" A0 B3 M8 s3 ? 71_hadoop存储为何是128M 72_hadoop的存储问题 73_hadoop的高可用 74_配置hadoop临时目录 75...
依据文件的数据结构 写入SequenceFile MapFile 第5章 MapReduce应用开发 配置API 合并多个源文件 可变的扩展 配置开发环境 配置管理 辅助类GenericOptionsParser,Tool和ToolRunner 编写单元测试 mapper reducer ...
依据文件的数据结构 写入SequenceFile MapFile 第5章 MapReduce应用开发 配置API 合并多个源文件 可变的扩展 配置开发环境 配置管理 辅助类GenericOptionsParser,Tool和ToolRunner 编写单元...
Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。大数据这个术语最早的引用可追溯到Nutch。...
技术点16 使用Thrift3.3.5 Avro技术点17 MapReduce 的下一代数据序列化技术3.4 自定义文件格式3.4.1 输入输出格式技术点18 输入和输出格式为CSV 的文件3.4.2 output committing 的重要性 3.5 本章小...
从 Hive 或 HBase 将数据提取至 HDFS (作为文本或 Avro 文件) 使用 Sqoop 将上一步的输出导出至 RDBMS 不支持按照与 Sqoop 1 相同的解决方法操作 大数据-sqoop全文共16页,当前为第5页。 Sqoop的用途 Sqoop可以在...
Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。 大数据这个术语最早的引用可追溯到Nutch...
Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。</p><p>大数据这个术语最早的引用可追溯到...
Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。</p><p>大数据这个术语最早的引用可追溯到...