Toggle navigation
Woods Blog
Home
About
Archive
Archive
keep hungry keep foolish
Show All
32
大数据
12
Spark
9
Docker
6
容器
5
Hadoop
5
Linux
4
Hive
3
Presto
2
BI
1
ES
1
Flume
1
Java
1
Kafka
1
Python
1
Sehll
1
SparkSql
1
Sql
1
es
1
scala
1
2020
ES中文分词并使用滑动窗口
ES中文分词并使用滑动窗口
hive FULLJOIN中实现部分数据FULLJOIN另一部分数据LEFTJOIN的结果
hive FULLJOIN中实现部分数据FULLJOIN另一部分数据LEFTJOIN的结果
hivesql解析json数组并拆分成多行
hivesql解析json数组并拆分成多行
2019
云主机自建ES6.x,本地外网Spark连接
云主机自建ES6.x,本地外网Spark连接调试
Spark打印日志中文乱码问题
Spark打印日志中文显示乱码
Flume之KafkaSink的自定义分区写入
相同key之写入到同一个kafka分区
Docker--DockerfIle保留关键字
常用的Dockerfile保留关键字介绍
Docker--自定义Dockerfile并构建
通过Dockerfile给官方centos镜像添加vim及ifconfig功能,并构建成自己的镜像。
Docker--部署
基于Linux--centos7.4
Docker--镜像推送至阿里云
自定义镜像发布到阿里云Docker仓库
Docker--阿里云镜像加速
使用阿里云加速镜像下载
Docker部署
Docker部署
安装Python3并包含sqlite3
python3支持sqlite3
Superset部署,基于Python3
Superset踩坑指南
Presto读取MySQL数据
SQL中需要显示类型转换
spark外部数据源之JDBC源码解读
九步拆解spark读取外部数据源
sparksql 数据按逗号拆分成多行
lateral view explode()实现拆分多行
Presto的mysql驱动问题
源码中的isWrapperFor和abort函数不支持较老的mysql驱动
spark脚本监控任务运行状态
如何根据appName监控spark任务,当任务不存在则启动(任务存在当超过多久没有活动状态则kill,等待下次启动)
2019-05-01最新Linux安装Ruby 安装Jekyll
github自建博客 GitHub Pages + Jekyll
编译Spark2.4.2
手动编译
2018
WARN spark.yarn.jars falling back to uploading
spark on yarn 提交WARN
spark RDD五大特性并在源码中的体现
RDD的五大特性
RDD缓存及序列化缓存
JavaSerializer和KryoSerializer对比
scala最大堆最小堆,通过堆取TopN
使用最小堆取最大的N个元素
2017
HashShuffleManager测试shuffle阶段中间文件数量
分别测试hash、sort、hash+consolidateFiles
hadoop的压缩格式
列举了常用的hadoop压缩格式以及效率占比图
配置Hadoop,Hive的存储与压缩
Orc,Parquet等存储和压缩
2016
shell脚本常用语法
shell脚本常用语法
2015
报错:JAVA_HOME is not set
sudo 无法提交任务
linux新建用户应用于hadoop权限
给其他开发人员创建linux账号并只能操作hdfs指定目录下的文件
Java基础
Java基础介绍