Archive

keep hungry keep foolish
2020

ES中文分词并使用滑动窗口

ES中文分词并使用滑动窗口


hive FULLJOIN中实现部分数据FULLJOIN另一部分数据LEFTJOIN的结果

hive FULLJOIN中实现部分数据FULLJOIN另一部分数据LEFTJOIN的结果


hivesql解析json数组并拆分成多行

hivesql解析json数组并拆分成多行


2019

云主机自建ES6.x,本地外网Spark连接

云主机自建ES6.x,本地外网Spark连接调试


Spark打印日志中文乱码问题

Spark打印日志中文显示乱码


Flume之KafkaSink的自定义分区写入

相同key之写入到同一个kafka分区


Docker--DockerfIle保留关键字

常用的Dockerfile保留关键字介绍


Docker--自定义Dockerfile并构建

通过Dockerfile给官方centos镜像添加vim及ifconfig功能,并构建成自己的镜像。


Docker--部署

基于Linux--centos7.4


Docker--镜像推送至阿里云

自定义镜像发布到阿里云Docker仓库


Docker--阿里云镜像加速

使用阿里云加速镜像下载


Docker部署

Docker部署


安装Python3并包含sqlite3

python3支持sqlite3


Superset部署,基于Python3

Superset踩坑指南


Presto读取MySQL数据

SQL中需要显示类型转换


spark外部数据源之JDBC源码解读

九步拆解spark读取外部数据源


sparksql 数据按逗号拆分成多行

lateral view explode()实现拆分多行


Presto的mysql驱动问题

源码中的isWrapperFor和abort函数不支持较老的mysql驱动


spark脚本监控任务运行状态

如何根据appName监控spark任务,当任务不存在则启动(任务存在当超过多久没有活动状态则kill,等待下次启动)


2019-05-01最新Linux安装Ruby 安装Jekyll

github自建博客 GitHub Pages + Jekyll


编译Spark2.4.2

手动编译


2018

WARN spark.yarn.jars falling back to uploading

spark on yarn 提交WARN


spark RDD五大特性并在源码中的体现

RDD的五大特性


RDD缓存及序列化缓存

JavaSerializer和KryoSerializer对比


scala最大堆最小堆,通过堆取TopN

使用最小堆取最大的N个元素


2017

HashShuffleManager测试shuffle阶段中间文件数量

分别测试hash、sort、hash+consolidateFiles


hadoop的压缩格式

列举了常用的hadoop压缩格式以及效率占比图


配置Hadoop,Hive的存储与压缩

Orc,Parquet等存储和压缩


2016

shell脚本常用语法

shell脚本常用语法


2015

报错:JAVA_HOME is not set

sudo 无法提交任务


linux新建用户应用于hadoop权限

给其他开发人员创建linux账号并只能操作hdfs指定目录下的文件


Java基础

Java基础介绍