Woods Blog

Home
About
Archive

Archive

keep hungry keep foolish

Show All ³² 大数据 ¹² Spark ⁹ Docker ⁶ 容器 ⁵ Hadoop ⁵ Linux ⁴ Hive ³ Presto ² BI ¹ ES ¹ Flume ¹ Java ¹ Kafka ¹ Python ¹ Sehll ¹ SparkSql ¹ Sql ¹ es ¹ scala ¹

ES中文分词并使用滑动窗口

ES中文分词并使用滑动窗口

hive FULLJOIN中实现部分数据FULLJOIN另一部分数据LEFTJOIN的结果

hive FULLJOIN中实现部分数据FULLJOIN另一部分数据LEFTJOIN的结果

hivesql解析json数组并拆分成多行

hivesql解析json数组并拆分成多行

2019

云主机自建ES6.x,本地外网Spark连接

云主机自建ES6.x,本地外网Spark连接调试

Spark打印日志中文乱码问题

Spark打印日志中文显示乱码

Flume之KafkaSink的自定义分区写入

相同key之写入到同一个kafka分区

Docker--DockerfIle保留关键字

常用的Dockerfile保留关键字介绍

Docker--自定义Dockerfile并构建

通过Dockerfile给官方centos镜像添加vim及ifconfig功能，并构建成自己的镜像。

Docker--部署

基于Linux--centos7.4

Docker--镜像推送至阿里云

自定义镜像发布到阿里云Docker仓库

Docker--阿里云镜像加速

使用阿里云加速镜像下载

Docker部署

Docker部署

安装Python3并包含sqlite3

python3支持sqlite3

Superset部署，基于Python3

Superset踩坑指南

Presto读取MySQL数据

SQL中需要显示类型转换

spark外部数据源之JDBC源码解读

九步拆解spark读取外部数据源

sparksql 数据按逗号拆分成多行

lateral view explode()实现拆分多行

Presto的mysql驱动问题

源码中的isWrapperFor和abort函数不支持较老的mysql驱动

spark脚本监控任务运行状态

如何根据appName监控spark任务,当任务不存在则启动（任务存在当超过多久没有活动状态则kill，等待下次启动）

2019-05-01最新Linux安装Ruby 安装Jekyll

github自建博客 GitHub Pages + Jekyll

编译Spark2.4.2

手动编译

2018

WARN spark.yarn.jars falling back to uploading

spark on yarn 提交WARN

spark RDD五大特性并在源码中的体现

RDD的五大特性

RDD缓存及序列化缓存

JavaSerializer和KryoSerializer对比

scala最大堆最小堆，通过堆取TopN

使用最小堆取最大的N个元素

2017

HashShuffleManager测试shuffle阶段中间文件数量

分别测试hash、sort、hash+consolidateFiles

hadoop的压缩格式

列举了常用的hadoop压缩格式以及效率占比图

配置Hadoop,Hive的存储与压缩

Orc,Parquet等存储和压缩

2016

shell脚本常用语法

shell脚本常用语法

2015

报错：JAVA_HOME is not set

sudo 无法提交任务

linux新建用户应用于hadoop权限

给其他开发人员创建linux账号并只能操作hdfs指定目录下的文件

Java基础

Java基础介绍

Copyright © Woods Blog 2022
Powered by Hux Blog |