Woods Blog

大数据 Blog

Docker--DockerfIle保留关键字

常用的Dockerfile保留关键字介绍

FROM 基础镜像,当前新镜像是基于哪个镜像的。 MAINTAINER 镜像维护者的姓名和邮箱地址 RUN 容器构建时需要运行的命令 EXPOSE 当前容器对外暴露出的端口号 WORKDIR 指定在创建容器后,终端默认登录的进来的工作目录,落脚点,默认是根目录/ ENV 用来在构建镜像过程中设置环境变量 ADD 将宿主机目录下的文件拷贝进镜像...

Docker部署

Docker部署

官网 https://docs.docker.com/install/linux/docker-ce/centos/#install-docker-ce-1 1.卸载旧版本 1 2 3 4 5 6 7 8 $ sudo yum remove docker \ docker-client \ docker-client-...

Superset部署,基于Python3

Superset踩坑指南

环境: python3</br> centos 7.4 部署: 官网 http://superset.apache.org/installation.html 安装python 和 其他依赖 1 2 sudo yum upgrade python-setuptools sudo yum install gcc gcc-c++ libffi-devel p...

安装Python3并包含sqlite3

python3支持sqlite3

下载sqlite3的包 1 2 3 4 wget https://www.sqlite.org/2017/sqlite-autoconf-3170000.tar.gz --no-check-certificate tar zxvf sqlite-autoconf-3170000.tar.gz cd sqlite-autoconf-3170000 ./configure --prefix=/u...

Presto读取MySQL数据

SQL中需要显示类型转换

环境 Presto 0.216 配置文件 1 2 3 4 5 [root@bigdata-003 catalog]# vi mysql.properties connector.name=mysql connection-url=jdbc:mysql://bigdata-001:3306 connection-user=root connection-password=root ...

spark外部数据源之JDBC源码解读

九步拆解spark读取外部数据源

@[toc] 环境: 1 spark 2.4.0 本文通过源码中JDBC的读取数据库源码解读spark对于外部数据源的处理。 spark读取jdbc数据方法参照官方网站: 1 2 3 4 5 6 7 val jdbcDF = spark.read .format("jdbc") .option("url", "jdbc:postgresql:dbserver") .opti...

sparksql 数据按逗号拆分成多行

lateral view explode()实现拆分多行

比如: 原表(表名:table1) id num 1 001,002,003 2 001,002 转换成 id num 1 00...

Presto的mysql驱动问题

源码中的isWrapperFor和abort函数不支持较老的mysql驱动

由于公司数据主要存在MPP数据库中(底层MYSQL分布式数据库集群),决定使用Presto做OLAP查询引擎。因为Presto支持非HIVE的外部数据源。 版本 1 presto-server-0.216 安装部署好之后,配置mpp的catalog vim ./etc/catalog/mpp.properties 1 2 3 4 connector.name=mysql connec...

spark脚本监控任务运行状态

如何根据appName监控spark任务,当任务不存在则启动(任务存在当超过多久没有活动状态则kill,等待下次启动)

如何根据appName监控spark任务,当任务不存在则启动(任务存在当超过多久没有活动状态则kill,等待下次启动) 业务需求 实现一个根据spark任务的appName来监控任务是否存在,及任务是否卡死的监控。 1)给定一个appName,根据appName从yarn application -list中验证任务是否存在,不存在则调用spark-submit.sh脚本来启动任务; ...

2019-05-01最新Linux安装Ruby 安装Jekyll

github自建博客 GitHub Pages + Jekyll

网上很多安装方式都有问题, 这里汇总一下并亲自试验且安装成功 我的linux环境:centos7 1.安装rvm 1 2 gpg2 --recv-keys 409B6B1796C275462A1703113804BB82D39DC0E3 7D2BAF1CF37B13E2069D6956105BD0E739499BDB curl -sSL https://get.rvm.io | bash...