Woods Blog

大数据 Blog

ES中文分词并使用滑动窗口

ES中文分词并使用滑动窗口

何谓滑动窗口分词: 比如原句:woods data hadoop 分词后为: 1 2 3 4 5 6 woods woods data woods data hadoop data data hadoop hadoop 创建索引,自定义分词方式: 使用ik_smart中文分词,并使用shingle过滤器(滑动窗口模式) 1 2 3 4 5...

hive FULLJOIN中实现部分数据FULLJOIN另一部分数据LEFTJOIN的结果

hive FULLJOIN中实现部分数据FULLJOIN另一部分数据LEFTJOIN的结果

需求 一个重点店铺表:dim_shop_point 一个用户对店铺关注表:follow_shop 一个近一年用户对店铺订单表:order_shop_year 全量店铺中有重点店铺和其他店铺 实现重点店铺的近一年订单数据及全量关注人群 + 非重点店铺关注人与近一年用户店铺订单的交集。 方案 方案一: 使用订单表order_shop_year ,FULL JOIN上重点店铺的全量关注人群,再L...

hivesql解析json数组并拆分成多行

hivesql解析json数组并拆分成多行

原始数据: 1 [{"name":"woods","app_id":"abc123"},{"name":"tiger","app_id":"def456"}] 数据存在表dev.woods_test中 需求与方法: 解析json,一行拆分成两行 1 2 3 4 5 6 7 select a_json from ( select split(regexp_replace(...

云主机自建ES6.x,本地外网Spark连接

云主机自建ES6.x,本地外网Spark连接调试

环境: 1 2 1. 云主机自建elsticsearch6.5.4 (内网ip:192.168.0.3 外网ip:WAN_IP) 2. Spark2.4 开发: 官方开发文档:https://www.elastic.co/guide/en/elasticsearch/hadoop/6.5/spark.html 引入pom 1 2 3 4 5 <dependency...

Spark打印日志中文乱码问题

Spark打印日志中文显示乱码

1. idea编辑器的编码 ​ 在idea右下角可以看到 2. pom文件的编码 ​ pom文件第一行<?xml version="1.0" encoding="UTF-8"?> 3. pom文件的编码 ​ spark提交时添加这两个参数: ​ –conf spark.driver.extraJavaOptions=” -Dfile.encoding=utf-8...

Flume之KafkaSink的自定义分区写入

相同key之写入到同一个kafka分区

场景 Kafka接收MySQL BinLog日志,同一个表的同一个主键需要按照顺序来消费。 如果数据一条数据实际顺序是先create,再delete,消费是也必须按照这个顺序。 但是kafka只保证了同一分区内的数据是有序的。 所以需要将同一个主键的数据放到一个Kafka分区中。 可以按照表名.主键值作为Kafka的分区key。 下面使用flume模拟数据发送到Kafka。 Fl...

Docker--阿里云镜像加速

使用阿里云加速镜像下载

登录阿里云镜像主页 https://cr.console.aliyun.com/cn-beijing/instances/mirrors 注册或登录阿里云账号,可复用淘宝账号 选择左侧菜单栏 -> 镜像加速器 安装/升级Docker客户端 推荐安装1.10.0以上版本的Docker客户端,参考文档 docker-ce 配置镜像加速器 针对Docker客户端版...

Docker--镜像推送至阿里云

自定义镜像发布到阿里云Docker仓库

1. 登录阿里云镜像仓库 https://cr.console.aliyun.com/cn-beijing/instances/repositories 2. 创建命名空间 左侧菜单栏 -> 命名空间 -> 创建命名空间 3. 创建镜像仓库 左侧菜单栏 -> 镜像仓库 -> 创建镜像仓库 填写仓库信息 代码源:选择本地仓库。 4. 本地镜像推送至阿...

Docker--部署

基于Linux--centos7.4

官网 https://docs.docker.com/install/linux/docker-ce/centos/#install-docker-ce-1 1.卸载旧版本 1 2 3 4 5 6 7 8 $ sudo yum remove docker \ docker-client \ docker-client-...

Docker--自定义Dockerfile并构建

通过Dockerfile给官方centos镜像添加vim及ifconfig功能,并构建成自己的镜像。

1. 编写一个centos的Dockerfile 指定登录默认路径为/home 安装vim以支持vim编辑器 安装net-tools以支持ifconfig 暴露80端口 1 vim /home/docker/Dockerfile-centos01 ``` FROM centos MAINTAINER wsjwoodswsjwoods@gmail.c...