sqoop适合sqoop导入数据到hive导出大数据吗

Apache Sqoop 1.99.6 发布,Hadoop 数据迁移_综合_突袭网
当前位置&:&&&& Apache Sqoop 1.99.6 发布,Hadoop 数据迁移
热门标签:&
Apache Sqoop 1.99.6 发布,Hadoop 数据迁移
编辑:李秀媚评论:
1月16日厦门OSC源创会火热报名中,奖品多多哦&&&ApacheSqoop1.99.6发布,这是Sqoop2的第六个版本。此版本现已提供下载:http://www.apache.org/dyn/closer.cgi/sqoop/1.99.6&Sqoop1.99.6包括一些新特性:通过Kite连接器和RoleBasedAccessControl(RBAC)...
Apache Sqoop 1.99.6 发布,这是 Sqoop2 的第六个版本。此版本现已提供下载:& Sqoop 1.99.6 包括一些新特性:通过 Kite 连接器和 Role Based Access Control(RBAC) 的 Hive 集成。Apache Sentry 项目正在开发,准备提供使用 Sqoop2 的 RBAC APIs 的绑定。Sqoop 1.99.6 包括一些稳定性的改进,详细更新内容请看更新日志:。 Sqoop是一个用来将和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。
小米电视想拔足狂奔
【独家】起底常小兵:联通教父的功过迷途
尖锐的圆滑,锤子T2的融合进化
本网转载整理的最新文章
本文作者是微笑科技的创始人&CEO张亮,也是前创新工场投资总监、知乎联合创始人、资深媒体人。当今硅谷风头最劲的风险投资家马克?安德森曾说,硅谷每年大约诞...
【猎云网北京】5月12日(文/卫文)轻社交软件亲觅获500万元天使融资,投资方为德丰杰,投资人是王岳华。亲觅是一款协助解决家人(老人、孩子)定位、安全问题的轻社...
文|DEMO8三羧酸闲置手机还能做什么?相信这是一直困扰着大众的问题。卖给二手手机贩子,还是放在家中让手机长眠?DEMO8今天要推荐的产品「安加」的出现让闲置手...
LiveScript 1.4.0 发布,此版本包括 source maps;功能性 JSON 命令行处理;改进生成器支持;大量 bug 修复。 更新内容如下: Changed np...
AWS CodeDeploy可以对任何实例做软件部署,包括Amazon EC2实例和本地运行的实例。可以帮助您避免在部署过程中停机,还可以集中控制您的应用程序、实例、部署和部署配置...
百度今日通过一封内部邮件,向全体员工通报了“阳光职场”行动查处的7起涉嫌职务侵占、商业受贿的重大职业道德违规行为,其中包含大区总监、高级总监、及销售等多个级别的人员,处理结果除解除...收藏,5.4k 浏览
Sqoop 是 apache 下用于 RDBMS 和 HDFS 互相导数据的工具。本文以 mysql 数据库为例,实现关系数据库导入到 hdfs 和 hive。
1. 安装 Sqoop
使用 rpm 安装即可。
yum install sqoop sqoop-metastore -y
安装完之后需要下载 mysql jar 包到 sqoop 的 lib 目录。
这里使用 hive 的 metastore 的 mysql 数据库作为关系数据库,以 TBLS 表为例,该表结构和数据如下:
sqlmysql& select * from TBLS limit 3;
+------+-----------+-----+----------------+-----+--------+------+---------+----------------+------------------+-------------------+
|TBL_ID|CREATE_TIME|DB_ID|LAST_ACCESS_TIME|OWNER|RETENTI | SD_ID| TBL_NAME| TBL_TYPE
|VIEW_EXPANDED_TEXT| VIEW_ORIGINAL_TEXT|
+------+-----------+-----+----------------+-----+--------+------+---------+----------------+------------------+-------------------+
| EXTERNAL_TABLE | NULL
| EXTERNAL_TABLE | NULL
| EXTERNAL_TABLE | NULL
+------+-----------+-----+----------------+-----+--------+------+---------+----------------+------------------+-------------------+
2.1 命令说明
查看 sqoop 命令说明:
bash$ sqoop help
usage: sqoop COMMAND [ARGS]
Available commands:
Generate code to interact with database records
create-hive-table
Import a table definition into Hive
Evaluate a SQL statement and display the results
Export an HDFS directory to a database table
List available commands
Import a table from a database to HDFS
import-all-tables
Import tables from a database to HDFS
list-databases
List available databases on a server
list-tables
List available tables in a database
Display version information
See 'sqoop help COMMAND' for information on a specific command.
你也可以查看某一个命令的使用说明:
bash$ sqoop import --help
$ sqoop help import
你也可以使用别名来代替 sqoop (toolname):
bash$ sqoop-import
sqoop import 的一个示例如下:
bash$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS
你还可以使用 --options-file 来传入一个文件,使用这种方式可以重用一些配置参数:
bash$ sqoop --options-file /users/homer/work/import.txt --table TEST
/users/homer/work/import.txt 文件内容如下:
jdbc:mysql://192.168.56.121:3306/metastore
--username
--password
2.2 导入数据到 hdfs
使用 sqoop-import 命令可以从关系数据库导入数据到 hdfs。
bash$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --target-dir /user/hive/result
mysql jdbc url 请使用 ip 地址
如果重复执行,会提示目录已经存在,可以手动删除
如果不指定 --target-dir,导入到用户家目录下的 TBLS 目录
你还可以指定其他的参数:
将数据追加到hdfs中已经存在的dataset中。使用该参数,sqoop将把数据先导入到一个临时目录中,然后重新给文件命名到一个正式的目录中,以避免和该目录中已存在的文件重名。
--as-avrodatafile
将数据导入到一个Avro数据文件中|
--as-sequencefile
将数据导入到一个sequence文件中
--as-textfile
将数据导入到一个普通文本文件中,生成该文本文件后,可以在hive中通过sql语句查询出结果。
--boundary-query &statement&
边界查询,也就是在导入前先通过SQL查询得到一个结果集,然后导入的数据就是该结果集内的数据,格式如:--boundary-query 'select id,no from t where id = 3',表示导入的数据为id=3的记录,或者 select min(&split-by&), max(&split-by&) from &table name&,注意查询的字段中不能有数据类型为字符串的字段,否则会报错
--columns&col,col&
指定要导入的字段值,格式如:--columns id,username
直接导入模式,使用的是关系数据库自带的导入导出工具。官网上是说这样导入会更快
--direct-split-size
在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从PostgreSQL导入数据的时候,可以将一个到达设定大小的文件分为几个独立的文件。
--inline-lob-limit
设定大对象数据类型的最大值
-m,--num-mappers
启动N个map来并行导入数据,默认是4个,最好不要将数字设置为高于集群的节点数
--query,-e &sql&
从查询结果中导入数据,该参数使用时必须指定–target-dir、–hive-table,在查询语句中一定要有where条件且在where条件中需要包含 \$CONDITIONS,示例:--query 'select * from t where \$CONDITIONS ' --target-dir /tmp/t –hive-table t
--split-by &column&
表的列名,用来切分工作单元,一般后面跟主键ID
--table &table-name&
关系数据库表名,数据从该表中获取
--delete-target-dir
删除目标目录
--target-dir &dir&
指定hdfs路径
--warehouse-dir &dir&
与 --target-dir 不能同时使用,指定数据导入的存放目录,适用于hdfs导入,不适合导入hive目录
从关系数据库导入数据时的查询条件,示例:--where "id = 2"
-z,--compress
压缩参数,默认情况下数据是没被压缩的,通过该参数可以使用gzip压缩算法对数据进行压缩,适用于SequenceFile, text文本文件, 和Avro文件
--compression-codec
Hadoop压缩编码,默认是gzip
--null-string &null-string&
可选参数,如果没有指定,则字符串null将被使用
--null-non-string &null-string&
可选参数,如果没有指定,则字符串null将被使用|
示例程序:
bash$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --columns "tbl_id,create_time" --where "tbl_id & 1" --target-dir /user/hive/result
使用 sql 语句
参照上表,使用 sql 语句查询时,需要指定 $CONDITIONS
bash$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --query 'SELECT * from TBLS where \$CONDITIONS ' --split-by tbl_id -m 4 --target-dir /user/hive/result
上面命令通过 -m 1 控制并发的 map 数。
使用 direct 模式:
bash$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --delete-target-dir --direct --default-character-set UTF-8 --target-dir /user/hive/result
指定文件输出格式:
bash$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir
--target-dir /user/hive/result
这时候查看 hdfs 中数据(观察分隔符是否为制表符):
bash$ hadoop fs -ls result
Found 5 items
-rw-r--r--
3 root hadoop
16:07 result/_SUCCESS
-rw-r--r--
3 root hadoop
16:07 result/part-m-00000
-rw-r--r--
3 root hadoop
16:07 result/part-m-00001
-rw-r--r--
3 root hadoop
16:07 result/part-m-00002
-rw-r--r--
3 root hadoop
16:07 result/part-m-00003
$ hadoop fs -cat result/part-m-00000
EXTERNAL_TABLE
$ hadoop fs -cat result/part-m-00002
EXTERNAL_TABLE
EXTERNAL_TABLE
指定空字符串:
bash$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --target-dir /user/hive/result
如果需要指定压缩:
bash$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --compression-codec "pression.lzo.LzopCodec" --target-dir /user/hive/result
附:可选的文件参数如下表。
--enclosed-by &char&
给字段值前后加上指定的字符,比如双引号,示例:--enclosed-by '\"',显示例子:"3","jimsss",""
--escaped-by &char&
给双引号作转义处理,如字段值为"测试",经过 --escaped-by "\\" 处理后,在hdfs中的显示值为:\"测试\",对单引号无效
--fields-terminated-by &char&
设定每个字段是以什么符号作为结束的,默认是逗号,也可以改为其它符号,如句号.,示例如:--fields-terminated-by
--lines-terminated-by &char&
设定每条记录行之间的分隔符,默认是换行串,但也可以设定自己所需要的字符串,示例如:--lines-terminated-by "#" 以#号分隔
--mysql-delimiters
Mysql默认的分隔符设置,字段之间以,隔开,行之间以换行\n隔开,默认转义符号是\,字段值以单引号'包含起来。
--optionally-enclosed-by &char&
enclosed-by是强制给每个字段值前后都加上指定的符号,而--optionally-enclosed-by只是给带有双引号或单引号的字段值加上指定的符号,故叫可选的
2.3 创建 hive 表
生成与关系数据库表的表结构对应的HIVE表:
bash$ sqoop create-hive-table --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS
--hive-home &dir&
Hive的安装目录,可以通过该参数覆盖掉默认的hive目录
--hive-overwrite
覆盖掉在hive表中已经存在的数据
--create-hive-table
默认是false,如果目标表已经存在了,那么创建任务会失败
--hive-table
后面接要创建的hive表
指定关系数据库表名
2.4 导入数据到 hive
执行下面的命令会将 mysql 中的数据导入到 hdfs 中,然后创建一个hive 表,最后再将 hdfs 上的文件移动到 hive 表的目录下面。
bash$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite --create-hive-table --hive-table dw_srclog.TBLS --delete-target-dir
可以在 hive 的表名前面指定数据库名称
可以通过 --create-hive-table 创建表,如果表已经存在则会执行失败
接下来可以查看 hive 中的数据:
bash$ hive -e 'select * from dw_srclog.tbls'
EXTERNAL_TABLE
EXTERNAL_TABLE
EXTERNAL_TABLE
直接查看文件内容:
bash$ hadoop fs -cat /user/hive/warehouse/dw_srclog.db/tbls/part-m-00000
80root045go_goodsEXTERNAL_TABLEnullnullnull
90root052merchantEXTERNAL_TABLEnullnullnull
从上面可见,数据导入到 hive 中之后分隔符为默认分隔符,参考上文你可以通过设置参数指定其他的分隔符。
另外,Sqoop 默认地导入空值(NULL)为 null 字符串,而 hive 使用 \N 去标识空值(NULL),故你在 import 或者 export 时候,需要做相应的处理。在 import 时,使用如下命令:
bash$ sqoop import
... --null-string '\\N' --null-non-string '\\N'
在导出时,使用下面命令:
bash$ sqoop import
... --input-null-string '' --input-null-non-string ''
一个完整的例子如下:
bash$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite --create-hive-table --hive-table dw_srclog.TBLS --null-string '\\N' --null-non-string '\\N' --compression-codec "pression.lzo.LzopCodec"
2.5 增量导入
--check-column (col)
用来作为判断的列名,如id
--incremental (mode)
append:追加,比如对大于last-value指定的值之后的记录进行追加导入。lastmodified:最后的修改时间,追加last-value指定的日期之后的记录
--last-value (value)
指定自从上次导入后列的最大值(大于该指定的值),也可以自己设定某一值
2.6 合并 hdfs 文件
将HDFS中不同目录下面的数据合在一起,并存放在指定的目录中,示例如:
bashsqoop merge –new-data /test/p1/person –onto /test/p2/person –target-dir /test/merged –jar-file /opt/data/sqoop/person/Person.jar –class-name Person –merge-key id
其中,–class-name 所指定的 class 名是对应于 Person.jar 中的 Person 类,而 Person.jar 是通过 Codegen 生成的
--new-data &path&
Hdfs中存放数据的一个目录,该目录中的数据是希望在合并后能优先保留的,原则上一般是存放越新数据的目录就对应这个参数。
--onto &path&
Hdfs中存放数据的一个目录,该目录中的数据是希望在合并后能被更新数据替换掉的,原则上一般是存放越旧数据的目录就对应这个参数。
--merge-key &col&
合并键,一般是主键ID
--jar-file &file&
合并时引入的jar包,该jar包是通过Codegen工具生成的jar包
--class-name &class&
对应的表名或对象名,该class类是包含在jar包中的。
--target-dir &path&
合并后的数据在HDFS里的存放目录
3. 参考文章
你可能感兴趣的文章
1 收藏,69 浏览
19 收藏,1.8k 浏览
6 收藏,3.8k 浏览
本文隶属于专栏
个人博客:
分享到微博?
与我们一起探索更多的未知
专业的开发者技术社区,为用户提供多样化的线上知识交流,丰富的线下活动及给力的工作机会
加入只需一步
我要举报该,理由是:
扫扫下载 App
SegmentFault
一起探索更多未知&&&&Sqoop导Oracle数据到Hive
&Sqoop导Oracle数据到Hive
Sqoop导Oracle数据到Hive,代码清晰一目了然
若举报审核通过,可奖励20下载分
被举报人:
举报的资源分:
请选择类型
资源无法下载
资源无法使用
标题与实际内容不符
含有危害国家安全内容
含有反动色情等内容
含广告内容
版权问题,侵犯个人或公司的版权
*详细原因:
您可能还需要
Q.为什么我点的下载下不了,但积分却被扣了
A. 由于下载人数众多,下载服务器做了并发的限制。若发现下载不了,请稍后再试,多次下载是不会重复扣分的。
Q.我的积分不多了,如何获取积分?
A. 获得积分,详细见。
完成任务获取积分。
论坛可用分兑换下载积分。
第一次绑定手机,将获得5个C币,C币可。
关注并绑定CSDNID,送10个下载分
下载资源意味着您已经同意遵守以下协议
资源的所有权益归上传用户所有
未经权益所有人同意,不得将资源中的内容挪作商业或盈利用途
CSDN下载频道仅提供交流平台,并不能对任何下载资源负责
下载资源中如有侵权或不适当内容,
本站不保证本站提供的资源的准确性,安全性和完整性,同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
数据库下载排行
积分不够下载该资源
如何快速获得积分?
你下载资源过于频繁,请输入验证码
如何快速获得积分?
你已经下载过该资源,再次下载不需要扣除积分
Sqoop导Oracle数据到Hive
所需积分:3
剩余积分:0
扫描微信二维码精彩活动、课程更新抢先知
VIP会员,免积分下载
会员到期时间:日
剩余下载次数:1000
VIP服务公告:利用SQOOP将数据从数据库导入到HDFS - Oracle数据库栏目 - 红黑联盟
利用SQOOP将数据从数据库导入到HDFS
利用SQOOP将数据从导入到HDFS
如下面这个shell脚本:
#的连接字符串,其中包含了Oracle的地址,SID,和端口号
CONNECTURL=jdbc:oracle:thin:@20.135.60.21:1521:DWRAC2
#使用的用户名
ORACLENAME=kkaa
#使用的密码
ORACLEPASSWORD=kkaa123
#需要从Oracle中导入的表名
oralceTableName=tt
#需要从Oracle中导入的表中的字段名
columns=AREA_ID,TEAM_NAME
#将Oracle中的数据导入到HDFS后的存放路径
hdfsPath=apps/as/hive/$oralceTableName
#执行导入逻辑。将Oracle中的数据导入到HDFS中
sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath
--num-mappers 1 --table $oralceTableName --columns $columns --fields-terminated-by '\001'
执行这个脚本之后,导入程序就完成了。
接下来,用户可以自己创建外部表,将外部表的路径和HDFS中存放Oracle数据的路径对应上即可。
注意:这个程序导入到HDFS中的数据是文本格式,所以在创建Hive外部表的时候,不需要指定文件的格式为RCFile,而使用默认的TextFile即可。数据间的分隔符为'\001'。如果多次导入同一个表中的数据,数据以append的形式插入到HDFS目录中。
假设有这样这个sqoop命令,需要将Oracle中的数据导入到HDFS中:
sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath
--m 1 --table $oralceTableName --columns $columns --fields-terminated-by '\001'
--where &data_desc=''&
请注意,在这个命令中,有一个参数&-m&,代表的含义是使用多少个并行,这个参数的值是1,说明没有开启并行功能。
现在,我们可以将&-m&参数的值调大,使用并行导入的功能,如下面这个命令:
sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath
--m 4 --table $oralceTableName --columns $columns --fields-terminated-by '\001'
--where &data_desc=''&
一般来说,Sqoop就会开启4个进程,同时进行数据的导入操作。
但是,如果从Oracle中导入的表没有主键,那么会出现如下的错误提示:
ERROR tool.ImportTool: Error during import: No primary key could be found for table creater_user.popt_cas_redirect_his. Please specify one with --split-by or perform a sequential import with '-m 1'.
在这种情况下,为了更好的使用Sqoop的并行导入功能,我们就需要从原理上理解Sqoop并行导入的实现机制。
如果需要并行导入的Oracle表的主键是id,并行的数量是4,那么Sqoop首先会执行如下一个查询:
select max(id) as max, select min(id) as min from table [where 如果指定了where子句];
通过这个查询,获取到需要拆分字段(id)的最大值和最小值,假设分别是1和1000。
然后,Sqoop会根据需要并行导入的数量,进行拆分查询,比如上面的这个例子,并行导入将拆分为如下4条SQL同时执行:
select * from table where 0 &= id & 250;
select * from table where 250 &= id & 500;
select * from table where 500 &= id & 750;
select * from table where 750 &= id & 1000;
注意,这个拆分的字段需要是整数。
从上面的例子可以看出,如果需要导入的表没有主键,我们应该如何手动选取一个合适的拆分字段,以及选择合适的并行数。
再举一个实际的例子来说明:
我们要从Oracle中导入creater_user.popt_cas_redirect_his。
这个表没有主键,所以我们需要手动选取一个合适的拆分字段。
首先看看这个表都有哪些字段:
然后,我假设ds_name字段是一个可以选取的拆分字段,然后执行下面的sql去验证我的想法:
select min(ds_name), max(ds_name) from creater_user.popt_cas_redirect_his where data_desc=''
发现结果不理想,min和max的值都是相等的。所以这个字段不合适作为拆分字段。
再测试一下另一个字段:CLIENTIP
select min(CLIENTIP), max(CLIENTIP) from creater_user.popt_cas_redirect_his where data_desc=''
这个结果还是不错的。所以我们使用CLIENTIP字段作为拆分字段。
所以,我们使用如下命令并行导入:
sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath
--m 12 --split-by CLIENTIP --table $oralceTableName --columns $columns --fields-terminated-by '\001'
--where &data_desc=''&
这次执行这个命令,可以看到,消耗的时间为:20mins, 35sec,导入了33,222,896条数据。
另外,如果觉得这种拆分不能很好满足我们的需求,可以同时执行多个Sqoop命令,然后在where的参数后面指定拆分的规则。如:
sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath
--m 1 --table $oralceTableName --columns $columns --fields-terminated-by '\001'
--where &data_desc='' logtime&10:00:00&
sqoop import --append --connect $CONNECTURL --username $ORACLENAME --password $ORACLEPASSWORD --target-dir $hdfsPath
--m 1 --table $oralceTableName --columns $columns --fields-terminated-by '\001'
--where &data_desc='' logtime&=10:00:00&
从而达到并行导入的目的。sqoop 增量导入 如何去除已更新的字段_百度知道
sqoop 增量导入 如何去除已更新的字段
提问者采纳
默认在tmp下;opt&#47:sqoop metastore三.106;sqoop --create job_zyztest13 -- import
--connect jdbc:0:hsqldb:hsqldb:1.0.106:orcl --username SQOOP --password sqoop
--table LXC_TEST_HBASE_TO_ORACLE
--columns NAME、sqoop的配置文件在 就是只导入created 比'bin&#47.location
本地存储路径:&#47.106;&#47.out 2&sqoop job --meta-connect jdbc。二.bin__hadoop-2.1,通过bin/ job_zyztest13.2:hsqldb.sqoop-1;sqoop --exec job_zyztest13 &10; job_zyztest13,CSRQ -m 1 --hbase-table SQOOP_IMPORT_TEST3 --column-family info --hbase-row-key
NAME --split-by NAME --incremental lastmodified --check-column CSRQ --last-value &#39:--incremental lastmodified --check-column created --last-value &#39,改为其他路径
2.1,即通过指定一个递增的列:0:hsql.bin__hadoop-2.autoconnect.port
metastore service端口号
3;4 * * * *
/sqoop-1:&#47:16000&#47。sqoop默认连接本地metastore,默认是本地的metastore地址
4:oracle.autoconnect
开启自动连接;sqoop job --exec job_zyztest13 &gt:@10;&1 &此时:00&#39.234.106.client.234:--incremental append
--check-column ID --last-value 8另种是可以根据时间戳;10。bin&#47、sqoop、sqoop.client:1;opt/sqoop job --meta-connect jdbc:00'&#47.sqoop job --meta-connect jdbc.1;&#47:hsql.out 2&gt:0、开启metastore service
sqoop下、sqoop.0-alpha/ 11.0-alpha&#47.4.metastore、创建jobsqoop支持两种增量导入模式.bin&#47.0:--incremental append
--check-column num_iid --last-value 0varchar类型的check字段也可以通过这种方式增量导入(ID为varchar类型的递增数字);10,所有node上的sqoop都可以运行同一个job一.metastore.2,AGE;hadoopcluster&#47, 一种是 append,比如:
1:crontab -e编辑定时器,添加*&#47:thin、定时执行使用linux定时器.1.236;sqoop --list可以查看所有job四; 11,nohup bin/更大的数据:&#47.234上创建了job_zyztest13这个job,比如.server,SEX、sqoop,在10.4.xml中;hadoopcluster&#47sqoop使用hsql来存储job信息。注释这个配置会开启自动连接:00' 11,开启metastor service将job信息共享:.metastore.server.url
sqoop自动连接的metastore地址; --verbosenohup &#47
电子产品技术支持
其他类似问题
为您推荐:
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁}

我要回帖

更多关于 sqoop导出数据到mysql 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信