海数科技,数据处理专家! www.hidatas.com
海数科技,专注 Hadoop 大数据处理、Oracle 数据库运维! www.hidatas.com
海数科技 Hadoop 大数据处理文献
Hadoop 数据迁移:使用 importtsv 两步载入数据
importtsv工作:
该工具是HBase提供的一个将HDFS数据转化为HBase数据库数据的一个工具。
其实现过程是,先将HDFS文件转复制并转化为HFile文件,然后将HFile移动并加载成为HBase的数据文件。
获取帮助:
$ hadoop jar $HBASE_HOME/hbase-0.94.4.jar importtsv
Usage: importtsv -Dimporttsv.columns=a,b,c <tablename> <inputdir>
column name is either a simple column family, or a columnfamily:qualifier. The special
column name HBASE_ROW_KEY is used to designate that this column should be used
-Dimporttsv.bulk.output=/path/for/output
-Dimporttsv.skip.bad.lines=false - fail if encountering an invalid line
'-Dimporttsv.separator=|' - eg separate on pipes instead of tabs
-Dimporttsv.timestamp=currentTimeAsLong - use the specified timestamp for the import
-Dimporttsv.mapper.class=my.Mapper - A user-defined Mapper to use instead of
org.apache.hadoop.hbase.mapreduce.TsvImporterMapper
-Dmapred.map.tasks.speculative.execution=false
-Dmapred.reduce.tasks.speculative.execution=false
HBase表的情况:
public static void createTab(String tabName) throws Exception {
HBaseAdmin admin = new HBaseAdmin(conf);
if (admin.tableExists(tabName)) {
System.out.println(tabName + " exists!");
admin.close();
return;
评论0