优化这段代码：override def load(dataFrame: DataFrame, delta: Boolean): DataFrame = { val dataFrameCache=dataFrame.repartition(col("TRANSACTION_TYPE_CODE")) logger.info(s"Method Load execution start and data count is " + dataFrame.count()) val rbkFactTableLists: Seq[RbkFactTableEntity] = rbkConfigUtil.getRbkFactTableList(rbkConfig) logger.info(s"Method rbkFactTableLists is " + rbkFactTableLists.size) val rbkMainFactTable = rbkConfigUtil.getRbkMainFactTable(rbkConfig) logger.info(s"Method rbkMainFactTable is " + rbkMainFactTable) val rbkUnionFactTableList =rbkConfigUtil.getRbkUnionFactTableList(rbkConfig) logger.info(s"Method rbkUnionFactTableList is " + rbkUnionFactTableList.size) loadRbkMainData( dataFrameCache,false , rbkMainFactTable ) for(rbkUnionTable<-rbkUnionFactTableList) { loadRbkUnionData( dataFrameCache,false , rbkUnionTable ) } for(rbkFactTable <- rbkFactTableLists){ loadRbkData(dataFrameCache, false ,rbkFactTable) } logger.info(s"Method Load execution end and data count is " + dataFrame.count()) dataFrameCache }

时间: 2023-06-02 13:06:03 浏览: 100

Java和scala实现 Spark RDD转换成DataFrame的两种方法小结

5星 · 资源好评率100%

Java 和 Scala 实现 Spark RDD 转换成 DataFrame 的两种方法小结在本文中，我们将讨论如何使用 Java 和 Scala 将 Spark RDD 转换成 DataFrame，並且介绍两种实现方法。准备数据源在项目下新建一个 student.txt 文件，内容如下： 1,zhangsan,20 2,lisi,21 3,wanger,19 4,fangliu,18 Java 版实现第一步：新建一个 Student 的 Bean 对象，实现序列化和 toString() 方法。 ```java package com.cxd.sql; import java.io.Serializable; @SuppressWarnings("serial") public class Student implements Serializable { String sid; String sname; int sage; public String getSid() { return sid; } public void setSid(String sid) { this.sid = sid; } public String getSname() { return sname; } public void setSname(String sname) { this.sname = sname; } public int getSage() { return sage; } public void setSage(int sage) { this.sage = sage; } @Override public String toString() { return "Student [sid=" + sid + ", sname=" + sname + ", sage=" + sage + "]"; } } ``` 第二步：将 RDD 转换成 DataFrame。 ```java package com.cxd.sql; import java.util.ArrayList; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.RowFactory; import org.apache.spark.sql.SaveMode; import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.types.DataTypes; import org.apache.spark.sql.types.StructField; import org.apache.spark.sql.types.StructType; public class TxtToParquetDemo { public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("TxtToParquet").setMaster("local"); SparkSession spark = SparkSession.builder().config(conf).getOrCreate(); reflectTransform(spark);//Java 反射 dynamicTransform(spark);//动态转换 } / * 通过 Java 反射转换 * @param spark */ private static void reflectTransform(SparkSession spark) { JavaRDD<String> source = spark.read().textFile("stuInfo.txt").javaRDD(); JavaRDD<Student> rowRDD = source.map(line -> { String parts[] = line.split(","); Student stu = new Student(); stu.setSid(parts[0]); stu.setSname(parts[1]); stu.setSage(Integer.parseInt(parts[2])); return stu; }); // 创建 StructType StructType schema = DataTypes.createStructType(new StructField[] { DataTypes.createStructField("sid", DataTypes.StringType, true), DataTypes.createStructField("sname", DataTypes.StringType, true), DataTypes.createStructField("sage", DataTypes.IntegerType, true) }); // 将 JavaRDD 转换成 DataFrame Dataset<Row> df = spark.createDataFrame(rowRDD, schema); } / * 通过动态转换 * @param spark */ private static void dynamicTransform(SparkSession spark) { // ... } } ``` Scala 版实现在 Scala 中，我们可以使用 case class 来定义Student 对象，并使用 SparkSQL 的 implicits 将 RDD 转换成 DataFrame。 ```scala case class Student(sid: String, sname: String, sage: Int) object TxtToParquetDemo { def main(args: Array[String]) { val spark = SparkSession.builder.appName("TxtToParquet").master("local").getOrCreate val source = spark.read.textFile("stuInfo.txt").rdd val rowRDD = source.map { line => val parts = line.split(",") Student(parts(0), parts(1), parts(2).toInt) } import spark.implicits._ val df = rowRDD.toDF } } ``` 结论在本文中，我们讨论了如何使用 Java 和 Scala 将 Spark RDD 转换成 DataFrame，並且介绍了两种实现方法：Java 反射和动态转换。在实际应用中，我们可以根据不同的需求选择合适的实现方法。

override def load(dataFrame: DataFrame, delta: Boolean): DataFrame = { val dataFrameCache = dataFrame.repartition(col("TRANSACTION_TYPE_CODE")) val rbkFactTableLists: Seq[RbkFactTableEntity] = rbkConfigUtil.getRbkFactTableList(rbkConfig) val rbkMainFactTable = rbkConfigUtil.getRbkMainFactTable(rbkConfig) val rbkUnionFactTableList = rbkConfigUtil.getRbkUnionFactTableList(rbkConfig) loadRbkMainData(dataFrameCache, false, rbkMainFactTable) for (rbkUnionTable <- rbkUnionFactTableList) { loadRbkUnionData(dataFrameCache, false, rbkUnionTable) } for (rbkFactTable <- rbkFactTableLists) { loadRbkData(dataFrameCache, false, rbkFactTable) } dataFrameCache } 优化建议： 1.减少不必要的日志记录。 2.尽可能使用 val 关键字。 3.使用更具有表现力和更易读的名称。 4.拆分复杂函数。

阅读全文

相关推荐

Android学习笔记（十八）：ListView和RatingBar.doc

Mato.DatePicker:一个适用于Xamarin.Forms的日期选择控件

val root: View = binding.root

mainVP.adapter=object :FragmentStateAdapter(this)应该写在哪儿

优化这段代码 @Override public boolean onQueryTextChange(String newText) { mNotes = mNoteDbOpenHelper.queryFromDbByTitle(newText); mMyAd apter.mMyAdapter.refreshData(); return true; } });

android toolbar 点击logo进行跳转，插入logo的代码为app:logo="@drawable/xiaomaogao"

https://github.com/leozhang1/QtInterpreter这个链接 numnode.h代码 展示

usage: ./kafka-server-start.sh [-daemon] server.properties [--override property=value]*

com.writingminds:FFmpegAndroid 引入安卓项目后，如何使用，请提供代码示例

std::string getIdentifier() const override;详细解析

@Override public boolean deleteRoublePersonnelPool(String id) { roublePersonnelPoolRepository.deleteById(id); return true; }帮我优化一下这段代码

android:imeOptions="actionSearch"监听

ava.lang.IllegalArgumentException: port out of range

string result = Entityutiis. tostring(response . getEntity (, defaultCharset："utf-8")报 ssl exception

MyBatis Plusorg.apache.ibatis.binding.BindingException: Invalid bound statement (not found)

implementation 'com.clj.fastble:FastBleLib:2.3.4'用法

fun createUser() { FCore.get().apply { val list = users val lastID = list.lastOrNull()?.id ?: -1 createUser(lastID + 1) } }转java代码

优化这段代码@Override public int update(int id) { String sql = "update student set name='?' where id =?"; int count =this.update(sql,id,name); return count;

android.mk中定义的LOCAL_CFLAGS := -DPLATFORM_VERSION_13 java代码中如何通过该clags来判断要不要注释代码

最新推荐

Android 出现：java.lang.NoClassDefFoundError...错误解决办法

三步搞定:Vue.js调用Android原生操作

C#进阶系列 WebApi身份认证解决方案推荐:Basic基础认证

java中 == 与 equal 的区别讲解

asp.net core mvc权限控制：在视图中控制操作权限

正整数数组验证库：确保值符合正整数规则

管理建模和仿真的文件

【损失函数与随机梯度下降】：探索学习率对损失函数的影响，实现高效模型训练

在ADS软件中，如何选择并优化低噪声放大器的直流工作点以实现最佳性能？

系统移植工具集：镜像、工具链及其他必备软件包

https://github.com/leozhang1/QtInterpreter这个链接 numnode.h代码展示