探索Essays数据集与MBTI数据集自动人格检测技术研究

版权申诉

5星 · 超过95%的资源 88 浏览量更新于2024-10-25 3 收藏 46.61MB ZIP 举报

资源摘要信息: "该实验涉及使用TensorFlow和PyTorch框架编写代码，目的是对Essays数据集进行研究，该数据集包含了使用Big-五人格理论标记的个人特征。Big-五人格理论，又称为五因素模型，是人格心理学中用来描述人格结构的一种模型，该模型认为人类的人格可以通过五个主要维度来描述，这五个维度分别是：开放性(Openness)、责任心(Conscientiousness)、外向性(Extraversion)、宜人性(Agreeableness)和神经质性(Neuroticism)，通常简称为OCEAN。实验的核心是对Kaggle上的MBTI数据集使用大型语言模型进行自动人格检测。MBTI，即迈尔斯-布里格斯类型指标(Myers-Briggs Type Indicator)，是一种常用来评估个体偏好的心理测试工具，它基于瑞士心理学家卡尔·荣格(Carl Jung)的理论。MBTI将人格类型分为16种，每种类型对应一组特定的心理特征。实验的流程包括首先运行语言模型提取器（LM Extractor）代码，这一步骤涉及到使用预训练的语言模型来分析数据集中的文本内容。这一步骤的目的是提取文本中的人格特征信息，并将这些信息通过语言模型的多个层次进行编码，最终得到一个嵌入表示（embedding），这些嵌入随后会被存储在pickle文件中。Pickle文件是Python特有的一个序列化模块，可以将任何纯Python对象序列化到文件中，并且可以再将其读取回来。创建新的“新数据集”不仅加快了后续分析的处理速度，而且便于研究人员进行超参数搜索（hyperparameter search）。超参数搜索是指在机器学习模型训练之前，对模型的超参数进行优化的过程。超参数是控制学习过程的参数，比如学习率、网络层数、批次大小（batch size）等，它们不是通过训练过程学习得到的。最后，文件名“T、personality-prediction-master”可能指的是该项目的主目录或主分支，其中包含了用于实现上述功能的全部代码和资源文件。" 知识点总结： 1. TensorFlow和PyTorch是两个主流的开源机器学习库，广泛用于深度学习研究和生产实践。 2. Essays数据集是研究个人特征和人格分析的资源，Big-五人格理论是一种广泛接受的人格分类方法。 3. Kaggle是一个知名的机器学习竞赛平台，提供了各种数据集供数据科学家和机器学习工程师使用。 4. MBTI数据集常用于人格类型和倾向的研究，有助于理解人的行为和沟通模式。 5. 语言模型是一种基于统计概率的计算模型，能够对自然语言进行处理，学习语言的模式和结构。 6. 预训练语言模型可以通过迁移学习为特定任务提供强大的特征提取能力。 7. pickle是Python的一个内置模块，用于序列化和反序列化Python对象结构。 8. 超参数搜索是机器学习模型优化中的一个关键步骤，旨在找到最佳的超参数组合，以提高模型的性能。 9. 文件压缩和解压缩是数据管理的基本技能，使用压缩包可以有效组织和传输数据集。

资源目录

收起资源包目录

探索Essays数据集与MBTI数据集自动人格检测技术研究（49个子文件）

hourglass_features_extractor.py 1KB

NRC_vad_features_extractor.py 1KB

essays_liwc.csv 0B

author_id_order.csv 48KB

NRC-Emotion-Lexicon.xlsx 596KB

essays_affectivespace.csv 4.81MB

author_100recent.py 2KB

kaggle_mairesse_labeled.arff 7.39MB

SVM_psycho_features.py 4KB

mairesse_processor.py 729B

README.md 2KB

essays_mairesse_labeled.csv 2.35MB

NRC-VAD-Lexicon.txt 519KB

essays_hourglass.csv 275KB

img.png 21KB

LR.py 3KB

MLP_LM.py 5KB

kaggle_nrc.csv 1.63MB

NRC_features_extractor.py 1KB

data_utils.py 2KB

essays_readability.csv 1.5MB

mairesse_attributes.csv 1KB

visualization.py 7KB

affectivespace.csv 25.9MB

gen_utils.py 4KB

kaggle_nrc_vad.csv 524KB

SVM_LM.py 5KB

essays_mairesse.csv 1.88MB

essays_senticnet.csv 275KB

kaggle_readability.csv 5.11MB

NRC-VAD-Lexicon.txt 519KB

MLP_combined_features.py 6KB

essays_nrc.csv 479KB

.gitignore 68B

essays_concept_count_final.p 16.09MB

kaggle.csv 59.99MB

readability_features_extractor.py 1KB

linguistic_features_utils.py 4KB

NRC-Emotion-Lexicon.xlsx 596KB

essays_nrc_vad.csv 173KB

dataset_processors.py 6KB

essays.csv 17KB

SVM_combined_features.py 6KB

LM_extractor.py 5KB

LR_tf.py 5KB

MLP_psycho_features.py 4KB

senticnet5_df.p 7.66MB

affectivespace_features_extractor.py 1003B

requirements.txt 132B

共 49 条

处处清欢

粉丝: 2105
资源: 2876

探索Essays数据集与MBTI数据集自动人格检测技术研究

适用于Tensorflow和Pytorch的深度学习数据集

TensorFlow与PyTorch实战：训练MNIST网络与预测脚本

中文命名实体识别实战：使用tensorflow和pytorch

win10+3060+tensorflow+pytorch+安装教程.doc

完美解决 Pycharm 中 tensorflow + pytorch 自动提示

Ubuntu20.04+3090ti+python3.6+tensorflow+pytorch下conda环境配置文件.yml

Ubuntu20.04+3090ti+python3.7+tensorflow+pytorch下conda环境配置文件.yml

tacotronv2_wavernn_chinese:tacotronV2 + wavernn 实现中文语音合成(Tensorflow + pytorch)

应该用tensorflow还是pytorch编写和训练SRCNN模型？ 应该用tensorflow还是pytorch编写和训练ESRGAN模型？ 在pycharm的一个project中，同时使用tensorflow和pytorch的弊端是什么？

GTX950M+Cuda10.1+TensorFlow2.1.0+Pytorch1.7.1-附件资源

最新资源

应该用tensorflow还是pytorch编写和训练SRCNN模型？应该用tensorflow还是pytorch编写和训练ESRGAN模型？在pycharm的一个project中，同时使用tensorflow和pytorch的弊端是什么？