Ethos数据集：社交媒体仇恨语音检测的全面分析

需积分: 15 190 浏览量更新于2024-12-26 2 收藏 12.77MB ZIP 举报

资源摘要信息: "Ethos-Hate-Speech-Dataset是一个专门为社交媒体平台设计的仇恨语音检测数据集。该数据集由两个主要的CSV文件组成，提供了不同的数据标注方式，旨在帮助开发者和研究人员构建和训练仇恨语音检测模型。 Ethos_Dataset_Binary.csv是一个二分类数据集，用于判断评论中是否包含仇恨言论。它包含了998条评论，每条评论都有一个标签来指示是否存在仇恨语音。其中，565条评论被标记为不含仇恨言论（0），而433条评论则被标记为包含仇恨言论（1）。这个数据集的特点是它提供了一个基础的分类任务，有助于评估算法对于检测仇恨言论的一般能力。 Ethos_Dataset_Multi_Label.csv则是一个多标签数据集，专注于433条被标记为包含仇恨言论的评论。这些评论被赋予了8个不同的标签，涉及评论是否煽动暴力，是否针对特定个人或群体，以及评论中具体涉及的仇恨类别，例如性别、种族、国籍、残疾、宗教和性倾向。这个数据集更精细化的标签设计能够帮助模型更深入地理解和分类仇恨言论的种类和性质。数据集的标签体系设计显示了仇恨言论检测任务的复杂性。仇恨言论并不仅仅是简单的存在与否的问题，而是涉及到言论的具体内容和煽动性等多个维度。Ethos数据集通过提供多标签的方式，能够帮助开发者构建更加精细化和智能化的检测模型。该数据集被标记为仅用于检测目的，这可能意味着数据集的使用应遵循特定的伦理准则和法律要求，尤其是在处理仇恨言论等敏感内容时。开发者在使用这些数据时应确保他们的模型能够合法和负责任地使用。标签中的“JupyterNotebook”表明该数据集可能包含一些交互式的数据分析笔记本，这使得研究者和开发者可以更容易地进行数据探索、预处理和模型原型设计。Jupyter Notebook是一种开源的Web应用程序，允许创建和共享包含实时代码、方程式、可视化和解释性文本的文档。最后，提到的“Ethos-Hate-Speech-Dataset-master”是该资源的压缩包文件名称列表，这表明该数据集可能托管于一个版本控制系统中，比如Git。这为社区提供了协作的可能性，并能够追踪数据集的版本和任何可能的更新。综上所述，Ethos-Hate-Speech-Dataset提供了一个宝贵的资源，用于训练和评估用于社交媒体平台上仇恨语音检测的算法。通过这两个具有不同标签体系的数据集，开发者能够创建更为精确和多维度的仇恨语音识别模型。此外，该数据集的使用需要遵循适当的伦理和法律标准，确保研究成果能够负责任地应用于现实世界问题的解决中。"

收起资源包目录

Ethos数据集：社交媒体仇恨语音检测的全面分析（52个子文件）

__init__.cpython-36.pyc 181B

README.md 2KB

setZ-checkpoint.ipynb 169KB

Generalising [Binary Experiment] D1-checkpoint.ipynb 14KB

BalancedVsRandom-checkpoint.ipynb 11KB

preprocess.cpython-37.pyc 7KB

setA.py 10KB

setBResults.txt 370B

Ethos_Dataset_Multi_Label.csv 61KB

setAonExternal.py 10KB

en_dataset_with_stop_words.csv 840KB

Experimentation_Plan.md 1KB

setA+XHS.py 13KB

Generalising [Multi Label Experiment] D2.ipynb 24KB

__init__.py 1B

setC.ipynb 144KB

__init__.py 1B

LICENSE 34KB

setD-checkpoint.ipynb 17KB

__init__.py 1B

attention_layer.cpython-36.pyc 2KB

hate-speech-and-offensive-language.csv 2.43MB

setE.py 11KB

helping_functions.cpython-36.pyc 1KB

__init__.cpython-37.pyc 185B

attention_layer.cpython-37.pyc 2KB

__init__.cpython-36.pyc 163B

requirements.txt 182B

setC-checkpoint.ipynb 146KB

setAResults.txt 658B

setB.py 8KB

preSetE.ipynb 255KB

attention_layer.py 2KB

setCResults.txt 6KB

setEResults.txt 684B

Generalising [Multi Label Experiment] D2-checkpoint.ipynb 24KB

helping_functions.py 2KB

setA_External.txt 224B

__init__.py 1B

setDResults.txt 175B

ethos_multi_label.hdf5 20.97MB

preprocess.cpython-36.pyc 7KB

preprocess.py 7KB

setZ.ipynb 164KB

helping_functions.cpython-37.pyc 1KB

setD.ipynb 15KB

Ethos_Dataset_Binary.csv 121KB

Generalising [Binary Experiment] D1.ipynb 14KB

setZResults.txt 457B

preSetE-checkpoint.ipynb 257KB

reverse_confusion_matrix.py 2KB

BalancedVsRandom.ipynb 11KB

共 52 条

悦微评剧

粉丝: 20
资源: 4668

Ethos数据集：社交媒体仇恨语音检测的全面分析

korean-hate-speech:韩国HateSpeech数据集

仇恨言论假新闻检测（来自CIKM 2020）

hatespeech-classification:新闻中的仇恨言论分类

ethos-performance-test-v1：Ethos性能测试REPO

ethOS-monitor:用于监控GPU装备的node.js appservice

ethos-of-a-builder

ethos-design-system

Algorithm-ethos-auto-miner.zip

图形、AI“两开花” 走近ARM Mali-G78、Ethos-N78.pdf

最新资源