Twitter中埃及方言的性别认同研究：性别识别与文本分类解决方案

14 浏览量更新于2023-12-09 收藏 879KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志20（2019）109Twitter中埃及方言的性别认同Shereen Husseina，Shaheen，Mona Farouka，ElSayed Hemayeda，ba开罗大学工程学院，1 University Street，Giza 12613，Egyptb埃及吉萨十月六日城十月花园艾哈迈德·泽维尔科技城阿提奇莱因福奥文章历史记录：收到2018年2018年12月19日接受2019年1月24日在线提供保留字：文本分类埃及语阿拉伯语性别识别作者简介性别注释数据集A B S T R A C T尽管社交媒体在阿拉伯国家的所有年龄组中广泛传播，但针对作者分析（AP）的研究仍处于早期阶段。本文提供了一个从Twitter获得的埃及方言性别注释数据集（EDGAD）以及性别识别（GI）问题的文本分类解决方案。该数据集由每个性别的70，000条推文组成。在文本分类中，除了NFV（N-Gram Feature Vector）外，还提出了一种混合特征向量（Mixed Feature Vector，MFV）。将加权平均值应用于具有MFV的随机森林（RF）和具有NFV的逻辑回归（LR）。性别识别准确率为87.6%。©2019 Elsevier B.V.制作和托管代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍我们现在生活在社交媒体时代，它已成为我们日常生活中不可或缺的一部分。全球有超过20亿用户痴迷于社交媒体。虽然有些人使用社交媒体与其他人互动，但有些人使用虚假账户进行非法行为。这两种类型的用户都需要帐户所有者的GI对于真实账户，GI是一些数字市场广告所必需的，您可以在其中另一方面，对于假账号，要求识别账号主人的真实性别。有许多类型的犯罪可以用假账户犯下，如网络骚扰，欺凌，跟踪，战争和恐怖主义。暂停*通讯作者：44，街12重复，ElMaadi Sarayat，ElMaadi，开罗，埃及.电子邮件地址：shereenhussein@rocketmail.com（S.Hussein），mona_farou-k@eng.cu.edu.eg（M. Farouk），hemayed@ieee.org（E. Hemayed）。开罗大学计算机和信息系负责同行审查。滥用组织公布的网络骚扰统计数据表明，骚扰者的性别为40%男性，30%女性，而30%是未知的。2中东地区正面临着严重的网络犯罪问题，尤其是随着社交媒体的普及。因此，随着社交媒体账户中虚假身份的增加，作者的性别识别变得更加重要。阿拉伯语作家在社交媒体上越来越多。考虑到阿拉伯语的独特性和在地理标志方面所做的工作，特别是阿拉伯语，需要研究地理标志方法和模式。在阿拉伯语，特别是阿拉伯方言方面所做的工作仍处于起步阶段。缺乏资源和词汇，阿拉伯方言的平均准确率也需要提高。本工作建立了一个新的性别标注数据集EDGAD，可用于未来的研究。本文还提出了一个完整的GI模型，除了一个工程特征向量，集成了不同的EAD语言相关的功能与N-gram FV实现87.6%的准确性。本文件的组织如下：第2节简要介绍了在性别鉴定方面所做的相关工作，具体内容来自阿拉伯文文本，一般而言来自其他语文文本。第3节介绍了新收集的数据集EDGAD，并提供了相关的统计数据。第4节详细阐述了性别鉴定所用的方法和所实施的家庭暴力受害者调查。第5节介绍了在2017年PAN-AP31https://www.emarketer.com/Article/eMarketer-Updates-Worldwide-Social-Net-work-User-Figures/1016178。2http://www.haltabuse.org/resources/stats/2013Statistics.pdf网站。3https://pan.webis.de/clef17/pan17-web/author-profiling.html。https://doi.org/10.1016/j.eij.2018.12.0021110-8665/©2019制作和主办由Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com110S. Hussein et al./ Egyptian Informatics Journal 20（2019）1092. 文献综述本节总结了与作者性别识别相关的文献。在英语社交媒体上进行的研究与在阿拉伯语中进行的研究之间存在差距，即在情感分析、语言理解和性别认同方面。最近，一些论文开始讨论辩证阿拉伯语作为那些参与PAN在CLEF[1，2]。在前面提到的数据集中的作者分析包括四种阿拉伯方言，包括埃及方言。Tellez等人。[3]将GI问题应用于通用分类器MicroTC，该分类器不受领域和语言特殊性的影响[4]，他们在PAN-AP'17阿拉伯语数据集上实现了83.78%的准确率，在PAN-AP'17阿拉伯语数据集上实现了79.78%的准确率18.另一种方法是使用N元语法来表示字符、单词或POS标签，这种方法在GI问题的各种研究工作中得到了体现。Däniken等人。[5]使用单词单字，字符1-5字和表情符号单字与LR，并实现了77.42%的英语，74.64%的西班牙语和73.20%的阿拉伯语推文。然而，AlRifai等人。[6]使用字符1-7克，并添加标签，链接，提及和延长的单词比例到他们的FV中，并达到72.25%。Alsmearat等人。[7]使用了广泛的风格特征，实际上比他们在相同数据集上尝试的BOW方法获得了更好的结果。他们的数据集包括来自约旦和巴勒斯坦的MSA著名记者撰写的新闻。在[8，9]中，将嵌入词表示添加到FV中以区分作者的性别。表情符号特征被用作GI的区分特征[6，5，10]，并已被证明是有效的。对于分类器，SGD分类器在与其他分类器进行比较时，在阿拉伯语文本分类中取得了良好的结果[11]3. 数据集Twitter是帮助埃及人在1月25日革命[12]之间传播信息的因素之一。从那时起，大量的埃及账户在Twitter上创建，发布了大量推文本文的实验是基于从Twitter上获取的数据集该数据集最初包含约283，690条性别标记的推文。这些推文来自140个活跃人士和社交媒体影响者的公共账户，每个账户的粉丝超过2000人所选择的账户包含关于不同主题类别的推文;避免仅关于特定主题（例如政治和体育）的推文的账户。此外，选定的帐户是为埃及方言的男女发言者根据账户所有者的性别，这些推文被标注为男性和性别由账户所有者的姓名和头像决定。由于大多数公众账号都是为著名的社交媒体影响者选择的，因此这是对账号所有者性别其余的账户通过从每个作者中抽取20条推文并手动注释来进一步验证。该数据集的收集基于截至2018年5月的推文。非阿拉伯语的推文和转推文被过滤掉。经过预处理后，推文的总数减少了，因为有些推文少于五个字，有些只有链接。此外，当试图使EDGAD平衡，同时允许所有帐户具有相同的代表性（即具有相同数量的接受推文）时，每个帐户使用1000条推文，因为这是预处理后某些帐户剩余的最小数量。验收标准是预处理后至少有五个单词总两种性别的推文中的单词在EDGAD上计算的统计数据如表1所示。该数据集具有几乎相同的鸣叫长度分布为两种性别，如图所示。1.一、该数据集可用于埃及阿拉伯语方言4的进一步研究。4. 方法4.1. 方法概述作者的GI问题是一个文本分类问题，有两个类别，男性和女性。文本分类需要一个标记的（男性/女性）数据集，代表两种性别，其中可以提取重要的特征，以帮助识别作者的性别。我们提出的方法作为初始步骤，数据集按帐户划分为训练集和测试集，这确保了训练集和测试集中没有来自同一帐户的推文。第一阶段是使用训练集训练分类器。作为训练的第一步，完成特征选择并形成MFV和NFV。然后使用这些特征向量作为输入来训练分类器，以达到所需的分类模型。第二阶段涉及测试，它最初在测试集上工作，以获得将输入到模型中以产生输出性别的特征。多个分类器，如RF，多项式朴素贝叶斯（MNB），伯努利朴素贝叶斯（BNB），LR和随机梯度下降（SGD）进行了实验。下一小节提供了其中一些步骤的更多细节4.2. 数据分割数据由男性和女性两组组成，每组有70个账户。在不平衡数据集的情况下，每个帐户包含可变数量的推文，在平衡数据集的情况下，每个帐户包含1000条推文。交叉验证应用7倍。每个折叠包含每个性别的10个帐户。因此，训练集将始终包含120个帐户，而测试集包含20个帐户。这将确保来自某个帐户的推文不会在同一个文件夹中的训练和测试中都可用。4.3. 特征选择特征选择是从埃及阿拉伯语文本中选择具有明显性别区分效果的特征的过程第一个FV是NFV，我们对1克、1-2克和1-3克进行了另一个FV，MFV，也被创建，它包含一组有效的特征。第一组特征是在GI中被证明是歧视的某些表情符号的计数第二个特征是文本中可用的女性后缀的计数。第三个特征被分类为12个主题/词典，即脏话情感政治. 等而且，它们是根据在其他主题/词汇中吸引它们的有效性最后一组是由嵌入层表示的输入。4.3.1. 基于JavaScript的功能这是159个emoji的数量。如果一个性别的表情符号出现的差异比另一个高20%，则选择这些表情符号，如图所示。3.第三章。每个性别的推文数量是所有推文的总和，说明指定的性别。该数据集有27，499个唯一的4https://github.com/shery91/Egyptian-Dialect-Gender-Annotated-Dataset网站。S. Hussein等人/Egyptian Informatics Journal 20（2019）109111表1EDGAD（Unbalanced and Balanced）统计。度量不平衡平衡女性男性女性男性多条推特127,083156,60770,00070,000预处理后的推文数量101,733124,27370,00070,000平均Tweet长度11111414按性别分列的词汇数据集词汇13,82127,49916,9839,68718,09410,233Fig. 1. 为EDGAD计算了两种性别中不同推文长度的发生概率。图二、提出的作者性别识别分类模型的框图女性用F表示，男性用M表示，输出性别为G2fF;Mg。给定推文 T， RF 和LR 分类器的后验女性和男性概率分别表示为PR F 1/2FjT];PR F1/ 2MjT];PLR1/2FjT]和PLR1/2MjT]。4.3.2. 女性后缀特征这是一个数字，表示输入文本是否包含以“”“，如果我们找到”“，意思是“我”，在推文前面。此功能还检查是否出现了一些女性相关的词，例如4.3.3. 基于功能的特征有12个不同主题的功能词（脏话，情感，足球，调情，政治，爱情和婚姻，珠宝，技术和感情）。每个特征都表明每个类别中出现的单词数量。我们收集了代表每个主题的埃及阿拉伯语单词列表。例如，脏话列表是24种类似脏话的列表。几乎所有的骂人的话在MSA和埃及阿拉伯语的列表是由他们不同的发音，后缀和前缀。我们在最初由Rabie和Sturm于13年发表的情感列表中添加了更多的单词。55https://github.com/shery91/Egyptian-Dialect-Gender-Annotated-Dataset/blob/master/wordLists.zip。112S. Hussein et al./ Egyptian Informatics Journal 20（2019）109ðÞ.¼·ðÞ图三. 具有性别歧视的表情符号子集。4.3.4. 嵌入层特征这是输入文本的表示形式。收集了更多的推文; 180，000条推文来自转发推文，其他推文来自2018年1月的其他100个帐户，这些帐户不会在数据集中使用。这些推文被用来输入基因模拟. 6我们使用skip-gram模型来构建word 2 vec模型。它被参数化为迭代（5）、最小字数（5）、向量维度（350）、工人（4）和窗口（8）。该嵌入层用于获得表示输入文本中的每个单词的向量，然后计算元素平均值以获得表示整个输入文本的固定长度向量，即给定4个单词的句子，每个单词被表示为350个元素的向量，然后计算所有单词上的每个元素的平均值，并将最终平均的350个元素添加到FV。4.4. 分类两个特征向量MFV和NFV将分别输入到RF和LR分类器。RF分类器建立多个决策树模型，并输出作为所建立的所有决策树的模型的类。多个决策树的使用纠正了在单个决策树中可能发生的对训练数据的过度拟合。使用RF和LR分类器的决定是基于几个实验，这些实验显示了它们比其他分类器更高的性能，这将在实验部分详细说明。根据这个，选择是将它们结合起来。该组合是使用集合加权平均进行的包围加权平均是创建多个模型并将其组合以产生所需输出的过程，而不是只创建一个模型。通常情况下，模型的集合比任何单个模型都表现得更好，因为模型的各种误差平均了[15]。它用于每个分类器都被赋予权重的情况。令w j，其中j 2 f 1; 2;. ; Ng是6Gensim是一个用于创建语言模型的软件包，其中每个单词都由一个向量表示：https://radimrehurek.com/gensim/。与第j个分类器相关联的权重，N是所考虑的分类器的总数。此外，将Pj/2FjT]和Pj/2MjT]分别表示为由第j个分类器计算的测试推文T所有分类器的总体加权平均结果通过将分类器的权重与每个性别的分类器的后验概率相乘而获得P½FjT]<$w1×P1½FjT] <$w2×P2½FjT] <$。. . [N×PN½FjT];P½MjT]<$w1×P1½MjT] <$w2×P2½MjT] <$。 . . N×PN½MjT]：102mm最后的性别预测G1随后被获得为：GF;如果P½FjT]>P½MjT]3M;否则在集成加权过程中，选择LR和RF分别与权重w1和w2组合在一起，使得0w1;w2 1，通过实验找到每个分类器的准确权重。<<他们被选中是因为他们有最高的准确性-除了两个分类器之间正确分类的推文的变化之外，结果中的种族第5节对此进行了详细解释。5. 实验和结果我们在EDGAD和PAN-AP'17上进行了几次实验，以获得最佳的推文性别识别结果。实验包括数据预处理、特征选择、不同特征组合的分类结果比较、不同分类器的使用以及参数的调整。5.1. 数据集预处理在预处理步骤中，对tweet应用了几个转换。下面列出的是在S. Hussein等人/Egyptian Informatics Journal 20（2019）109113表2通过具有1-g和1-3 g FV的不同分类器实现的EDGAD的GI准确率百分比。实验是在不同数量的tweets上进行的，这些tweets与CV和TFIDF连接在一起。分类器单个20条推文40条推文60条推文80条推文CVTFIDFCVTFIDF CVTFIDFCVTFIDFCVTFIDF不平衡EDGAD基线5554.854.754.854.6MNB（1G）58.759.372.458.6 75.158.176.256.776.556.5BNB（1G）58.558.571.557 72.355.772.355.672.255.5LR（1G）59.459.478.976.5 82.779.284.479.486.178.9RF（1G）56.15661.161.5 62.862.162.961.064.361.9新加坡元（1G）56.65675.474.4 78.97782.579.284.182.5MNB（1-3G）59.159.167.956.4 69.556.268.155.767.755.6BNB（1-3G）57.357.355.555.5 55.755.755.655.655.555.5LR（1-3G）59.359.077.871.8 82.074.983.072.684.871.7RF（1-3G）55.755.755.555.6 56.456.755.656.256.756.6新加坡元（1-3G）57.156.774.974.2 79.977.380.37981.781.2平衡EDGAD基线50MNB（1G）57.958.373.572 76.572.277.172.577.071.5BNB（1G）57.757.874.359.3 77.152.977.851.478.650.9LR（1G）58.258.478.575.4 82.177.583.278.285.077.9RF（1G）52.852.261.159.4 63.262.063.661.961.262.4新加坡元（1G）55.855.575.173.9 78.878.079.779.381.580.2MNB（1-3G）57.958.373.570.5 76.071.477.171.176.670.1BNB（1-3G）57.057.572.450.9 75.450.975.550.972.751LR（1-3G）58.157.777.270.8 80.771.88271.083.670.7RF（1-3G）50.150.453.651.4 53.552.954.252.154.455.7新加坡元（1-3G）56.356.175.073.8 77.676.578.780.878.679.5表3通过具有1-g和1-3 g FV的不同分类器实现的PAN-AP'17的GI准确率百分比。实验是在不同数量的tweets上进行的，这些tweets与CV和TFIDF连接在一起。分类器单个20条推文40条推文60条推文80条推文CVTFIDFCVTFIDFCVTFIDFCVTFIDFCVTFIDFPAN-AP基准MNB（1G）57.557.464.561.464.45062.465.159.863.060.1BNB（1G）57.3157.362.662.963.761.663.552.661.952.7LR（1G）56.457.470.168.775.468.474.868.973.965.1RF（1G）52.351.556.156.554.754.955.754.354.152.7新加坡元（1G）55.254.565.965.969.273.269.576.968.672.8MNB（1-3G）57.257.464.361.363.961.863.559.561.759.6BNB（1-3G）56.256.157.352.960.349.754.150.561.647.2LR（1-3G）56.957.171.664.077.264.176.162.376.462.8RF（1-3G）50.250.353.952.355.451.850.550.052.551.1新加坡元（1-3G）55.455.166.667.469.973.372.475.472.175.93数据集和它们是否实际应用（使用）或发现无用（忽略）的说明。（已使用）-(Used在某些特征中）也就是说，我们创建了一个列表，其中包含大多数最初有两个重复的连续字符的单词，以便仅规范化具有额外重复的单词（已使用）（已使用）（用于某些功能）-阿拉伯语文本规范化的一个例子（忽略）-删除（MSA）的停止词，创建一个新的埃及方言停止词列表，其中包含所有可能的拼写错误。据观察，停止字的使用可以是一个辅助识别功能的性别。（用于某些功能）前缀可以是定冠词““，在英语中表示”the“，”表示“and”，有时错误地附加在单词的开头，“的一声“的。后缀是阿拉伯语中附加在单词末尾的音节，例如有些后缀表明说话者是单数或复数，男性或女性，这就是为什么删除它们会降低准确性的原因。5.2. 文本分类器在性别识别的文本分类过程中，需要一个基线分类器来评估文本分类的性能。●●●●●●●114S. Hussein et al./ Egyptian Informatics Journal 20（2019）109···见图4。通过使用所有特征和不同数量的连接推文（从单个到80个推文）的不同分类器在EDGAD上实现的GI准确率百分比。表4RF分类器分别使用EDGAD上40条串联推文的每个特征实现的GI准确率百分比。特征GI精度%基于字符的特性62.9代词54.4第五十五条吉70情绪65.1誓言68功能词61.2嵌入层66对所提出的方法的要求。这里使用的基线是大多数类别概率，在不平衡数据集（单个tweet）的情况下，EDGAD中男性类别的概率为55%，在平衡数据集的情况下为50%。我们的方法的第一步是尝试不同的分类器，以获得最高的分类精度。在表2和表3中，我们使用Sklearn包7研究了MNB、BNB、RF、LR和SGD分类器，对于EDGAD中的平衡和不平衡情况，将不同数量的推文连接在一起，最高分数用粗体强调。在这些实验中使用的输入向量是使用计数向量化器（CV）和词频-逆文档频率（TFIDF）8的1 g和1-MNB与默认参数一起使用。然而，BNB参数化为0.1二值化。RF分类器参数化为60最小样品叶子，50最大深度和10个N-估计量参数。LR分类器与默认参数一起使用。SGD参数被配置为获得最佳结果如下：感知器损失，l2惩罚，1 e-5 alpha，inv-scaling学习率，0.1 eta 0，10次最大迭代和42个随机状态。下一步是为建议的特征向量MFV找到最佳分类器。下一小节介绍了与MFV有关的所有实验的细节。7http://scikit-learn.org/stable/。8这5.3. 特征向量有几个方面影响使用MFV的分类结果。为了获得最佳结果，第一步是找到具有MFV中完整特征列表的最佳准确度的分类器。最初的MFV包括第4.3节中说明的特征和一些后来被消除的附加特征，因为它们被实验证明对分类器有负面影响，即基于字符的特征，代词计数。. 等等.第二步是找到代表最佳组合的特征子集，该组合可以实现第一步结果的最大增强。每一步都将详细解释其所有进行的实验。步骤1：分类器：使用NFV获得最佳结果的分类器不一定要使用MFV表现良好。在图4中，初始MFV已经用诸如RF、LR、BNB和SGD的不同分类器进行了实验。当与MFV一起使用时，RF实现了最佳的准确率，用于可变输入长度（串联的推文数量）。第二步：功能组合：在特征选择过程中，我们使用前一步中的最佳分类器分别研究了每个特征的分类结果，平均连接推文数（40条推文），如表4所示。为了消除误导分类器的特征，使用不同的特征组合进行了实验。例如，我们有一个基于字符的特征集，即字符计数，阿拉伯字符计数，数字计数和代词计数的另一个特征。虽然这些特征已被证明对性别识别有效[7，14]，但当我们从特征向量中消除它们时，结果得到了改善，如图5所示，其中我们表示两组特征组合。对家庭、工作、饮食、医疗等20多个主题进行了功能词特征的提取，等等，但是要添加到特征向量的所选主题是男性和女性之间出现百分比的差异大于15%的主题，以确保可用主题是最具区分性的。例如，在所有脏话类别中，男性的推文中的脏话明显多于女性。S. Hussein等人/Egyptian Informatics Journal 20（2019）109115图五. 不同分类器在EDGAD上的GI准确率：i.具有不同特征集的RF分类器集合1表示表情符号、女性后缀、功能词和嵌入层。集合2包括集合1中的特征以及基于字符的特征、代词和定冠词。表5PAN-AP '17中埃及方言部分的GI准确率。集合1是一组特征，它由表情符号、女性后缀、功能词和嵌入层组成分类器单个推20推40推60推80推1G1-3G1G1-3G1G1-3G1G1-3G1G1-3GLR56.456.970.271.274.877.075.276.473.976.3RF（第1组）+LR58.158.171.572.676.27876.177.275.777.45.4. EDGAD结果对在EDGAD上获得最高分类精度的分类器分别采用NFV和MFV（即LR和RF）进行实验，结果表明两种分类器结合集成加权能获得更好的分类效果。如图5所示，LR使用具有Ig的NFV，并且RF用两组不同的特征进行实验，对于80条级联推文的情况，RF与组1和LR与NFV之间的组合实现了1.3%的准确度增加，超过了LR实现的最这背后的原因是，在使用MFV和NFV分析测试用例后，使用N-gram错误分类的一些推文被MFV正确分类。因此，所提出的模型使用集成加权是一种手段，结合正确的输出，从两个分类器。为了调整两个分类器的权重，我们在[0.05，0.95]的范围内以0.05步长工作。对于具有MFV的RF分类器和具有NFV的LR分类器，在0.6权重下实现最佳结果。5.5. PAN-AP具有NFV的LR和具有MFV的RF之间的加权系综平均值进一步用PAN-AP'17进行实验PAN-AP'17中的中提出的大多数解决方案[1]将同一作者的100条推文组合在一起作为一个文档。我们只在他们的埃及方言推文上测试了我们的方法，因为MFV完全取决于埃及阿拉伯语单词。几个数字的tweets串联尝试了不同的分类器实验证明，LR实现了最佳准确性，如图4所示，并且我们的组合方法超过了它，如表5所示。如之前在EDGAD上计算的，集成加权中的RF分类器的权重为0.6。6. 结论在本文中，创建了一个由作者性别标记的埃及阿拉伯语推文的平衡数据集。若干统计数据的数据集，以便在未来的研究中可重复使用。最后利用所得到的数据集提出了一种性别识别问题的解决方案.一种新的工程混合特征向量，以及N-gram特征向量被用于两个分类器，RF和LR分别与集成加权。所提出的特征向量涉及表情符号、女性后缀和一组精心挑选的功能词，即脏话、情感、政治、…此外，在特征向量中添加推文的平均嵌入表示。一些特征需要额外的预处理，例如去除额外的重复字符。因此，创建了一个MSA和埃及方言正确单词的列表，其中最多有两个重复字符。在情感功能中，额外的单词及其同义词和常见的拼写错误被附加到现有的列表中。此外，还列出了埃及方言中使用的脏话、政治、爱情和婚姻、足球、调情和技术词汇。采用加权集成的RF分类器与MFV和LR分类器与NFV进行的实验结果在EDGAD上的准确率为87.6%。此外，所提出的分类模型在PAN-AP'17数据集上实现了77.4%的准确率116S. Hussein et al./ Egyptian Informatics Journal 20（2019）109引用[1] RangelF，Rosso P，Potthast M，Stein B. PAN2017第五届作者分析任务概述：Twitter中的性别和语言多样性识别。在：笔记本电脑为PAN在CLEF。[2] RangelF，Rosso P，Gomez MMy，Potthast M，Stein B. PAN2018第六届作者分析任务概述：Twitter中的多模态性别识别。在：笔记本电脑为PAN在CLEF。[3] [10]张晓刚，王晓刚. 通过使用MicroTC和视觉词袋的多模态推文分析进行性别识别。在：笔记本电脑为PAN在CLEF。[4] [10]张晓刚，王晓刚，王晓刚.基于超参数优化的文本自动分类框架。基于知识的系统2018;149：110-23。可通过以下网址获得：http://arxiv.org/abs/1704.01975。[5] [10]作者：Daniken P，Grubenmann R，Cieliebak M.在PAN 2018上对作者进行分析的单词单字权重。在：笔记本电脑为PAN在CLEF。[6] Al-Rifai K，Rebdawi G，Ghneim N.阿拉伯语tweeps性别和方言预测。在：笔记本电脑为PAN在CLEF。[7] Alsmearat K，Al-Ayyoub M，Al-Shalabi R，Kanaan G.作者性别识别来自阿拉伯文本。 J Inf Security Appl 2017;35 （ 8 ）： 85-95. 可通过以下网址获得：https://linkinghub.elsevier.com/retrieve/pii/52214212616301715。[8] 放大图片作者：J.使用词嵌入和逻辑回归的Twitter作者分析。在：笔记本电脑为PAN在CLEF。[9] Takahashi T，Tahara T，Nagatani K，Miura Y，Taniguchi T，Ohkuma T.文本和图像协同特征交叉技术用于性别识别。在：笔记本电脑为PAN在CLEF。[10] 陈志，陆新，沈S，艾文，刘新，梅青.透过性别视角：大规模android用户emoji使用的实证研究。 Corr.vol.abs/1705.05546;2017 。可用网址：http://arxiv.org/abs/1705.05546[11] 放大图片作者： Lee M. 将阿拉伯语维基百科映射到命名实体分类中。 InProceedings of COLING，Mumbai，December 2012. pp. 43比52[12] 杨志华，李志华，李志华，李志华.阿拉伯之春革命被推文：突尼斯和埃及革命期间的信息流。Int J Commun 2011;5：2011.[13] Rabie O，Sturm C.感受热度：阿拉伯语社交媒体内容中的情感检测。在：数据挖掘，互联网计算和大数据国际会议，吉隆坡，马来西亚.[14] Cheng N，Chen X，Chandramouli R，Subbalakshmi KP.电子邮件中的性别鉴定。在：IEEE计算智能和数据挖掘研讨会，纳什维尔，田纳西州，美国。[15] GretelLizDelaPe~naSarrac'en，推文主题分类方法的集合，第二次伊比利亚语言人类语言技术评估研讨会（ IberEval 2017 ）， 2017 年 ;1881 年。网址 ceur-ws.org/Vol-1881/COSET_paper_1.pdf

下载后可阅读完整内容，剩余1页未读，立即下载