pramana-nlp:探索梵语文本语料库与LDA主题建模

需积分: 8 3 浏览量更新于2024-11-15 收藏 129.49MB ZIP 举报

资源摘要信息:"pramana-nlp项目是一个专注于梵语哲学文本的自然语言处理（NLP）语料库，它不仅包含原始文本数据，还包括经过预处理的数据、元数据和工具，以及用于主题建模实验的LDA（隐含狄利克雷分布）算法的相关数据和结果。在NLP领域，语料库是研究和开发的基础资源。梵语作为一种古老的语言，其自然语言处理的研究对于语言学、计算机科学和人工智能的交叉学科研究具有重要意义。Pramāṇa是梵语哲学中的一个重要概念，指的是知识的来源或认知的手段。该项目致力于提供一个用于NLP研究的梵语文本集，这不仅有助于推进对梵语本身的深入理解，而且能够推动相关技术在处理此类古文文献时的进步。项目的描述中提到了两个版本，当前的最新版本正在进行开发（版本2），它包括重新清理和附加文本数据、适配Python 3以及进行新的相似度计算实验。与此同时，版本1的存档可以在Zenodo上找到。语料库中的数据源包括了多种格式的下载源文件，例如.htm、.xml以及.doc格式的文件。这些文件来源于GRETIL、SARIT等私人收藏，并构成了语料库的原始数据集。预处理后的数据包括元数据、转换脚本、验证脚本、清理过的文本以及分割脚本。这些数据的准备是为了满足主题建模和其他NLP分析的需求。项目的另一部分是文本数据的分割，包括词分割和文档级别的分割。文本分割是NLP处理过程中的一个重要步骤，它有助于将连续的文本转化为可以进行进一步分析的结构化数据。对于梵语文本来说，这一过程尤为重要，因为它可能涉及到识别并处理梵语特有的文本结构和符号。 LDA主题建模是文档集合的统计模型，它能够将文档中的词汇分配到不同的主题中。每个文档是由若干个主题组合而成，每个主题又是由一组词汇共同定义。这种建模可以揭示文档集合中的潜在主题结构。项目中的LDA主题建模部分包括了输入数据、分析脚本以及主题建模的结果。通过LDA分析，研究者可以发现数据集中的隐含主题，并进一步分析梵语文本的内容和结构。项目中所涉及的技术和工具包括： 1. HTML：超文本标记语言，用于描述网页的结构和内容。 2. 元数据：关于数据的数据，提供关于数据集的结构、内容和质量等信息。 3. XLS：Excel电子表格文件格式，用于存储数据和元数据。 4. Python：一种广泛使用的高级编程语言，特别适合于数据分析和处理任务。 5. LDA：隐含狄利克雷分布，是一种统计模型，用于从大量文档中发现主题。项目的压缩包子文件名列表中只有一个名为'pramana-nlp-master'的文件，这表明该项目的所有相关文件可能被组织在一个主版本控制仓库中，用户可以在这里找到所有相关的资源和代码。综上所述，pramana-nlp项目为研究者提供了一个宝贵的资源，不仅可以用于梵语文本的NLP研究，还为理解复杂语言处理技术提供了实践案例。随着项目的发展，它将进一步促进语言学和计算机科学在古文本分析和保护方面的研究。"

收起资源包目录

pramana-nlp:梵语哲学文本语料库上的数据、元数据、工具和 LDA 实验（529个子文件）

resandhify.py 957B

sucaritamisra_slokavarttikakasika.txt 1.26MB

annambhaṭṭa_tarkasaṃgraha.htm 22KB

ldavis.js 52KB

karṇakagomin_pramāṇavārttikavṛttiṭīkā.txt 1.23MB

vācaspatimiśra_nyāyavārttikatātparyaṭīkā.txt 1.32MB

udayana_nyāyakusumāñjali.htm 279KB

śaṅkarasvāmin_nyāyapraveśakasūtra.doc 67KB

pramāṇa_corpus.tsv 24.42MB

kaṇāda_vaiśeṣikasūtra.htm 29KB

doc_similarity_table_NBhū_104,6^1_50.tsv 1KB

gaṅgeśa_tattvacintāmaṇi.htm 259KB

sucaritamiśra_ślokavārttikakāśikā.htm 1.46MB

README.md 3KB

īśvarakṛṣṇa_sāṃkhyakārikā.htm 36KB

bhasarvajna_nyayabhusana.txt 1.23MB

README.md 3KB

resize.py 8KB

prajñākaragupta_pramāṇavārttikālaṅkāra.txt 1.84MB

phi.rds 735KB

d3.v3.js 302KB

lda.rds 5.73MB

keśavamiśra_sāṃkhyatattvapradīpikā.htm 17KB

CEX_NBhū_5,11.rds 6.84MB

kumārilabhaṭṭa_slokavārttika.doc 1.07MB

jayantabhatta_nyayamanjari.txt 1.7MB

transform.py 3KB

māṭhara_sāṃkhyakārikāvṛtti.htm 163KB

lda.css 291B

text_abbreviations.json 2KB

śaṅkara_jayamaṅgalā.htm 126KB

corpus_content_only.txt 23.81MB

vācaspatimiśra_nyāyavārttikatātparyaṭīkā.txt 1.24MB

madhva_anuvyākhyāna.htm 270KB

vasubandhu_viṃśatikāvṛtti.htm 24KB

explore_topic_top_words.py 3KB

explore_topic_domination_by_text.py 1KB

phi_unlabeled.ods 6.73MB

phi.csv 44.76MB

jayatīrtha_nyāyasudhā.txt 2.77MB

theta_unlabeled.ods 11.85MB

abhinavagupta_īśvarapratyabhijñāvivṛtivimarśinī.htm 408KB

yaas3.mp3 66KB

ratnākaraśānti_antarvyāptisamarthana.htm 20KB

sucaritamiśra_ślokavārttikakāśikā.txt 1.29MB

udayana_nyāyavārttikatātparyapariśuddhi.htm 681KB

bhāsarvajña_nyāyabhūṣaṇa.txt 1.25MB

.gitignore 562B

jñānaśrīmitra_nibandhāvali.txt 1.11MB

jaimini_mīmāṃsāsūtra.htm 202KB

dignāga_pramāṇasamuccayavṛtti.pdf 510KB

results_README.md 1KB

topics_by_text_1000_50_graphical_summary.pdf 30KB

lda.json 638KB

topic_labels.ods 29KB

jayatīrtha_nyāyasudhā.txt 2.7MB

siddhasena_nyāyāvatāra.htm 233KB

karṇakagomin_pramāṇavārttikavṛttiṭīkā.txt 1.27MB

validate.py 9KB

phi_labeled.ods 6.73MB

kṛṣṇamitra_tattvamīmāṃsā.htm 27KB

index.html 405B

.gitkeep 0B

theta.csv 62.13MB

dharmakīrti_vādanyāya.htm 103KB

theta.rds 11.42MB

phi.csv 44.76MB

vācaspatimiśra_nyāyavārttikatātparyaṭīkā.htm 1.4MB

.gitkeep 0B

venkaṭanātha_nyāyapariśuddhi.htm 228KB

sāṃkhya_tattvasamāsasarvopakāriṇī.htm 20KB

vādivāgīśvara_mānamanohara.htm 102KB

sthiramati_triṃśikābhāṣya.htm 82KB

candrakīrti_prasannapadā.htm 634KB

vijñānabhikṣu_sāṃkhyasāra.htm 73KB

format_doc_similarity_table.py 2KB

.gitkeep 0B

NBhū_5,11-MF15Stopword.rds 103B

sāṃkhya_tattvasamāsa.htm 10KB

prajnakaragupta_pramanavartikalamkara.txt 1.9MB

durvekamiśra_hetubinduṭīkāloka.htm 554KB

ṣimānanda_sāṃkhyatattvavivecana.htm 77KB

.Rapp.history 98B

txt2cex4topan.py 11KB

.gitkeep 0B

sāṃkhya_tattvasamāsasūtravṛtti.htm 40KB

.gitkeep 0B

dharmakīrti_pramāṇavārttikasvavṛtti.htm 361KB

theta_labeled.ods 11.85MB

jayatīrtha_nyāyasudhā.htm 3.01MB

section_labels.json 999KB

jayantabhaṭṭa_nyāyamañjarī.txt 1.67MB

doc_original_fulltext.json 13.34MB

dharmakīrti_pramāṇavārttika.htm 159KB

gauḍapāda_sāṃkhyakārikābhāṣya.htm 104KB

kavirājagiri_sāṃkhyatattvapradīpa.htm 43KB

arcaṭa_hetubinduṭīkā.htm 536KB

jñānaśrīmitra_nibandhāvali.txt 1.18MB

mādhava_sāṃkhyasūtravivaraṇa.htm 23KB

共 529 条

LeonardoLin

粉丝: 17
资源: 4659

pramana-nlp:探索梵语文本语料库与LDA主题建模

关于静止质量的引力两孤子解的静磁解的产生

Tugas1_PemrogramanMobile:1915091020_Sang Putu瑜伽Pramana_Tugas 1

Codelab_Dart_Ridho:065118196_RidhoPramanaHN

基于分数阶忆阻器的系统的动态行为和控制

僵尸网络活动检测：基于网络流量分析的新模型

混合分析方法提升僵尸网络活动检测：99.73%高精度案例研究

异质性星核模型：线性与二次状态方程的超密恒星研究

白色大气风格的建筑商业网站模板下载.rar

面向对象编程语言Objective-C基础语法详解及应用

球馆预约系统ssm.zip

最新资源