高精准神经网络分词包：软著登字第3951366号开源项目

需积分: 10 172 浏览量更新于2024-07-15 收藏 1.05MB PDF 举报

"DETA_PARSER20190909BACKUP.pdf" 是一个开源项目，由个人作者原创并持有软著登字第3951366号的版权。该项目专注于自然语言处理（NLP）、词性标注（POS）、人工智能（AI）以及深度学习领域，提供每秒能处理2200~3000万中文词汇的高精度神经网络分词工具。项目支持训练词意、词感、词境和词灵分析，并且允许用户自由扩展词库。用户可以通过官方互动展示页http://tinos.qicp.vip/data.html进行体验。在给定的部分代码中，展示了`org.tinos.view.stable`包下定义的一个接口`StableMaps`。这个接口包含了一系列静态常量，每个常量都是一个类型为`Map<String, String>`的映射对象。这些映射对象（如`fuCi`, `dongCi`, `liangCi`等）可能用于存储特定类型的词汇或词义，便于在程序中快速访问和操作。在NLP任务中，这样的数据结构常用来存储词典或预处理后的词汇信息，例如词性、同义词、反义词等，以便进行文本分析和处理。在实际应用中，分词是NLP的基础步骤，它将连续的文本分割成具有独立意义的词语。例如，中文句子“我爱你”会被分词为“我”、“爱”、“你”。准确的分词对于后续的词性标注、情感分析、实体识别等任务至关重要。而神经网络分词方法利用深度学习模型，通过训练大量已标注的数据来提升分词的准确性和效率。在这个项目中，词意、词感、词境和词灵分析是进一步的语义理解层面。词意分析关注词汇的含义，词感分析可能涉及到词的情感色彩，词境分析则考虑词语在上下文中的具体意义，而词灵分析可能是指通过对词语的深入理解和联想，挖掘其潜在的含义或隐喻。这些功能使得该工具不仅仅局限于简单的分词，还能够进行更复杂的文本理解。词库的扩展性意味着用户可以根据自己的需求添加或修改词汇信息，这在处理特定领域文本或者新出现的网络用语时尤其有用。通过这样的方式，工具可以保持对语言变化的适应性，提高在不同场景下的应用效果。 "DETA_PARSER20190909BACKUP.pdf" 提供了一个高效且功能丰富的中文文本处理工具，结合了先进的深度学习技术与灵活的词库管理，旨在满足NLP领域的各种需求，如文本分析、情感挖掘和智能理解。

// }

//// t.end();

// System.out.println("");

//// t.duration();

// System.out.println("");

// System.out.println("词频分析-->");

//// t.begin();

// Map<Integer, WordFrequency> fwa = analyzer.getWordFrequencyByReturnSortMap(sets);

//// t.end();

// for (int i = fwa.size() - 1; i >= 0; i--) {

// System.out.print(fwa.get(i).getWord() + ":" + fwa.get(i).getFrequency() + "----");

// }

// System.out.println("");

//// t.duration();

}

---------------------------------------------------------------------------------------------------------------------------------

package org.tinos.test;

import org.tinos.engine.analysis.Analyzer;

import org.tinos.engine.analysis.imp.CogsBinaryForestAnalyzerImp;

import java.io.IOException;

import java.util.List;

import java.util.concurrent.Callable;

import java.util.concurrent.CopyOnWriteArrayList;

import java.util.concurrent.ExecutorService;

import java.util.concurrent.Executors;

@SuppressWarnings("unused")

public class DemoCogs {

static List<List<String>> sets;

static String ss;

static int c = 0;

public static void main(String[] args) throws IOException, InterruptedException {

Analyzer analyzer = new CogsBinaryForestAnalyzerImp();

//Analyzer analyzer = new FastAnalyzerImp();

//Analyzer analyzer = new PrettyAnalyzerImp();

//Analyzer analyzer = new BaseAnalyzerImp();

//Analyzer analyzer = new ScoreAnalyzerImp();

analyzer.init();

sets = new CopyOnWriteArrayList<>();

String ss = "从容易开始从容易知";

System.out.println("");

ExecutorService executorService = Executors.newFixedThreadPool(1);

for (int i = 0; i < 100; i++) {

executorService.submit(new TaskWithResult(i, analyzer, ss));

}

void index() throws IOException;

void indexMixed() throws IOException;

void indexPosEnToCn() throws IOException;

void indexPosEnToEn() throws IOException;

void indexEnToCn() throws IOException;

void indexCnToEn() throws IOException;

void indexFullEnToCn() throws IOException;

void indexFullCnToEn() throws IOException;

void indexFullCnToJp() throws IOException;

void indexFullCnToRs() throws IOException;

void indexFullCnToAb() throws IOException;

void indexFullCnToFn() throws IOException;

void indexFullCnToGm() throws IOException;

void indexFullCnToKo() throws IOException;

void indexFullCnToSp() throws IOException;

void indexFullCnToPy() throws IOException;

void indexFullNegative() throws IOException;

void indexFullPositive() throws IOException;

Map<Long, FMHMMNode> getMap();

Map<Long, FMHMMNode>[] getMaps();

Map<String, String> getPosEnToCn();

Map<String, String> getPosEnToEn();

Map<String, String> getPosCnToCn();

Map<String, String> getEnToCn();

Map<String, String> getCnToEn();

Map<String, String> getFullEnToCn();

Map<String, String> getFullCnToEn();

Map<String, String> getFullCnToJp();

Map<String, String> getFullCnToRs();

Map<String, String> getFullCnToAb();

Map<String, String> getFullCnToFn();

Map<String, String> getFullCnToGm();

Map<String, String> getFullCnToKo();

Map<String, String> getFullCnToSp();

Map<String, String> getFullCnToPy();

Map<String, String> getFullNegative();

Map<String, String> getFullPositive();

List<String> englishStringToWordsList(String string);

Map<Long, Map<String, String>> getWordsForests();

void studyNewPos(String string, String posStudy);

Map<String, String> getStudyPos();

}

---------------------------------------------------------------------------------------------------------------------------------

package org.tinos.ortho.fhmm.imp;

import java.util.HashMap;

import java.util.Hashtable;

import java.util.LinkedHashMap;

import java.util.Map;

import java.util.TreeMap;

剩余159页未读，继续阅读

罗瑶光19850525

粉丝: 1
资源: 11

高精准神经网络分词包：软著登字第3951366号开源项目

Deta_OSS v11.final.pdf

deta.zip_Deta_Hurwitz_RIEMANN_zeta_zeta function

mfcc_deta = librosa.feature.delta(mfcc)

mfcc_d1_d2 = np.concatenate([mfcc,mfcc_deta,mfcc_deta2],axis=0)

mfcc_deta2 = librosa.feature.delta(mfcc,order = 2)

最新资源