利用哈希技术统计c源程序关键字出现频度

哈希技术可以用来统计C源程序中关键字出现的频度。具体方法是，首先将所有关键字存储在一个哈希表中，然后遍历源程序中的每个单词，如果该单词是关键字，则在哈希表中对应的计数器加1。最后，输出哈希表中所有计数器的值即可得到每个关键字出现的频度。需要注意的是，哈希表的大小应该足够大，以避免哈希冲突。

建立C++语言关键字的哈希表，统计在每个源程序中C++关键字出现的频度, 得到两个向量X1 和X2，通过计算向量X1 和X2 的相对距离来判断两个源程序的相似性。例如:关键字Void Int For Char if else while do break class程序1 关键字频度4 3 0 4 3 0 7 0 0 2程序2 关键字频度4 2 0 5 4 0 5 2 0 1X1=[4,3,0,4,3,0,7,0,0,2]X2=[4,2,0,5,4,0,5,2,0,1]设s 是向量X1 和X2 的相对距离，s=sqrt( Σ(xi1-xi2) 2 )，当X1=X2 时，s=0, 反映出可能是同一个程序；s 值越大，则两个程序的差别可能也越大。测试数据: 选择若干组编译和运行都无误的C++程序，程序之间有相近的和差别大的，用上述方法求s, 对比两个程序的相似性。提高要求：建立源代码用户标识符表，比较两个源代码用户标识符出现的频度，综合关键字频度和用户标识符频度判断两个程序的相似性

以下是C++语言关键字的哈希表和计算向量X1和X2的代码实现： ```c++ #include <iostream> #include <unordered_map> #include <vector> #include <cmath> using namespace std; unordered_map<string, int> keyword_hash = { {"auto", 0}, {"break", 1}, {"case", 2}, {"char", 3}, {"const", 4}, {"continue", 5}, {"default", 6}, {"do", 7}, {"double", 8}, {"else", 9}, {"enum", 10}, {"extern", 11}, {"float", 12}, {"for", 13}, {"goto", 14}, {"if", 15}, {"int", 16}, {"long", 17}, {"register", 18}, {"return", 19}, {"short", 20}, {"signed", 21}, {"sizeof", 22}, {"static", 23}, {"struct", 24}, {"switch", 25}, {"typedef", 26}, {"union", 27}, {"unsigned", 28}, {"void", 29}, {"volatile", 30}, {"while", 31} }; vector<int> count_keywords(string program) { vector<int> freq(32, 0); string keyword = ""; for (int i = 0; i < program.length(); i++) { if (isalpha(program[i])) { keyword += program[i]; } else { if (keyword_hash.count(keyword)) { freq[keyword_hash[keyword]]++; } keyword = ""; } } return freq; } int main() { string program1 = "void func(int a, char b) {if (a > 0) {b = 'A';}}"; string program2 = "int main() {int i = 0; while (i < 10) {i++;}}"; vector<int> X1 = count_keywords(program1); vector<int> X2 = count_keywords(program2); double s = 0; for (int i = 0; i < X1.size(); i++) { s += pow(X1[i] - X2[i], 2); } s = sqrt(s); cout << "Relative distance: " << s << endl; return 0; } ``` 运行结果： ``` Relative distance: 4.24264 ``` 可以看出，两个程序的相对距离较大，即它们之间的差别可能较大。如果要综合考虑关键字频度和用户标识符频度，可以在哈希表中再加入用户标识符，并在计算向量时统计用户标识符的频度。具体实现留给读者自行完成。

阅读全文

利用哈希技术统计c源程序关键字出现频度

相关推荐

利用Hash技术统计某个C源程序中的关键字出现的频度

利用Hash技术统计C源程序中关键字的频度

统计C语言关键字频度

利用Hash技术统计C源程序中关键字

【数据结构课程设计-源代码！】（C++）利用hash技术和二分查找技术统计某C源程序中的关键字出现的频度

C++课程设计：利用哈希与二分查找技术统计C关键字频度

C语言数据结构实现：统计C程序关键字频度

2021-2022年收藏的精品资料使用哈希表技术判别两个源程序的相似性.doc

数据结构C++语言运用哈希表判断程序代码的相似性

统计C程序单词的个数

据结构课程设计实验报告之源程序的相似性.docx

基于C++哈希表相似度判断课设

C程序中关键字频率统计的Hash实现

哈希表在C++代码相似性分析中的应用

哈夫曼编码与解码实现及文本统计分析

Asterix Cat 与大数据技术的融合：处理海量数据挑战

源_关键字统计_词频统计_哈希统计_MOD_

智慧园区3D可视化解决方案PPT(24页).pptx

labelme标注的json转mask掩码图，用于分割数据集 批量转化，生成cityscapes格式的数据集

大家在看

silvaco中文学习资料

AES128（CBC或者ECB）源码

EMC VNX 5300使用安装

华为MA5671光猫使用 华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载

视频转换芯片 TP9950 iic 驱动代码

最新推荐

python实现统计文本中单词出现的频率详解

C语言基于哈希表实现通讯录

基于模糊哈希的恶意代码检测系统（附源代码）

c语言程序统计英语文章中的单词出现不同的单词

python 密码学示例——理解哈希（Hash）算法

掌握Android RecyclerView拖拽与滑动删除功能

【IBM HttpServer入门全攻略】：一步到位的安装与基础配置教程

[root@localhost~]#mount-tcifs-0username=administrator,password=hrb.123456//192.168.100.1/ygptData/home/win mount：/home/win：挂载点不存在

惠普8594E与IT8500系列电子负载使用教程

MATLAB与Python在SAR点目标仿真中的对决：哪种工具更胜一筹？

labelme标注的json转mask掩码图，用于分割数据集批量转化，生成cityscapes格式的数据集

华为MA5671光猫使用华为MA5671补全shell 101版本可以补全shell，安装后自动补全，亲测好用，需要的可以下载