Go语言中ReadFile、io.Copy与自定义MD5性能对比

77 浏览量更新于2024-09-01 收藏 65KB PDF 举报

在Go语言中，MD5哈希是一种常用的密码散列函数，常用于数据完整性校验和文件指纹。本文探讨了三种不同的MD5计算方法在性能上的差异，特别关注的是它们在处理文件时对磁盘I/O的依赖。首先介绍的是直接使用`ioutil.ReadFile`的方式，这种方法的优点是简洁，但内部的`readall`函数会一次性将整个文件加载到内存中，这可能导致内存消耗较大。以下是这三种方法的详细分析： 1. **`ioutil.ReadFile`**： - 这种方法通过`os.Open`打开文件，然后使用`io.ReadAll`一次性读取整个文件内容到一个切片中。优点是操作简便，但缺点是当文件很大时，可能会造成内存溢出，因为它是预先分配足够大的内存来存储整个文件。`BenchmarkMd5Sum1`测试结果显示，对于一个19405028字节的文件，每次操作需要大约19408224字节的内存，并且产生了14次内存分配。 2. **逐行读取（分块读取）**： - 为了减少内存消耗，另一种方法是按行或分块读取文件，而不是一次性读取所有内容。这种方式可以避免一次性占用大量内存，但会增加更多的I/O操作次数，因为每个MD5哈希都需要单独处理读取的每一块数据。然而，这种策略在处理大文件时可能更高效，因为它能够更好地利用缓存和磁盘I/O。 3. **流式计算**： - 最后，还可以考虑使用`bufio.NewReader`配合`io.Reader`进行流式读取，这样可以进一步减少内存使用，因为只在实际计算哈希时读取数据，而不是一次性读取。这种方法对内存占用最小，但可能会牺牲一定的计算速度，因为每次计算都需要额外的I/O操作和数据缓冲。通过性能测试，如`Benchmark`所示，`ReadFile`方式由于其内存密集型的特性，在处理大文件时可能会成为瓶颈。相比之下，逐行读取和流式计算的方法更适合处理大文件，尽管速度可能略慢，但内存使用更为高效。总结来说，选择哪种MD5计算方式取决于具体的应用场景和性能需求。如果内存不是主要限制因素，`ioutil.ReadFile`可能是最快的选项；如果内存有限并且处理大文件，那么分块读取或流式计算将更合适，尤其是在注重响应时间和内存优化的场景。了解这些性能特性有助于开发者在实际项目中做出明智的选择。

Go语言中三种不同语言中三种不同md5计算方式的性能比较计算方式的性能比较

md5计算在我们日常工作的时候经常能遇到，下面这篇文章主要介绍了Go语言中三种不同md5计算方式的性能

比较,需要的朋友可以参考借鉴，下面来一起学习学习吧。

前言前言

本文主要介绍的是三种不同的 md5 计算方式，其实区别是读文件的不同，也就是磁盘 I/O, 所以也可以举一反三用在网络 I/O

上。下面来一起看看吧。

ReadFile

先看第一种，先看第一种，简单粗暴：简单粗暴：

func md5sum1(file string) string {

data, err := ioutil.ReadFile(file)

if err != nil {

return ""

}

return fmt.Sprintf("%x", md5.Sum(data))

}

之所以说其粗暴，是因为 ReadFile 里面其实调用了一个 readall，分配内存是最多的。

Benchmark 来一发：来一发：

var test_path = "/path/to/file"

func BenchmarkMd5Sum1(b *testing.B) {

for i := 0; i < b.N; i++ {

md5sum1(test_path)

}

go test -test.run=none -test.bench="^BenchmarkMd5Sum1$" -benchtime=10s -benchmem

BenchmarkMd5Sum1-4 300 43704982 ns/op 19408224 B/op 14 allocs/op

PASS

ok tmp 17.446s

先说明下，这个文件大小是 19405028 字节，和上面的 19408224 B/op 非常接近, 因为 readall 确实是分配了文件大小的内

存，代码为证：

ReadFile 源码源码

// ReadFile reads the file named by filename and returns the contents.

// A successful call returns err == nil, not err == EOF. Because ReadFile

// reads the whole file, it does not treat an EOF from Read as an error

// to be reported.

func ReadFile(filename string) ([]byte, error) {

f, err := os.Open(filename)

if err != nil {

return nil, err

}

defer f.Close()

// It's a good but not certain bet that FileInfo will tell us exactly how much to

// read, so let's try it but be prepared for the answer to be wrong.

var n int64

if fi, err := f.Stat(); err == nil {

// Don't preallocate a huge buffer, just in case.

if size := fi.Size(); size < 1e9 {

n = size

}

// As initial capacity for readAll, use n + a little extra in case Size is zero,

// and to avoid another allocation after Read has filled the buffer. The readAll

// call will read into its allocated internal buffer cheaply. If the size was

// wrong, we'll either waste some space off the end or reallocate as needed, but

// in the overwhelmingly common case we'll get it just right.

// readAll 第二个参数是即将创建的 buffer 大小

return readAll(f, n+bytes.MinRead)

}

func readAll(r io.Reader, capacity int64) (b []byte, err error) {

// 这个 buffer 的大小就是 file size + bytes.MinRead

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38670208

粉丝: 6
资源: 893

Go语言中ReadFile、io.Copy与自定义MD5性能对比

Go语言实现md2亿次加密（已打包成windows可执行文件）

Go语言中的数据结构与算法实现.md

Go语言计算md5：三种方法的性能分析

MD5-SIMD：SIMD加速的MD5哈希计算提升性能至8倍

Go-gospeed-Go微型基准测试用于计算语言结构的速度

Go语言学习（五） 高质量编程与性能调优实战-青训营笔记

Go-Go的缓存控制中间件添加ETag头(内容的md5)和Cache-Control头

职业经营 2：如何选择技术方向和编程语言(1).md

快速的对任意对象进行Hash计算。优化方法：如果有不包括指针连续数据将利用MD5自带的AVX2指令集一次性读取。.zip

最新资源

Go语言学习（五）高质量编程与性能调优实战-青训营笔记