线程池处理文件（线程池处理策略）

本文目录一览：

1、如何用多线程读取大文件并且做数据处理，100
2、java多线程处理大批文件
3、java线程池读写10万行文件进行遍历时，占用物理内存溢出

如何用多线程读取大文件并且做数据处理，100

先说几个要点：

a、文件在操作系统级，有描述符标记，关联到打开的文件表项，文件表项纪录了一个很重要的信息，当前文件的指针；

b、cpu要干的工作比读文件快不，读一次文件的速度要慢于cpu处理一次的速度，没必要多多线程，多线程提升不了多少性能，还增加编程的难度，单线程处理即可。

c、待处理文件，必须知道一定的边界值，如分页边界或单条纪录边界。

有了上面的前提，每个线程维护单独的缓冲区，缓存区大小就是c点提到的边界纪录大小。线程启动，把缓冲区读满，处理数据。此处有个要点，必须做文件锁，把要读的边界锁住。否则读出来的数据会产生混乱。（如果强行打开多个不同的文件不划算，内存占用可能会过多）。产生混乱的原因简单，读文件实际上是进行系统调用，系统调用有自己的缓冲区，这缓冲区未必跟你设置的缓冲区一样大。多次读多次移动指针，不加文件锁处理的数据必定会乱。-线程池处理文件

文件锁两种方式加锁，对整个文件加锁，对字节区间加锁。都不是什么难事。

实现方式1:对整个文件加锁，因为我们要保证的是读到的数据别混乱。

实现方式2:如果内存足够大，维护n个独立的文件描述符，这些文件描述符必须有独立的文件指针，操作系统上有对应实现。每个线程操作未读纪录，这么做还需要维护共享的已读纪录指针。防止重复处理。这么做处理完成如果需要按顺序合并文件是难点。处理过的数据有新的纪录边界。要视实际情况而定能不能这么做。写程序要优先保证的是正确性，之后才是提升效率。-线程池处理文件

我说的理论，依据是操作系统提供的api处理。别的语言要依赖操作系统运行。原理差不多，目标语言有没有操作系统提供的api强悍。依据使用的目标语言而定。绝大多数能叫编程语言的语言都会提供操作系统api对应的方法。（脚本语言例外，如shell，perl，javascript，vbscript，就可能没这么强的控制能力。），java，objective-c，swift，php，python一般是不会有问题的。-线程池处理文件

线程池处理文件（线程池处理策略）

java多线程处理大批文件

线程数量一般是个估算值。这个要凭经验来判定。

判定规则如下：

如果您能保证您的线程程序不会因为等待任何I/O事件产生等待（比如等待网络、等待数据库、等待磁盘），那么应创建CPU进程个数个线程数。

如果您的线程程序I/O等待时间和执行时间大致相等，应创建CPU进程数x2个线程数。

java线程池读写10万行文件进行遍历时，占用物理内存溢出

先优化下程序吧。你的每个8万行的list，读取完第一个文件，在读取第二个文件的时候释放吗？

你“将这个list跟3万行的list 遍历通过相同的id获取3万行里的手机号码。”这个效率太低了，将3万行数据的list改为HashMap,key是id，value是手机号。

电脑数码网

Nice to meet you, too!

线程池处理文件

线程池处理文件（线程池处理策略）

admin 发表于2023-03-27 11:13:07 浏览68 评论0

本文目录一览：

如何用多线程读取大文件并且做数据处理，100

java多线程处理大批文件

java线程池读写10万行文件进行遍历时，占用物理内存溢出

少长咸集

Nice to meet you, too!

线程池处理文件

线程池处理文件（线程池处理策略）

admin 发表于2023-03-27 11:13:07 浏览68 评论0

本文目录一览：

如何用多线程读取大文件并且做数据处理，100

java多线程处理大批文件

java线程池 读写10万行文件进行遍历时，占用物理内存溢出

少长咸集

java线程池读写10万行文件进行遍历时，占用物理内存溢出