本文目录一览:
在Linux系统中使用Shell实现多线程运行任务(多任务并发执行) 2022-05-30
最近,有一批任务需要把两批的fastq合并到一起并压缩成一个fastq文件才能继续往下做,由于存储空间有限又不能直接全部跑上,只能按样本逐个分批跑。众所周知,一般fastq是成对存在的,所需要对read1和read2分别合并一次,然而这次任务的fastq文件比较大,合并然后压缩一次需要1天左右,那对于一组fastq就要2-3天,这也太耗时间了,所以我在想能不能read1和read2 同时跑上,这就可以节省一半的时间了。
平时也能遇到很多类似的任务,特别是在进程数有限的情况下,如果这些小任务单独占用一个进程,而任务很多就很耗时间,如果能在一个进程下实现多个线程并行执行,就能大大提高运行效率。关于进程和线程的知识可以参考知乎的这篇文章【 Shell“ 多线程”,提高工作效率 】,整理的也比较有条理,能比较容易读懂。
当然,某些博主也写过类似的文章,例如这篇【 shell后台限制多并发控制后台任务强度进行文件拷贝 】但是实在是太高深莫测了,看不懂,一时半会儿也学不会。本文将示例Shell实现多线程的简单版本,其实不用太复杂。-linux文件并发
其实只需要两个步骤, 第一步是给需要并行运行的命令行在结尾加上"",代表放到后台运行,第二步是在在所有并行任务的后面加上一句“wait”,意思是等所有通过“”放到后台运行的任务跑完后再继续执行后面的任务 ,这些就能实现所有带有“”的行并行执行了。-linux文件并发
看完脚本是不是觉得很简单?
上面的脚本适合并行任务少的,可以手动加和wait,但是如果有几十个甚至上百个的小任务就比较麻烦了。但不用担心,可以写个循环,批量运行。
循环的结果也是跟上面类似的,只是多了个循环结构。
如果需要执行的任务只有一行,可以把大括号去掉。
关于for和while的循环可以查看之前的文章【 Shell常用循环示例(for和while批量处理)2022-05-25 】
需要注意的是多线程并行还是需要有限制的,毕竟都是在一个进程里运行,如果线程太多了会卡顿的,建议控制在100个以内,当然还有毕竟高级和复杂的方法可以实现限制。因为上面的脚本已经够我用了,没继续往下学,以后可以再补充。-linux文件并发
linux sed是否可以开并发同时处理同一个文件
多线程的方法接触不多,脚本多线程参考:
不过sed是可以指定行的,另一种思路是把指定的1000行分多个比如1,100、101,200……,用shell生产多个sed脚本,用jobs进行提交到后台运行。
以上是一个思路,供参考。
linux下并发连接数限制
并发socket连接数的多少决定于系统资源的多少,没有一个常值的.在实际开发或者linux系统管理中也会根据需要进行相应的设置.
1.一般来说每一个网络连接,都会建立相应的socket句柄,同时每个连接也会有标准输入输出等基本的文件文件句柄,而且每一个socket连接都是进行文件操作的,因此连接数决定于系统资源.
2.Linux上一般可以通过ulimit来进行相应的资源限制,默认能打开的文件描述符自己可以查看.如下图所示:
3.ulimit的命令格式:ulimit [-acdfHlmnpsStvw] [size]
参数说明:
-H 设置硬资源限制.
-S 设置软资源限制.
-a 显示当前所有的资源限制.
-c size:设置core文件的最大值.单位:blocks
-d size:设置数据段的最大值.单位:kbytes
-f size:设置创建文件的最大值.单位:blocks
-l size:设置在内存中锁定进程的最大值.单位:kbytes
-m size:设置可以使用的常驻内存的最大值.单位:kbytes
-n size:设置内核可以同时打开的文件描述符的最大值.单位:n
-p size:设置管道缓冲区的最大值.单位:kbytes
-s size:设置堆栈的最大值.单位:kbytes
-t size:设置CPU使用时间的最大上限.单位:seconds
-v size:设置虚拟内存的最大值.单位:kbytes
-u 程序数目 用户最多可开启的程序数目