×

java读取html文件乱码

java读取html文件乱码(java解析html文件)

admin admin 发表于2023-03-27 18:51:10 浏览46 评论0

抢沙发发表评论

本文目录一览:

请问java中用jacob将html转word中文乱码怎么解决?

有中文乱码一般都是字符编码的问题,那你就是设置一下字符编码看看能不能解决这个问题。

jsp中用包含html时出现乱码

关于JSP页面中的pageEncoding和contentType两种属性的区别:

pageEncoding是jsp文件本身的编码

contentType的charset是指服务器发送给客户端时的内容编码

JSP要经过两次的“编码”,第一阶段会用pageEncoding,第二阶段会用utf-8至utf-8,第三阶段就是在客户端浏览器里看到的网页, 用的是contentType。

第一阶段是jsp编译成.java,它会根据pageEncoding的设定读取jsp,结果是由指定的编码方案翻译成统一的UTF-8 JAVA源码(即.java),如果pageEncoding设定错了,或没有设定,出来的就是中文乱码。-java读取html文件乱码

第二阶段是由JAVAC的JAVA源码至java byteCode的编译,不论JSP编写时候用的是什么编码方案,经过这个阶段的结果全部是UTF-8的encoding的java源码。

JAVAC用UTF-8的encoding读取java源码,编译成UTF-8 encoding的二进制码(即.class),这是JVM对常数字串在二进制码(java encoding)内表达的规范。

第三阶段是Tomcat(或其的application container)载入和执行阶段二的来的JAVA二进制码,输出的结果,也就是在客户端见到的,这时隐藏在阶段一和阶段二的参数contentType就发挥了功效-java读取html文件乱码

而include指令就是在第一阶段之前执行的,注意这个是在第一阶段之前,所以,如果包含文件和被包含文件的文件编码不是utf-8,那么,该指令就会工作不太正常,不能正确的把被包含的文件从原来编码转换为包含文件的编码,就会出现乱码现象.-java读取html文件乱码

解决的方法有很多,一种很简单的方法就是,把包含文件的pageEncoding设置为utf-8,同时,把被包含文件的pageEncoding也设置为utf-8,如果被包含文件为html的话,如果你使用的ide是eclipse的话,那么,可以这么做,在被包含文件名上右键单击,选择属性 (properties),Resource下,在text file encoding里选择utf-8,这样就可以做到正常显示了.如果用的是其他的编辑工具,比如Dream weaver,也有响应的修改页面编码的地方.-java读取html文件乱码

另外一种方法比较麻烦点,但是也挺好用,支持各种编码方式,只需要修改web.xml文件就可以了.

方法为:在web.xml里添加(注意我所使用的javaee版本2.5为

web-app xmlns:xsi=”” xmlns=”” xmlns:web=”” xsi:schemaLocation=” ” id=”WebApp_ID” version=”2.5〃)

jsp-config

jsp-property-group

descriptionjsp encoding example/description

display-nameJSPConfiguration/display-name

url-pattern*.jsp/url-pattern

el-ignoredtrue/el-ignored

page-encodinggbk/page-encoding

scripting-invalidfalse/scripting-invalid

include-prelude/include-prelude

include-coda/include-coda

/jsp-property-group

jsp-property-group

descriptionhtml encoding example/description

display-nameJSPConfiguration/display-name

url-pattern*.html/url-pattern

el-ignoredtrue/el-ignored

page-encodinggbk/page-encoding

scripting-invalidfalse/scripting-invalid

include-prelude/include-prelude

include-coda/include-coda

/jsp-property-group

/jsp-config

需要注意的是,这里设置的page-encoding必须与真正的被包含文件和包含文件的pageEncoding一致,修改方法见上一方法.

JAVA通过HTML获取网页内容,中文显示乱码

java内部编码使用utf-16,需要先用网页的编码解析从网页获取的bytes数组,例如如果网页用gbk,转换可以写成new String(bytes,"gbk")。

另外你的流读取有点怪,应该是写错了吧

javaweb,给HTML文件加上过滤器以后,HTML显示乱码。

那是你的浏览器不识别Content-Type,采用了默认的GBK/GB2312编码显示,这个可以在打开页面“右键-编码”看到;meta最好给一个结束符,即:meta http-equiv="content-type" content="text/html; charset=utf-8" /-java读取html文件乱码

java读取html文件内容显示在jsp中出现乱码?

你试下读取的时候用utf-8的格式来读,然后设置request和response的charset为utf-8,应该就可以了.

JAVA读写文件,如何避免中文乱码

1、你要将所有的文件的编码都设置成UTF-8,还有,你的MyEclipse或者Eclipse应该配置jsp还有java文件还有项目都设置为UTF-8.

2、eclipse 中使用模板新建 JSP,xhtml等 文件时,默认的编码为:ISO-8859-1。 ISO-8859-1 编码对于中文的显示是不支持的,如果要支持简体中文,则编码方式应为 GBK 或者 GB2312 或者 UTF-8(推荐) 等。右键菜单栏window -- preferences -- 在type filter text中输入jsp; -- 选择下面的jsp - 选择creating files组中的encoding 为UTF-8编码就可以了-java读取html文件乱码

如果要使新建立工程、java文件直接使UTF-8则需要做以下工作: 

1、windows-Preferences...打开"首选项"对话框,左侧导航树,导航到general-Workspace,右侧 Text file encoding,选择Other,改变为UTF-8,以后新建立工程其属性对话框中的Text file encoding即为UTF-8。-java读取html文件乱码

2、windows-Preferences...打开"首选项"对话框,左侧导航树,导航到general-Content Types,右侧Context Types树,点开Text,选择Java Source File,在下面的Default encoding输入框中输入UTF-8,点Update,则设置Java文件编码为UTF-8。其他java应用开发相关的文件 如:properties、XML等已经由Eclipse缺省指定,分别为ISO8859-1,UTF-8,如开发中确需改变编码格式则可以在此指定。-java读取html文件乱码