tokenizer（怎么理解token,tokenize,tokenizer）

本文目录

怎么理解token,tokenize,tokenizer
求StringTokenizer的用法
怎么理解token,tokenize,tokenizer.
初学者该从哪里入门学习写 tokenizer 和 grammar analyzer
StringTokenizer和StrTokenizer有什么区别
Python分割字符串有无和c++中的tokenizer同样功能的用法
会写Parser，Tokenizer 是什么水平
4. stringtokenizer类的主要用途是什么该类有哪几个重要的方法
关于Java的StringTokenizer的问题
java StringTokenizer类的问题

怎么理解token,tokenize,tokenizer

1、一种解释

token：令牌
tokenize：令牌化
tokenizer：令牌解析器

2、另一种翻译是：token可以翻译为“标记”，tokenize可以翻译为“标记解析”或“解析标记”，tokenizer可以翻译为“标记解析器”。

在编写词法分析器(Lexer)或语法分析器(Parser)的时候，除了Lexer和Parser这两个词会经常使用外，tokenize和tokenizer也会经常出现，基本上所有涉及到词法解析的源码都会用到tokenize。-tokenizer

在邱仲潘译的《Mastering Java 2》有这儿一段：

StreamTokenizer类根据用户定义的规则，从输入流中提取可识别的子串和标记符号，这个过程称为令牌化（[i]tokenizing[/i]），因为流简化为了令牌符号。令牌（[i]token[/i]）通常代表关键字、变量名、字符串、直接量和大括号等语法标点。-to

StringTokenizer 是出于兼容性的原因而被保留的遗留类（虽然在新代码中并不鼓励使用它）。建议所有寻求此功能的人使用 String 的 split 方法或 java.util.regex 包。
使用正则表达式很容易的
String input=“aZ8sd★yu” ;
String result = input.split“^[a-zA-Z]“;
好久没用正则表达式了，也不知道正确不正确。。。
希望对你有所帮助
string tokenizer 类允许应用程序将字符串分解为标记。tokenization 方法比 StreamTokenizer 类所使用的方法更简单。StringTokenizer 方法不区分标识符、数和带引号的字符串，它们也不识别并跳过注释。
可以在创建时指定，也可以根据每个标记来指定分隔符（分隔标记的字符）集合。
StringTokenizer 的实例有两种行为方式，这取决于它在创建时使用的 returnDelims 标志的值是 true 还是 false：
如果标志为 false，则分隔符字符用来分隔标记。标记是连续字符（不是分隔符）的最大序列。
如果标志为 true，则认为那些分隔符字符本身即为标记。因此标记要么是一个分隔符字符，要么是那些连续字符（不是分隔符）的最大序列。
StringTokenizer 对象在内部维护字符串中要被标记的当前位置。某些操作将此当前位置移至已处理的字符后。
通过截取字符串的一个子串来返回标记，该字符串用于创建 StringTokenizer 对象。
下面是一个使用 tokenizer 的实例。代码如下：
StringTokenizer st = new StringTokenizer(“this is a test“);
while (st.hasMoreTokens()) {
System.out.println(st.nextToken());
}
输出以下字符串：
this
is
a
test
StringTokenizer 是出于兼容性的原因而被保留的遗留类（虽然在新代码中并不鼓励使用它）。建议所有寻求此功能的人使用 String 的 split 方法或 java.util.regex 包。
下面的示例阐明了如何使用 String.split 方法将字符串分解为基本标记：
String result = “this is a test“.split(“\\s“);
for (int x=0; x《result.length; x++)
System.out.println(result[x]);
输出以下字符串：
this
is
a
test
-tokenizer

怎么理解token,tokenize,tokenizer.

1、一种解释

token：令牌
tokenize：令牌化
tokenizer：令牌解析器

2、另一种翻译是：token可以翻译为“标记”，tokenize可以翻译为“标记解析”或“解析标记”，tokenizer可以翻译为“标记解析器”。

在邱仲潘译的《Mastering Java 2》有这儿一段：

初学者该从哪里入门学习写 tokenizer 和 grammar analyzer

可以先写一个Datalog解释器。接着由 Earley Deduction 变形成 Earley Parser ，再由 Earley Parser 退化成 LR Parser ，LR Parser 又可以退化成 SLR 和 LALR ，同时还可以退化成 NFA ，NFA 还可以编译成 DFA ，DFA是一种特殊的NFA。另一方面，Datalog从动态规划改成回溯，就变成了Prolog，Prolog 的 DCG 其实和 PEG 是类似的东西。PEG继续退化，就变成PCRE那种回溯风格为主的“正则表达式”。同时，PEG加一点tabling，就变成了 Packrat 。学了Datalog，其他部分都是可以很容易自己推导出来的，看那么多厚厚的书才是
-to

StringTokenizer和StrTokenizer有什么区别

StringTokenizer 是jdk自带的类，印象里是前兼容的，现在一般用string.split代替使用。
StrTokenizer 是apache维护的一个开源包中的一个类，就是说它是一直在维护更新的。这个没用过，可能有些新功能在里面，可以参照文档
-tokenizer

Python分割字符串有无和c++中的tokenizer同样功能的用法

import
re
str=“a
=
f1(`MAX(b,
0.0,
1.0)
+
0.5);“
print
re.split(’[
()+=;]+’,str)
这样会多出一个’’，可以把最后一个字符串去掉:
print
re.split(’[
()+=;]+’,str)[:-1]
-to

会写Parser，Tokenizer 是什么水平

不吹不黑，一个数据结构及格的程序员，即使完全不懂编译原理，看一下nfa和递归下降的原理再写一个简单的tokenize和parser解析一个简单的语言两天应该能搞定。不过要是吃透编译器前端的那么多知识，比如nfa-》dfa到最小dfa，LL/LR/SLR/LALR，能做到手写标准的正则引擎，山寨yacc的水平的话，不潜下心来钻研个一年半载估计是没戏。能做到这个水平，全国任何公司的offer肯定都是任意挑选的。反正我比较笨学了好多年都还没吃透
编译器前端的到目前为止确实像是到头了，像lex、yacc、antlr这么多工具你看看手册就能写个parser出来。而编译器后端的代码生成、数据流分析、寄存器分配这些怎么就没见多少人谈论？还不是因为这部分跟前端相比难得多，高手都直接发论文了，普通人接触过这些东西就会发现自己知识的浅薄不敢乱吹牛了。
-tokenizer

4. stringtokenizer类的主要用途是什么该类有哪几个重要的方法

StringTokenizer 是一个Java的类，属于 java.util 包，用来分割字符串和枚举类型。
StringTokenizer 构造方法：
1. StringTokenizer(String str) ：构造一个用来解析 str 的 StringTokenizer 对象。使用默认的分隔符：空格(““)、制表符(\t)、换行符(\n)、回车符(\r)。
2. StringTokenizer(String str, String delim) ：构造一个用来解析 str 的 StringTokenizer 对象，并提供一个指定的分隔符。
3. StringTokenizer(String str, String delim, boolean returnDelims) ：构造一个用来解析 str 的 StringTokenizer 对象，并提供一个指定的分隔符，同时，指定是否返回分隔符。
StringTokenizer 常用方法：
1. int countTokens()：返回nextToken方法被调用的次数。可以用来计算字符串分割单元的个数。
2. boolean hasMoreTokens()：返回是否还有分隔符。可以用来判断，字符串分割有没有处理完。
3. boolean hasMoreElements()：判断枚举（Enumeration）对象中是否还有数据。用来判断枚举类型有没有处理完。
4. String nextToken()：返回从当前位置到下一个分隔符的字符串。
5. Object nextElement()：返回枚举（Enumeration）对象的下一个元素。
6. String nextToken(String delim)：与 4 类似，以指定的分隔符返回结果。
-to

关于Java的StringTokenizer的问题

根据StringTokenizer的文档，其构造函数的第二个参数，是一个String，表示所有起分割作用的character。
也就是说，StringTokenizer只能用单个character做分隔符，一旦遇到w或者c就会分割一下。
如果题主想用“wc”整体作为分隔符，可以直接用String类的split方法。
-tokenizer

java StringTokenizer类的问题

StringTokenizer st = new StringTokenizer(ObjStr, “|“);//将objStr这个字符串，按|来分隔，但你这样写是错误的，应该改成[|]或“\\|“
for (int i = 0; i 《 10; i++) {//循环10次，应该是与下面的m_sName和m_nScore的长度对应的
if (st.hasMoreTokens()) {//按|折分，这个方法是指是否还有下一项
String sStr = st.nextToken();//上面说了，你的objStr按|来拆分的，这个方法得到你拆分后的下一个串
StringTokenizer stt = new StringTokenizer(sStr, “@“);//这里与上面相同，把OBJSTR拆分后一每一项再按@来拆分
m_sName[i] = stt.nextToken();//按@拆分后，第一项赋值给m_sName[i]
try {
m_nScore[i] = Integer.parseInt(stt.nextToken());//第二项为按@拆分后的第二项
} catch (Exception e) {//异常捕获，不多说
m_nScore[i] = 0;
}
} else {//不说了
m_sName[i] = “None“;
m_nScore[i] = 0;
}
}
-to

电脑数码网

Nice to meet you, too!

tokenizer to token