|
语言研究专题>>语料库语言学术语
英->汉
|
|
|
| A
|
Ad-hoc corpora 临时性语料库(指为了特定的研究或者学习的目的而建立的语料库)
Alignment 对齐 (对齐分不同的层次,有篇章上的对齐,段落层次的对齐,句子等)
Anaphoric annotation 照应词标注
ANC American National Corpus 国家国家语料库
Annotation 标注
|
| B
|
Background
text 背景资料
BNC
British National Corpus 英国国家语料库
|
| C
|
CES Corpus Encoding Standard 语料库赋码标准 由MULTEXT建立。
COCOA references 这是一种非正式的语料标注方式。
Collocation 搭配
Comparable corpora 可比语料库
Concordance 检索工具,索引工具 (现在一般是指具有检索或者索引功能的电脑软件)
Corpus (corpora pl.) 语料库
corpus-based 基于语料的
corpus-driven 语料驱动的
Corpus Processing 语料处理
Co-text 语境 (比context或者verbal text要更加准确,更狭窄,专指node左右邻近的词。) |
| D
|
Disambiguation 消除歧义 (通常通过标注,统计等方法实现)
Discoursal annotation 话语标注 (对话语操纵相关信息的标注,不同于命题的标注。)
DIY corpus 自建语料库
DTD Document Type Definition 文件类型定义 |
| E
|
Encoding 赋码 包括annotation 和tagging
|
| F
|
frequency list 词频表(expected vs. observed frequency 有预期词频和实际词频之分)
|
| G
|
general purpose corpus 通用语料库 |
| H
|
Header 电子语料文本的一部分,包含作者,来源,语类等信息,通常用<>屏蔽。 |
| I
|
Internet as corpus 以互联网作为语料(库)
|
|
J |
KWAL key word and line 检索行中的关键词
|
|
K
|
KWIC key word in context 语境中的关键词
key word 主题词/关键词(指某一文本、或语料库中频率特高或特低的词) |
| L
|
Learner language corpora 学习者语料库(以某一语言为目标的中介语构成)
Lemmatization 削尾处理 (指将词形后的曲折词尾去掉这个过程。这有赖于词性标注。)
lexical density 词汇密度
LOB Corpus G.eoffrey倡议,由挪威Oslo大学的Stig
Johansson主持完成,装在挪威Bergen大学挪威人文科学计算中心。代表当代英国英语。 |
| M
|
Monitor corpus 动态语料库
Multilingual comparable corpora 多语可比语料库
Multilingual text 多语文本
|
| N
|
Node 节点
|
| O
|
Original text原创文本
opportunistic corpus 简易语料库 |
| P
|
POS
tagger Part-of-speech tagger 词性赋码 (又称语法标注, grammatical tagging,
morphosyntactic annotation )
Plain text 纯文本(以.TXT格式保存的)
Prosodic annotation 音韵标注
|
| Q
|
|
| R
|
Representativeness 代表性
Recoverability 可恢复性 (指将标注了的语料恢复其原始状态)
Reference corpus *标准语料库 基于公认的标准,且规模也不小的语料库。
|
| S
|
Sampled corpus 抽样语料库 (语料经过精心挑选,一旦建成,不容改变)
Semantic annotation 语义标注
Semantic prosody 语义韵律
SGML Standard Generalized Markup Language 应用广泛的一种标注语言
Span 跨度 (指节点node左右两侧的宽度,一般以词来衡量)
Special corpus 专用语料库 (用于某个特定的研究目标,语料选取不象平衡语料那样讲究。)
Sublanguage 专业语言 (指局限于某个专业领域的语言变体。)
Subcorpus 子库(由某类比较专业的语料构成) |
| T
|
Tagset 附码集
TEI Text Encoding Initiative 是一套基于SGML的标注系统,用于语料库的标注。
Text Chunking 拆句处理 (指将句子拆成小块的过程)
Translational text 翻译文本
|
| U
|
|
| V
|
|
| W
|
Web
as corpus 以网络作为语料(库)
|
| X
|
XML 一种标注语言 |
| Y
|
|
| Z
|
|
|
|
|
后记:本表收集语料库语言学方面的专业术语。本表的目的在于收集资料,所以为方便起见,我们对于专业术语采用解释和翻译相结合的办法。本表将随着资料的增加不断更新。
|
|
|
|
<声明:本表为学习和研究者提供方便
请莫转载!>
|