语言研究专题

• 
• 
• 
• 


文化专题

• 
• 
• 
• 


 翻译研究专题

• 
• 
• 
• 

 

    非学术区

 

 

   语言·文化·翻译

 首 页语言研究资源 |文化研究资源 |翻译研究资源 |教学资源| 关于本站 留言板
语言研究专题>>语料库语言学术语 英->
A

Ad-hoc corpora 临时性语料库(指为了特定的研究或者学习的目的而建立的语料库)

Alignment 对齐 (对齐分不同的层次,有篇章上的对齐,段落层次的对齐,句子等)

Anaphoric annotation 照应词标注

ANC American National Corpus 国家国家语料库

Annotation 标注

B

Background text 背景资料

BNC British National Corpus 英国国家语料库

 

C

CES Corpus Encoding Standard 语料库赋码标准 由MULTEXT建立。

COCOA references 这是一种非正式的语料标注方式。

Collocation 搭配

Comparable corpora 可比语料库

Concordance 检索工具,索引工具 (现在一般是指具有检索或者索引功能的电脑软件)

Corpus (corpora pl.) 语料库

corpus-based 基于语料的

corpus-driven 语料驱动的

Corpus Processing 语料处理

Co-text 语境 (比context或者verbal text要更加准确,更狭窄,专指node左右邻近的词。)

D

Disambiguation 消除歧义 (通常通过标注,统计等方法实现)

Discoursal annotation 话语标注 (对话语操纵相关信息的标注,不同于命题的标注。)

DIY corpus 自建语料库

DTD Document Type Definition 文件类型定义

E

Encoding 赋码 包括annotation 和tagging

F

frequency list 词频表(expected vs. observed frequency 有预期词频和实际词频之分)

G general purpose corpus 通用语料库
H Header 电子语料文本的一部分,包含作者,来源,语类等信息,通常用<>屏蔽。
I

Internet as corpus 以互联网作为语料(库)

 

J KWAL key word and line 检索行中的关键词
K

KWIC key word in context 语境中的关键词

key word 主题词/关键词(指某一文本、或语料库中频率特高或特低的词)

L 

Learner language corpora 学习者语料库(以某一语言为目标的中介语构成)

Lemmatization  削尾处理 (指将词形后的曲折词尾去掉这个过程。这有赖于词性标注。)

lexical density 词汇密度
LOB Corpus G.eoffrey倡议,由挪威Oslo大学的Stig Johansson主持完成,装在挪威Bergen大学挪威人文科学计算中心。代表当代英国英语。

M 

Monitor corpus 动态语料库

Multilingual comparable corpora 多语可比语料库

Multilingual text 多语文本

N

Node 节点

O

Original text原创文本

opportunistic corpus 简易语料库

P 

POS tagger  Part-of-speech tagger 词性赋码 (又称语法标注, grammatical tagging, morphosyntactic annotation )  

Plain text 纯文本(以.TXT格式保存的)

Prosodic annotation 音韵标注

Q  
R 

Representativeness 代表性

Recoverability 可恢复性 (指将标注了的语料恢复其原始状态)

Reference corpus *标准语料库 基于公认的标准,且规模也不小的语料库。

S

Sampled corpus 抽样语料库 (语料经过精心挑选,一旦建成,不容改变)

Semantic annotation 语义标注

Semantic prosody 语义韵律

SGML Standard Generalized Markup Language 应用广泛的一种标注语言

Span 跨度 (指节点node左右两侧的宽度,一般以词来衡量)

Special corpus 专用语料库 (用于某个特定的研究目标,语料选取不象平衡语料那样讲究。)

Sublanguage 专业语言 (指局限于某个专业领域的语言变体。)

Subcorpus 子库(由某类比较专业的语料构成)

Tagset 附码集

TEI Text Encoding Initiative 是一套基于SGML的标注系统,用于语料库的标注。

Text Chunking 拆句处理 (指将句子拆成小块的过程)

Translational text 翻译文本

 

U  
V

 

  

W

Web as corpus 以网络作为语料(库)

 

X

XML 一种标注语言

Y
Z

 

后记:本表收集语料库语言学方面的专业术语。本表的目的在于收集资料,所以为方便起见,我们对于专业术语采用解释和翻译相结合的办法。本表将随着资料的增加不断更新

<声明:本表为学习和研究者提供方便 请莫转载>

Copyrights © 2002 语言·文化·翻译 All rights reserved