The Text Encoding Initiative简介

The Text Encoding Initiative (简称:TEI)是由来自世界各的学术机构、科研项目及学者组成的一个非营利性会员制组织,主要开发和维护一套文本数字化编码标准(Guidelines)。该标准是一套机器可读的文本编码,主要使用在人文科学,社会科学和语言学。

The Text Encoding Initiative (简称:TEI)是由来自世界各的学术机构、科研项目及学者组成的一个非营利性会员制组织,主要开发和维护一套文本数字化编码标准(Guidelines)。该标准是一套机器可读的文本编码,主要使用在人文科学,社会科学和语言学。 自1994年以来,TEI Guidelines已广泛被图书馆,博物馆,出版商和学者应用于文本的在线研究,教学和资料的保存的工作之中。除了这套Guidelines,该协会还提供了的多种资源和培训活动用以TEI的学习、TEI的项目开发、TEI出版物的发表及适应TEI的程序开发。

TEI协会用了很大篇幅解释了TEI和Guideline的区别,其实业界常常以TEI来表示文本编码格式,因此,我们可以听到”如何将一个XHTML文本转换为TEI格式?”这样的问题。之后的文章中如果不着重说明“TEI协会”,基本都指TEI编码格式。

对于想学TEI 的大家,也许怎么开始是一个小小的挑战,下面的网址提供了关于TEI的一些信息,包括TEI Guidelines的概况、XML和文本标签的基本概念、TEI系统中schemas(也称“ODD”)的写入和档案化的指导。英文好的朋友可以直接进入下面网址开始学习TEI。

http://www.tei-c.org/Support/Learn/index.xml

另外也推荐由谢筱琳、黄韦宁翻译的《TEI使用指南:运用TEI处理中文文献》(繁体版),以下是链接:

http://www.tei-c.org/Support/Learn/TEI-ChinLoc-2ndPrintEd.pdf

简单的自我介绍一下,自2013年起,我加入TEI-CMC小组,主要负责网络通信文本的法语语料库的建模及归档处理,这项工作属于TEI的扩展,以下是我们小组的WIKI:

http://wiki.tei-c.org/index.php/SIG:Computer-Mediated_Communication

CoMeRe-网络通信语料库

CoMeRe(网络通信语料库)项目是为了在2014年将来自通信网络的语料整合并创建一系列相关的语聊库。关注的语料种类是非常多样性的:单一或多元的、同步或异步的。

CoMeRe(网络通信语料库)项目是为了在2014年将来自通信网络的语料整合并创建一系列相关的语聊库。关注的语料种类是非常多样性的:单一或多元的、同步或异步的。

CoMeRe a pour objectif, à l’horizon 2014 ,de créer un noyau de corpus de communication médiée par les réseaux (Computer Mediated Communication – CMC) en français. Chaque corpus rassemblera un ensemble de conversations intervenant sur la Toile et les réseaux. Nous nous intéressons à une variété de systèmes de communication synchrone ou asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, forums, etc. Continue reading “CoMeRe-网络通信语料库”

TEI结构及的区别

众所周知,TEI定义了数据结构,数据类型甚至是数据属性,因此这里简单的介绍一下TEI文件的基本结构,及<TEI>和<teiCorpus>的区别。
这里TEI的版本为P5。

众所周知,TEI定义了数据结构,数据类型甚至是数据属性,因此这里简单的介绍一下TEI文件的基本结构,及<TEI>和<teiCorpus>的区别。
这里TEI的版本为P5。
Continue reading “TEI结构及的区别”