生活点点

Projet de terminologie

L’objectif est de construire une terminologie regroupant les termes du guide ainsi que les relations sémantiques entre les termes.

Ce projet est réalisé sur le system Ubuntu 10.10

Les travaux sont séparés par plusieurs étapes, ce que je présente ici est 1ère partie pour extraire les termes du corpus.

1. je prépare le corpus “corpus-guide_alimentaire.pdf”

2. Conversation le fichier PDF vers TXT, la commande “pdftotext” nous permet de faire cette conversation.

3. Vérification le codage du fichier, par la commande “file nomfichier”.

4. cette étape de treetagger, pour sortir une liste avec chaque élément annoté sa catégorie et son lemme, mais avant de faire une analyse par tree-tagger, une filtrage est obligatoire d’exécuter, la liste ci-dessous contient des caractères spécifiques, et ces caractères spécifiques ne peuvent pas être analysé par le programme YaTeA, donc, ces caractères soit supprimés soit remplacés par la colonne à droit:

œ           oe
•
●
■

’           ‘
“           ”
”           ”
–           –
…           …
€           E

Après avoir filtré, je commence l’analyse de tree-tagger.

Attention, afin de permettre YaTeA bien marcher, il y a encore une petite chose à filtrer, par exemple, le mot “œuf”, on a déjà remplacé par “oeuf”, mais quand le treetagger sort le résultat, il considère “œuf” est le lemme de mot “oeuf”, aussi “bœuf” est le lemme de mot “boeuf”.

5. Cette étape, j’utilise le programme de Flemm,

6. La dernière étape, j’utilise YaTeA pour extraire les termes des deux résultats, un de treetagger, un de Flemm

2010年11月4日
Java – 原始数据类型（Primitive Data Types）
JAVA属于静态类型的编程语言，也就是说，所有的变量需要预先定义他们的变量类型才能够被使用。JAVA提供了8种不同的变量类型：

byte（比特) 最短的类型，长度在-128 到 127之间，包括-128和127

short (短整型）长度在-32 768 和 32767之间，包括-32 768和32 767

int （整型）长度在-2,147,483,648和2,147,483,647之间，包括-2,147,483,648和2,147,483,647

long（长整型）长度在-9,223,372,036,854,775,808和9,223,372,036,854,775,808之间，包括-9,223,372,036,854,775,808和9,223,372,036,854,775,808

参考：http://baike.baidu.com/view/3522307.html

float（单精度浮点型）单精度浮点型（float ）专指占用32位存储空间的单精度（single-precision ）值。单精度在一些处理器上比双精度更快而且只占用双精度一半的空间，但是当值很大或很小的时候，它将变得不精确。当你需要小数部分并且对精度的要求不高时，单精度浮点型的变量是有用的。例如，当表示美元和分时，单精度浮点型是有用的。

参考：http://baike.baidu.com/view/1388812.htm

double（双精度浮点型）正如它的关键字“double ”表示的，占用64位的存储空间。在一些现代的被优化用来进行高速数学计算的处理器上双精度型实际上比单精度的快。所有超出人类经验的数学函数，如 sin( )，cos( ) ，tan()和sqrt( )均返回双精度的值。当你

需要保持多次反复迭代的计算的精确性时，或在操作值很大的数字时，双精度型是最好的选择。

参考：http://baike.baidu.com/view/1388812.htm

boolean（布尔型）布尔型的值只有两个：FALSE(假)和TRUE(真)，并且 FALSE的值为0，TRUE的值为1

需要保持多次反复迭代的计算的精确性时，或在操作值很大的数字时，双精度型是最好的选择。

参考：http://baike.baidu.com/view/1388812.htm

char（字符型）

char数据类型是一个16位Unicode字符。它有一个最低值’ u0000’（或0）的最高值’ uffff’（或65,535包括在内）。

string 在类java.lang.String的作用下，还有一个（字符串型）

这些类型的默认值：

Data Type Default Value (for fields)

byte 0

short 0

int 0

long 0L

float 0.0f

double 0.0d

char ‘u0000’

String (or any object) null

boolean false

注意：局部变量略有不同，编译器不会指定一个默认值，未初始化的局部变量。如果您不能初始化局部变量声明的地方，一定要为它分配一个值，然后再尝试使用它。访问一个未初始化的局部变量将导致编译时错误。

同时整数类型也可以被用10进制，8进制以及16进制的变量赋值中，例如：
```
     int decVal = 26; 	// The number 26, in decimal
     int octVal = 032; 	// The number 26, in octal
     int hexVal = 0x1a;	// The number 26, in hexadecim
```
10进制变量的定义和其他正常情况下一样，而8进制变量的定义，需要在值的最前面加上一个0，后面所跟的数字，每一位上是0-7之间。16进制则以0x开头，并且数字为0-9和A-F之间。

浮点型同时也可以用E或者e来表示（科学计数法中使用），另外单精度浮点类型（float）以F或者f结尾表示，双精度浮点类型（double）用D或者d为结尾表示。

例如：
```
     double d1 = 123.4;
     double d2 = 1.234e2; // same value as d1, but in scientific notation
     float f1  = 123.4f;
```
类型字符和字符串可能包含任何的Unicode（UTF – 16）字符。如果你的编辑器和文件系统允许，您可以直接在代码中使用这些字符。如果没有，你可以使用诸如“Unicode转义”’ u0108’（capital C with circumflex），或“S u00ED本身 u00F1or”（Sí Señor in Spanish）。总是使用’单引号’的字符文字和“双引号”的字符串。 Unicode转义序列可以用在别的地方在一个程序（如字段名称，例如），不仅在字符或字符串文字。

JAVA语言还支持一些特殊的字符：b （退格） t（tab）n（换行）f（form feed）r（回车） “（爽引号） ‘（单引号）\（反斜干）
2010年11月3日
Java – 1er programme helloworld

JAVA的第一步，经典的例子，helloworld法语版：

打开文件编辑器，将一下内容复制到文件编辑器中：

public class Bonjour{ /*类名和文件名要一致，不然编译的时候会出错*/
public static void main(String [] argc){ /*这里有个疑问，methode, 应该是一个函数(function), 不知道属于什么，不过作为第一个程序，暂且忽略，不许要问太多，只要看过程*/
System.out.println(“Bonjour Le Monde”);}}
保存为文件名Bonjour.java，文件名一定要和程序里面的class后面的名字一样，不然会出错，说找不到类。.java为扩展名，未编译时候的程序。

接着在命令行终输入

javac Bonjour.java

能发现存Bonjour.java文件夹中多了一个Bonjour.class文件

接着在命令行输入

java Bonjour.class

来运行程序，能得到一个结果

Bonjour Le Monde

2010年11月3日
[转]CPAN基本介绍

转自：http://www.hardwork.cn/?p=38

CPAN基本介绍
1.perl模块是perl的库，就好比c/c++写的可执行文件需要用到.a静态库和.so动态库一样。
2.CPAN(http://www.cpan.org/)是perl官方站点（http://www.perl.com/）的一个“军火库”，里面有上百万的perl模块，用来支撑perl强大的功能，从生物工程到天文计算，从宏观世界到原子力学，无所不有。
3.为了很方便的安装perl模块，有人做了一个CPAN模块，用cpan命令来管理和安装CPAN网站上的所有perl模块。
cpan命令
1.cpan命令其实也是一个perl脚本，对于不同版本的perl，可能cpan命令的功能强弱有所不同；
2.执行cpan，我们进入了一个类似bash的界面，暂且叫做cpanshell，cpanshell上可以像bash一样输入命令，这个命令是CPAN所特有的。
3.我们一般常用到的cpan命令主要有：
1.help
•help命令是显示帮助信息，这里面包含了所有的cpan命令，虽然看上去只有一屏，但功能确是非常强大哟！
2.m //
这个是一个模式，用来查找perl模块，有点像perl正则里面的m//，用于匹配(match)，但这里m与//之间多了一个空格，且这里的m指
modules，意思是根据模块名称查找，//内可以使用正则；同理
a(authors)、b(bundles)、d(distributions)和i(in all)都有这种模式。
3.install
•install命令是安装perl模块，一般是接模块名称，而不是压缩包名字。比如DBD::mysql，而不是DBD-mysql，即

install DBD::mysql
CPAN配置
•CPAN安装是网络安装，如果没有网络，使用cpan命令是无法安装的，所以CPAN安装的速度是与网络有直接关系；•当然，我们可以选择一个快速的镜像站点来安装CPAN模块，那如何配置呢？

1.如果是第一次使用CPAN，那么执行cpan命令的时候，cpan命令会给出配置的友好提示，不过很多人都对这个友好提示的繁冗程度显得很不耐烦，不过新版本的CPAN模块已经改善了这一缺点；

2.如果不是第一次使用CPAN，而以前别人配置的CPAN镜像站点出了问题不能下载，或镜像站点太慢等等修改一下配置信息，可以重新配置CPAN：

CPAN>o conf init

•若不是root用户，使用cpan命令或perl -MCPAN -e shell也可以进行配置后安装：

1.首先，配置好CPAN配置，这个配置可以使用非root用户配置好，配置好的内容一般在$HOME/.cpan/CPAN/MyConfig.pm文件内；

2.配置文件MyConfig.pm中配置信息中确定有 ‘makepl_arg’=>q[PREFIX=~/perl] 这一行，~/perl为你当前用户有权限读、写和执行的目录；

3.最后，设置 PERL5LIB 环境变量，把 ~/perl 下的相关目录添加进 PERL5LIB。以 bash shell 为例，在 ~/.bash_profile 里添加如下即可：

export PERL5LIB=~/perl/lib: ~/perl/lib/perl5/5.8.0/i386-linux-thread-multi: ~/perl/lib/perl5/5.8.0: ~/perl/lib/perl5/site_perl/5.8.0/i386-linux-thread-multi: ~/perl/lib/perl5/site_perl/5.8.0: ${PERL5LIB}
模块检测
•运行

$perl -e ‘use Module’

如果没有任何输出，则表示模块 Module 成功安装
•打印模块版本

$perl -MModule -e ‘print $Module::VERSION;’
注意事项
1.使用 CPAN 安装模块有时候会 make test 一步失败。可到 $HOME/.cpan/build 的相应目录下直接 make install；

2.第一次安装 CPAN 时，可以先安装：

install Bundle::CPAN

或
installBundle::CPANxxl?

这样以后的安装包安装就会少需要的依赖，建议安装。

2010年11月2日
Linguistique, Statistique et R

Les statistiques sont présentes dans tous les domaines de la discipline, aussi dans la linguistique: Phonologie, Morphologie, Linguistique textuelle etc. Dans le domaine du TAL, les statistiques sont utilisé pour Recherche documentaire, Terminographie, lexicographie mono- et bi-lingue, etc.

Les méthodes de quantification sont sur le point de transformer la recherche et l’histoire linguistiques comme elles ont transformé, il y a quelques décennies, la recherche sociologique ou psychologique. Cette transformation méthodologique coûtera sans doute des énergies notables aux linguistes, qui ont intérêt à mesurer leur efforts dans le domaine.

Le logiciel R, un projet de GNU similaire à S, est un langage de programmation et un environnement mathématique utilisés pour le traitement de données et l’analyse statistique. Voir le site officiel

2010年10月15日