Projet de terminologie

L’objectif est de construire une terminologie regroupant les termes du guide ainsi que les relations sémantiques entre les termes.

Ce projet est réalisé sur le system Ubuntu 10.10

Les travaux sont séparés par plusieurs étapes, ce que je présente ici est 1ère partie pour extraire les termes du corpus.

1. je prépare le corpus “corpus-guide_alimentaire.pdf

2. Conversation le fichier PDF vers TXT, la commande “pdftotext” nous permet de faire cette conversation.

3. Vérification le codage du fichier, par la commande “file nomfichier”.

4. cette étape de treetagger, pour sortir une liste avec chaque élément annoté sa catégorie et son lemme, mais avant de faire une analyse par tree-tagger, une filtrage est obligatoire d’exécuter,  la liste ci-dessous contient des caractères spécifiques, et ces caractères spécifiques ne peuvent pas être analysé par le programme YaTeA, donc, ces caractères soit supprimés soit remplacés par la colonne à droit:

œ            oe


’            ‘
“            ”
”            ”
–            –
…            …
€            E

Après avoir filtré, je commence l’analyse de tree-tagger.

Attention, afin de permettre YaTeA bien marcher, il y a encore une petite chose à filtrer, par exemple, le mot “œuf”, on a déjà remplacé par “oeuf”, mais quand le treetagger sort le résultat, il considère “œuf” est le lemme de mot “oeuf”, aussi “bœuf” est le lemme de mot “boeuf”.

5. Cette étape, j’utilise le programme de Flemm,

6. La dernière étape, j’utilise YaTeA pour extraire les termes des deux résultats, un de treetagger, un de Flemm

评论

《 “Projet de terminologie” 》 有 4 条评论

  1. ADaier 的头像

    开始玩Java了还。。。

    1. KunFly 的头像
      KunFly

      学习,学习,哈哈

      1. ADaier 的头像

        啥事候写一点代码用来自动发送回复通知吧~

        1. KunFly 的头像
          KunFly

          没搞明白你的意思!

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据