Formulaire de contact

 
Un épisode sur 
la segmentation des textes chinois (ep 1)




PLAN

INTRODUCTION
I CONTEXTE
II ALGORITHMES
III OUTILS
IV TEST
V EVALUATION
CONCLUSION
REFERENCES

INTRODUCTION

La segmentation de textes chinois joue un rôle important dans le traitement automatique de la langue chinoise. Dans notre projet, il est indispensable d’obtenir un « bon » corpus pour la suite de notre analyse. Il faut éviter le « garbage in, garbage out ». Nous avons donc envisagé de trouver un segmenteur puissant. Dans ce blog, nous commencerons par le contexte et les enjeux de la segmentation. Ensuite nous présenterons brièvement des algorithmes, et des outils existants pour tester et évaluer.

I CONTEXTE

Dans les langues telles que l'anglais ou le français, les mots sont généralement séparés par des espaces, ce qui simplifie la segmentation des phrases. Cependant, en chinois, la langue écrite est composée de caractères qui ne sont pas délimités, ce qui rend la symbolisation des mots difficile. Un caractère donné représente une signification indépendante en tant que mot, et une signification distincte lorsqu'il est groupé avec d'autres caractères ; il peut aussi avoir plusieurs sens ou prononciations.

Pour ceux ou celles qui maîtrisent bien le chinois, il est facile à saisir les nuances. Pour la machine, cela nécessite des désambiguïsations. Il existe plusieurs types d'ambiguïtés, tels que combinatoire, superposé, polysémique, ou ceux liés au ton, à la pause, etc. Chacun d'entre eux pose des difficultés sur des niveaux différents : segmentation, analyse morphosyntaxique, syntaxique, sémantique, pragmatique, etc.

ex 1

chinois : 今天天真热
pinyin : jīn tiān tiān zhēn rè
traduction fr : aujourd'hui, il fait vraiment chaud.

segmentation 1
*今天/天真/
pinyin : jīn tiān/ tiān zhēn/ rè
traduction littérale (mot-à-mot) : aujourd'hui/ naïf/ chaud

segmentation 2
今天///
pinyin : jīn tiān/ tiān/ zhēn/ rè
traduction littérale (mot-à-mot) : aujourd'hui/ temps/ vraiment/ chaud

Dans la langue naturelle, il n’y a pas d’ambiguïté quand on segmente天真 (tiān zhēn), seul la seconde segmentation est acceptable dans cette phrase, mais elle pose des problèmes pour la machine.

ex 2

南京市长江大桥
pinyin : nán jīng shì cháng jiāng dà qiáo
traduction fr :Le grand pont de Nankin sur le Yangtsé (le Fleuve bleu)

segmentation 1
南京/长江/大桥
pinyin : nán jīng shì /cháng jiāng /dà qiáo
traduction littérale (mot-à-mot) : Ville de Nankin/ le Yangtsé/ grand pont

segmentation 2
南京/市长/江大桥
pinyin : nán jīng /shì zhǎng/ jiāng dà qiáo
traduction littérale (mot-à-mot) : Nankin/ maire/ JIANG Daqiao (Nom de personne)
traduction fr : Le maire de Nankin, JIANG Daqiao

Dans la langue naturelle, si le maire de Nankin s’appelle JIANG Daqiao, cela va poser une ambiguïté. Les deux segmentations sont donc acceptables.
Le caractère "" a deux prononciations : cháng, zhǎng. Il peut être un mot et sa prononciation varie selon le contexte ; il peut aussi se combiner avec d'autres caractères pour former de nouveaux mots.

Les deux exemples supra, montrent, à un certain degré, la difficulté de la segmentation des textes chinois. Certaines ambiguïtés sont intrinsèques de la langue chinoise, tandis que d'autres sont liées à la limite de la machine. Il faut distinguer les deux types pour que le traitement soit efficace, c'est-à-dire que la machine peut "ignorer" des ambiguïtés intrinsèques lors de la segmentation, et reprendre ces problèmes dans les phases suivantes (analyses syntaxique, sémantique ou pragmatique).

La bonne segmentation est la base du traitement automatique du chinois (moteur de recherche, traduction automatique, synthèse de paroles, classification automatique de textes, etc). Pour ce faire, des spécialistes linguistiques/ informatiques du chinois ont établi des directives (guideline), notamment la "Contemporary Chinese language word segmentation specification for information processing". Des institutions ont en devloppé des jeux d'étiquettes et des corpus étiquetés, les plus connus sont celui de l'Université de Pennsylvania et celui de l'Université de Pékin.

II ALGORITHMES

Il existe en général 3 catégories d'algorithmes dans ce domaine.

2.1 String searching algorithm

Noyaux : dictionnaire, matching order (normal, renversé, bidirectionnel), matching principle (maximum matching, minimum matching, optimal match, etc.)
Avantages : facile à mettre en pratique
Désavantages :
1) coûteux (temps et mémoire) ;
2) ambiguïtés combinatoire et superposé ;
3) pas de standard des mots ;
4) peu puissant pour les néologismes ou les non-entrées de dictionnaire.

2.2 Algorithmes basés sur les connaissances/ l'intelligence artificielle

Ces algorithmes font l'analyses syntaxique et sémantique lors de la segmentation en simulant le processus de compréhension d'une phrase par un être-humain. Ils utilisent beaucoup de connaissances et d'informations linguistiques pour désambiguïser. Il existe notamment trois types :
   
       système expert
       réseau neuronal artificiel
la combinaison des deux supra

Désavantages : les connaissances et les informations de la langue chinoise sont trop compliquées pour être lisibles pour la machine.
   
2.3 Algorithmes basés sur la statistique

N-gram, principe d'entropie maximale et modèle de Markov caché sont des modèles souvent utilisés dans ce domaine.
Dans la pratique, on combine l'algorithme statistique et celui qui utilise des dictionnaires.

III OUTILS

Aucun outil n'utilise qu'un seul algorithme. Dans notre travail, il serait plus efficace et intéressant de comparer quelques outils de segmentation.



Nous avons fini le test et l’évaluation de ces outils, mais pas encore écrit les parties correspondantes. Elles seront dans le prochain blog.

Bibliographies et Références
compléter dans le prochain blog)

孙茂松, 王洪君, 李行健, 富丽, 黄昌宁, 陈松岑, ... & 张卫国. (2001). 信息处理用现代汉语分词词表. 语言文字应用, 4, 84-89. (The Guideline of constructinga wordlist of Contemporary Chinese for information processing )  
刘源, 谭强, & 沈旭昆. (1994). 信息处理用现代汉语分词规范及自动分词方法. 清华大学出版社. (Contemporary Chinese language wordsegmentation specification for information processing and methods of automaticsegmentation)   
龙树全, 赵正文, & 唐华. (2009). 中文分词算法概述. 电脑知识与技术: 学术交流, 5(4), 2605-2607. (Brief review on Chinese segmentation algorithms)

Huihsin Tseng, Pichuan Chang, Galen Andrew, Daniel Jurafsky and Christopher Manning. 2005. A Conditional Random Field Word Segmenter. In Fourth SIGHAN Workshop on Chinese Language Processing.
Maosong Sun, Xinxiong Chen, Kaixu Zhang, Zhipeng Guo, Zhiyuan Liu. THULAC: An Efficient Lexical Analyzer for Chinese. 2016.
Zhongguo Li, Maosong Sun. Punctuation as Implicit Annotations for Chinese Word Segmentation. Computational Linguistics, vol. 35, no. 4, pp. 505-512, 2009.
Mysore, S., Kim, E., Strubell, E., Liu, A., Chang, H. S., Kompella, S., ... & Olivetti, E. (2017). Automatically Extracting Action Graphs from Materials Science Synthesis Procedures. arXiv preprint arXiv:1711.06872.
Lample, G., Ballesteros, M., Subramanian, S., Kawakami, K., & Dyer, C. (2016). Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360.


Total comment

Auteurs

AI_PLURITAL