Un épisode
sur
la segmentation des textes chinois (ep 1)
PLAN
INTRODUCTION
I CONTEXTE
II ALGORITHMES
III OUTILS
IV
TEST
V
EVALUATION
CONCLUSION
REFERENCES
INTRODUCTION
La segmentation de textes chinois
joue un rôle important dans le traitement automatique de la langue chinoise.
Dans notre projet, il est indispensable d’obtenir un « bon » corpus
pour la suite de notre analyse. Il faut éviter le « garbage in, garbage
out ». Nous avons donc envisagé de trouver un segmenteur puissant. Dans ce
blog, nous commencerons par le contexte et les enjeux de la segmentation. Ensuite
nous présenterons brièvement des algorithmes, et des outils existants pour tester
et évaluer.
I CONTEXTE
Dans les langues telles que
l'anglais ou le français, les mots sont généralement séparés par des espaces,
ce qui simplifie la segmentation des phrases. Cependant, en chinois, la langue
écrite est composée de caractères qui ne sont pas délimités, ce qui rend la
symbolisation des mots difficile. Un caractère donné représente une signification
indépendante en tant que mot, et une signification distincte lorsqu'il est
groupé avec d'autres caractères ; il peut aussi avoir plusieurs sens ou
prononciations.
Pour ceux ou celles qui
maîtrisent bien le chinois, il est facile à saisir les nuances. Pour la
machine, cela nécessite des désambiguïsations. Il existe plusieurs types
d'ambiguïtés, tels que combinatoire, superposé, polysémique, ou ceux liés au
ton, à la pause, etc. Chacun d'entre eux pose des difficultés sur des niveaux
différents : segmentation, analyse morphosyntaxique, syntaxique, sémantique,
pragmatique, etc.
ex 1
chinois : 今天天真热
pinyin : jīn tiān tiān zhēn rè
traduction fr : aujourd'hui, il fait vraiment chaud.
segmentation 1
*今天/天真/热
pinyin : jīn tiān/ tiān zhēn/ rè
traduction littérale (mot-à-mot) : aujourd'hui/ naïf/ chaud
segmentation 2
今天/天/真/热
pinyin : jīn tiān/ tiān/
zhēn/
rè
traduction littérale (mot-à-mot) : aujourd'hui/ temps/ vraiment/ chaud
Dans la langue naturelle, il
n’y a pas d’ambiguïté quand on segmente天真 (tiān zhēn),
seul la seconde segmentation est acceptable dans cette phrase, mais elle pose
des problèmes pour la machine.
ex 2
南京市长江大桥
pinyin : nán jīng shì cháng jiāng dà qiáo
traduction fr :Le grand pont de Nankin sur le Yangtsé (le Fleuve bleu)
segmentation
1
南京市/长江/大桥
pinyin : nán jīng shì /cháng jiāng /dà qiáo
traduction littérale (mot-à-mot) : Ville de Nankin/ le Yangtsé/ grand pont
segmentation 2
南京/市长/江大桥
pinyin : nán jīng /shì zhǎng/ jiāng dà qiáo
traduction littérale (mot-à-mot) : Nankin/ maire/ JIANG Daqiao (Nom de personne)
traduction fr : Le maire de Nankin, JIANG Daqiao
Dans la langue naturelle, si
le maire de Nankin s’appelle JIANG Daqiao, cela va poser une ambiguïté. Les
deux segmentations sont donc acceptables.
Le caractère "长" a deux prononciations : cháng, zhǎng. Il peut être
un mot et sa prononciation varie selon le contexte ; il peut aussi se combiner
avec d'autres caractères pour former de nouveaux mots.
Les deux exemples supra, montrent, à un certain degré, la
difficulté de la segmentation des textes chinois. Certaines ambiguïtés sont
intrinsèques de la langue chinoise, tandis que d'autres sont liées à la limite
de la machine. Il faut distinguer les deux types pour que le traitement soit
efficace, c'est-à-dire que la machine peut "ignorer" des ambiguïtés
intrinsèques lors de la segmentation, et reprendre ces problèmes dans les
phases suivantes (analyses syntaxique, sémantique ou pragmatique).
La bonne segmentation est la base
du traitement automatique du chinois (moteur de recherche, traduction
automatique, synthèse de paroles, classification automatique de textes, etc).
Pour ce faire, des spécialistes linguistiques/ informatiques du chinois ont
établi des directives (guideline), notamment la "Contemporary Chinese language word segmentation specification for
information processing". Des institutions ont en devloppé des jeux
d'étiquettes et des corpus étiquetés, les plus connus sont celui de l'Université
de Pennsylvania et celui de l'Université de Pékin.
II ALGORITHMES
Il existe en général 3 catégories
d'algorithmes dans ce domaine.
2.1
String searching algorithm
Noyaux : dictionnaire, matching order (normal, renversé,
bidirectionnel), matching principle (maximum matching, minimum matching, optimal
match, etc.)
Avantages : facile à mettre en pratique
Désavantages :
1) coûteux (temps et mémoire) ;
2) ambiguïtés combinatoire et superposé
;
3) pas de standard des mots ;
4) peu puissant pour les néologismes ou
les non-entrées de dictionnaire.
2.2 Algorithmes basés sur les connaissances/ l'intelligence
artificielle
Ces algorithmes font l'analyses
syntaxique et sémantique lors de la segmentation en simulant le processus de
compréhension d'une phrase par un être-humain. Ils utilisent beaucoup de
connaissances et d'informations linguistiques pour désambiguïser. Il existe
notamment trois types :
système
expert
réseau neuronal artificiel
la combinaison
des deux supra
Désavantages : les connaissances et les informations de la langue
chinoise sont trop compliquées pour être lisibles pour la machine.
2.3 Algorithmes basés sur la statistique
N-gram, principe d'entropie
maximale et modèle de Markov caché sont des modèles souvent utilisés dans ce
domaine.
Dans la pratique, on combine
l'algorithme statistique et celui qui utilise des dictionnaires.
III OUTILS
Aucun outil n'utilise qu'un seul
algorithme. Dans notre travail, il serait plus efficace et intéressant de
comparer quelques outils de segmentation.
Nous avons fini le test
et l’évaluation de ces outils, mais pas encore écrit les parties
correspondantes. Elles seront dans le prochain blog.
Bibliographies
et Références
(à compléter dans le prochain blog)
孙茂松, 王洪君, 李行健, 富丽, 黄昌宁, 陈松岑, ... & 张卫国. (2001). 信息处理用现代汉语分词词表. 语言文字应用, 4, 84-89. (The Guideline of constructinga wordlist of Contemporary Chinese for information processing )
刘源,
谭强,
& 沈旭昆. (1994). 信息处理用现代汉语分词规范及自动分词方法. 清华大学出版社. (Contemporary Chinese language wordsegmentation specification for information processing and methods of automaticsegmentation)
龙树全, 赵正文, & 唐华. (2009). 中文分词算法概述. 电脑知识与技术: 学术交流, 5(4), 2605-2607. (Brief review on Chinese
segmentation algorithms)
Huihsin Tseng, Pichuan Chang,
Galen Andrew, Daniel Jurafsky and Christopher Manning. 2005. A Conditional Random
Field Word Segmenter. In Fourth SIGHAN Workshop on Chinese Language
Processing.
Maosong Sun, Xinxiong Chen,
Kaixu Zhang, Zhipeng Guo, Zhiyuan Liu. THULAC: An Efficient Lexical Analyzer
for Chinese. 2016.
Zhongguo Li, Maosong Sun. Punctuation
as Implicit Annotations for Chinese Word Segmentation. Computational Linguistics, vol. 35, no.
4, pp. 505-512, 2009.
Mysore, S., Kim, E., Strubell,
E., Liu, A., Chang, H. S., Kompella, S., ... & Olivetti, E. (2017).
Automatically Extracting Action Graphs from Materials Science Synthesis
Procedures. arXiv preprint arXiv:1711.06872.
Lample, G., Ballesteros, M.,
Subramanian, S., Kawakami, K., & Dyer, C. (2016). Neural architectures for
named entity recognition. arXiv preprint arXiv:1603.01360.