Intelligence Artificielle

Bilan de la phase I du projet -- Construction de corpus : méthodologie et mise en oeuvre

Sir Humphrey: The only way to understand the Press is to remember that they pander to their readers' prejudices.

Jim Hacker: Don't tell me about the Press. I know *exactly* who reads the papers. The Daily Mirror is read by the people who think they run the country. The Guardian is read by people who think they *ought* to run the country. The Times is read by the people who actually *do* run the country. The Daily Mail is read by the wives of the people who run the country. The Financial Times is read by people who *own* the country. The Morning Star is read by people who think the country ought to be run by *another* country. The Daily Telegraph is read by the people who think it is.

-- Yes, Prime Minister

PLAN

Introduction

I Notions générales

II Méthodologie

III Méthodes et sources

IV Corpus comparable

INTRODUCTION

Arrivant presque à la fin de la première phase de notre projet, nous aimerons récapituler notre travail du point de vue méthodologique et pratique.

Nous commencerons brièvement par les notions générales et les démarches de la construction de corpus pour ensuite mettre en lumière les choix des méthodes et des sources. Enfin, nous présenterons notre corpus.

I Notions générales

1.1 Qu’est-ce que le corpus ?

Des linguistes ont des points de vue différents sur la notion (l’objet). Il est necessaire de tenir compte de ces différences. Un corpus est :

• “…selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language” (Sinclair, 1996)

• “A well-organized collection of data” (McEnery, 2003)

• « un regroupement structuré de textes intégraux, documentés, éventuellement enrichis par des étiquetages, et rassemblés : (i) de manière théorique réflexive en tenant compte des discours et des genres, et (ii) de manière pratique en vue d’une gamme d’applications » (Rastier, 2005)

• There are many ways to define a corpus […] but there is an increasing consensus that a corpus is a collection of (1) machine readable (2) authentic texts (including transcripts of spoken data) which is (3) sampled to be (4) representative of a particular language or language variety. (McEnery et al., 2006)

Cette variation de définitions n’empêche pas de récupérer des éléments essentiels d’un corpus : authentique, structuré, représentative et bon échantillonnage pour un objectif précis.

1.2 Taxinomie de corpus

1.3 Caractéristique de corpus

II Démarches de construction de corpus

Il s’agit notamment des considérations et des étapes de construciton d’un corpus.

2.1 Design

Représentativité

La représentativité est déterminée par l’échantillonnage et l’équilibrage.

• “A corpus is thought to be representative of the language variety it is supposed to represent if the findings based on its contents can be generalized to the said language variety” (Leech, 1991)

Cependant, cette notion est assez fluide selon des objectifs de recherche. Un corpus pour représenter une certaine langue est necessairement différent de celui pour analyser spécifiquement un phénomène vu dans la presse d’une langue.

Echantillonnage

III Méthodes et sources

Selon la méthodologie de construction de corpus et les objectifs du projet, nous avions dans un premier temps délimité notre cadre général de travail : la presse. car des articles journalistiques sont assez homogènes au niveau de registre.

A propos d’autres types de sites web, tels que réseaux sociaux, forums, twitter, blogs, wiki, etc, il n’est pas facile de trouver des « équivalents » dans les trois langues de travail. Pour que le corpus soit « comparable » aux niveaux de registre et de genre, le choix était fait ainsi.

Il y a quand même un paradoxe :

Il est inévitable de faire une sélection pour constituer un corpus homogène et représentatif, mais la sélection entraîne des modifications sur des données observées.

3.1 les méthodes utilisées

Après avoir déterminé le thème et le cadre, nous avions utilisé queleques outils pour préciser nos choix.

3.1.1 Quelle période ?

Nous avons utilisé Google Trends et Baidu Index pour déterminer la période des données brutes.

Voir les figures de recherche et leurs requêtes associées :

Grosso modo, l’intérêt pour ce thème en Google commençait en 2014, 2009 et 2014 respectivement en France, au Royaume-Uni et en Chine.

Mais, il est uncertain que le résultat pour le chinois soit fiable car le moteur de recherche le plus utilisé en Chine est Baidu au lieu de Google. Nous avons donc tésté cette requête avec Baidu Index (plus ou moin parail que Google Trends). Le résultat est quasi-similaire.

Voir la figure obtenue par Baidu Index :

La période est donc décidée : de 2014 à 23/09/2017 (le jour où nous avons commencé la collection des données).

3.1.2 Quel pays/région ?

Chacun de nos trois langues de travail connaît de nombreuses variétés régionales.

Le français :

Etudiant(e)s non francophone, nous trouvions le français de France le meilleur choix. Le Québec, le Belgie et la Suisse ont chacun au moins deux langues officielles. Cela nous poserait deux difficultés majeures : 1) il est probable que le français n’est pas la langue maternelle pour l’auteur d’un texte ; 2) il n’est pas évident si un texte est original ou traduit.

L’anglais :

Nous avions hésité entre l’anglais américain et l’anglais britanique. Le choix était facilement fait car l’accès à la presse en ligne aux Etats-Unis était limité : payant, sous condition d’enregistrement, etc, alors que l’accès est assez libre au Royaume-Uni.

Le chinois simplifié :

Il est évident que le chinois simplifié le plus représentatif et le plus vivant est en Chine continentale...

3.1.3 Quelle presse ?

Chaque presse a sa propre ligne éditoriale, et eventuellement son lectorat spécifique. Ainsi, elle a tendance à utiliser des tournures spécifiques sur certain thème. Pour équilibrer nos données, nous avons choisi pour chaque langue trois sites de journaux. Voir les critères de nos choix :

3.1.4 Quelle distribution / taille ?

Nous avons distribué des poids pour des années différentes car l’intêret pour IA a tendence d’augementer. Il est logique que 2017 a un poids plus lourd que celui de 2014.

2014 : 2015 : 2016 : 2017 = 1 : 1 : 2 : 2

Pour chaque journal, 10 unités pour 2014 est assez propre. Donc,

2014 : 2015 : 2016 : 2017 = 10 : 10 : 20 : 20

Pour chaque langue,

2014 : 2015 : 2016 : 2017 = 30 : 30 : 60 : 60

180 unités au total pour chaque langue.

De plus, il faut essayer d’équilibrer au sein d’une année.

3.1.5 Comment faire la sélection ?

2 moyens :

Utiliser la recherche avancée fournie par les sites journaux.

Unitiser la recherche avancée de Google en spécifiant le site principal, le mot-clé et la période.

IV Corpus trilingue schématisé

Dans cette partie, nous aimerons schématiser les caractéristiques de notre corpus (ou plutôt de l’archive sans prétraitement).

Journal	Accès	Périodicité	Ligne éditoriale	Format	Genre	Circulation
Le Monde	contraites de certains articles	quotidienne	centre-gauche	grand (sérieux)	généraliste	nationale
Le Figaro	contraites de certains articles	quotidienne	droite gaulliste, libérale, conservatrice	grand (sérieux)	généraliste	nationale
La Libération	contraites de certains articles	quotidienne	gauche	tablöid (mais sérieux)	généraliste	nationale
The Guardian	libre	quotidienne	social-libéralisme (centre-gauche)	grand (sérieux)	généraliste	nationale
The Daily Telegraph	libre	quotidienne	conservatrice (centre-droite)	grand (sérieux)	généraliste	nationale
Independent	libre	quotidienne	libérale (centre-gauche)	tablöid (mais sérieux)	généraliste	nationale
人民日报 People’s Daily	libre	quotidienne	Socialism with Chinese characteristics	grand (sérieux)	généraliste	nationale
中国青年报 China Youth Daily	libre	quotidienne	Non précise	grand (sérieux)	généraliste	nationale
南方都市报 Southern Metropolis Daily	libre	quotidienne	quasi-libérale	tablöid (mais sérieux)	généraliste	*in the Pearl River Delta area

* Southern Metropolis Daily est régionale mais possède une circulation plus grande que 1 million (stat 2012). Pour être comparable au niveau de ligne éditoriale, le journal est un choix imparable.

Bibliographies et références

Leech, G. (1991) "The state of the art in corpus linguistics", in Aijmer K. and Altenberg B. (eds.) English Corpus Linguistics: Studies in Honour of Jan Svartvik, pp 8-29. London: Longman.

McEnery, T., & Wilson, A. (2003). Corpus linguistics. The Oxford Handbook of Computational Linguistics, S, 448-463.

McEnery, T., Xiao, R., & Tono, Y. (2006). Corpus-based language studies: An advanced resource book. Taylor & Francis.

Rastier, F. (2005). Enjeux épistémologiques de la linguistique de corpus. La linguistique de corpus, 31-45.

Sinclair, J.(1996). Preliminary recommendations on corpus typology. EAGLES DocumentTCWG-CTYP/P (dsiponible sur http://www.ilc.pi.cnr.it/EAGLES/corpustyp/corpustyp.html).

Tartier, A.Construction et exploitation de corpus. (disponiblesur http://francia2.unideb.hu/sites/default/files/diapos_corpus.pdf).

Intelligence Artificielle

Formulaire de contact

Bilan de la phase I du projet -- Construction de corpus : méthodologie et mise en oeuvre

Total comment

Auteurs

Archives du blog

Total Pageviews

A PROPOS