Download PDF

Crossing Corpora. Modelling Semantic Similarity across Languages and Lects

Publication date: 2010-05-26

Author:

Peirsman, Yves

Abstract:

De toenemende populariteit van corpuslinguïstiek in het onderzoek van le xicale semantiek vraagt om een automatische methode voor de modellering van semantische gelijkenis. In dit proefschrift gaan wij te rade bij de computerlinguïstiek, en onderzoeken we in hoeverre de daarin ontwikkelde distributionele modellen of semantische ruimtes ons toelaten om semanti sche gelijkenis te identificeren tussen woorden uit verschillende taalva riëteiten en verschillende talen. In Hoofdstuk 2 introduceren we het paradigma van de distributionele sema ntiek. Deze benadering gaat ervan uit dat woorden die vaak voorkomen in dezelfde soort context ook een gelijkaardige betekenis hebben. We presen teren de verschillende types distributionele modellen -- woordgebaseerd, syntaxgebaseerd en documentgebaseerd -- en hun belangrijkste parameters , zoals de similariteitsmaat. We sluiten af met een overzicht van hun to epassingen in de computerlinguïstiek en cognitive science, net als hun a llereerste gebruik in de corpuslinguïstiek. Hoewel distributionele modellen vandaag in vele takken van de computerli nguïstiek onmisbaar zijn geworden, weten we relatief weinig over hun pre cieze semantische gedrag. In Hoofdstuk 3 onderzoeken we daarom wat voor semantische relaties de verschillende modellen identificeren en welke pa rameters daarbij hun succes bepalen. We focussen daarbij specifiek op he t onderscheid tussen algemene semantische gerelateerdheid, zoals we die vinden bij losse associaties van het type golf-zee, en taxonomische geli jkenis, zoals we die vinden bij synoniemen. Op basis van een uitgebreid aantal experimenten in verschillende talen concluderen we dat syntaxgeba seerde benaderingen het beste scoren op de modellering van semantische s imilariteit, terwijl documentgebaseerde methodes meer algemene gerelatee rdheid ontdekken. Woordgebaseerde modellen bevinden zich tussen deze twe e extremen: kleinere contexten zijn meer geschikt voor het modelleren va n taxonomische gelijkenis, grotere voor algemene gerelateerdheid. Omdat de rest van deze dissertatie zich toespitst op synonymie, werken we daar in vooral met syntaxgebaseerde modellen en woordgebaseerde modellen met een kleine context. In Hoofdstuk 4 tonen we hoe distributionele modellen ons kunnen helpen b ij de modellering van taalvariatie tussen verschillende taalvariëteiten of lecten. We demonstreren hoe het distributionele paradigma kan uitgebr eid worden naar situaties met twee corpora van dezelfde taal. Een eerste toepassing is de automatische identificatie van synoniemen in een ander e taalvariëteit of lect. Onze experimenten tonen dat bilectale distribut ionele modellen vaak in staat zijn om het Nederlands-Nederlandse synonie m te identificeren voor een Belgisch-Nederlands woord, of het Duits-Duit se synoniem voor een Oostenrijks-Duits woord. Een tweede toepassing is d e automatische identificatie van woorden die typisch zijn voor een speci fieke taalvariëteit. We bewijzen meer bepaald dat de identificatie van t ypisch Belgisch-Nederlandse woorden beter verloopt wanneer we zoeken naa r verschillen in contextuele distributie dan louter naar verschillen in frequentie. Het grote voordeel van de distributionele methode is dat ze ook rekening houdt met mogelijke verschillen in betekenis. In Hoofdstuk 5 breiden we onze aanpak uit naar corpora van verschillende talen. Hoewel distributionele modellen steeds vaker worden gebruikt voo r de automatische constructie van bilinguale lexicons, kampt deze toepas sing nog met een aantal problemen. Ten eerste is ze vaak afhankelijk van een initiële set vertalingen die ons moet toelaten om contextuele distr ibuties in verschillende talen te vergelijken. We vervangen die initiële set vertalingen door de woorden die gedeeld worden tussen de twee talen . Een bootstrapprocedure voegt vervolgens nieuwe vertalingen aan het bil inguale model toe, om zo tot betere vertalingen te komen. We tonen dat d eze methode goede resultaten bereikt voor woordvertalingen tussen Duits, Engels, Nederlands en Spaans. Ten tweede weten we weinig over de aanwez igheid van andere semantische relaties in de resulterende lexicons, en o ver hun mogelijke impact op cross-linguïstische toepassingen. Daarom cla ssificeren we onze kandidaat-vertalingen manueel in een groot aantal sem antische relaties. Naast cross-linguale synonymie vinden we een groot aa ntal niet-synonieme kandidaat-vertalingen die een taxonomische gelijkeni s of semantische gerelateerdheid met het oorspronkelijke woord vertonen. We evalueren de bijdrage van deze relaties in twee cross-linguïstische taken. Op de automatische identificatie van valse vrienden hebben ze een negatief effect, omdat zulke valse vrienden vaak in een andere semantis che relatie tot elkaar staan en daarom niet onderscheiden kunnen worden van cross-linguale synoniemen. Op de cross-linguïstische modellering van selectiepreferenties hebben niet-synonieme werkwoordsvertalingen eerder een positieve invloed, omdat ook zij relevante syntactische en semantis che informatie over het oorspronkelijke woord kunnen bevatten. Kortom, ons onderzoek toont hoe distributionele semantiek kan uitgebreid worden van één corpus naar twee corpora. Toegepast op corpora van versc hillende taalvariëteiten kunnen de nieuwe modellen corpus-gebaseerd onde rzoek naar taalvariatie ondersteunen; toegepast op corpora van verschill ende talen, scheppen zij nieuwe mogelijkheden voor de automatische opbou w van bilinguale lexicons en hun toepassing in cross-linguale technologi eën. Het grootste probleem van de onderzochte modellen is dat zij slecht s één betekenisrepresentatie per woord toelaten, en dus tekortschieten b ij de modellering van polyseme woorden. Samen met een uitbreiding van he t aantal onderzochte talen en taalvariëteiten vormt de aanpak van polyse mie het belangrijkste doel voor ons toekomstige onderzoek.