Feed aggregator

Oude Grieken spotten komeet Halley het eerst

Scientias.nl - 9 hours 6 min ago
In de vijfde eeuw voor Christus stortte een meteoriet in het noorden van Griekenland neer. De Grieken zagen het gebeuren en noteerden in hun geschriften tevens dat ze op hetzelfde ogenblik een komeet zagen. Uit onderzoek blijkt nu dat die komeet waarschijnlijk Halley is geweest. Daarmee zijn de oude Grieken de eersten die deze komeet [...]
Categories: Feedblock

Vogel strikt partner met optische illusie

Scientias.nl - 9 hours 51 min ago
Prieelvogels staan bekend om hun ietwat dramatische baltsgedrag en enorme constructies die ze bouwen. Wetenschappers hebben nu ontdekt dat de mannelijke vogels deze constructies zo aanleggen dat deze hen vanuit het oogpunt van het vrouwtje veel groter laten lijken. Met deze optische illusie vergroot de man zijn kans op een partner aanzienlijk. Grote prieelvogels bouwen [...]
Categories: Feedblock

10 september: Het Lieverdje is vijftig jaar oud

Geschiedenis.vpro.nl - 10 hours 11 min ago
Het is vandaag exact een halve eeuw geleden dat Het Lieverdje officieel werd onthuld. Carel Kneulman is de maker van het beeld. Als u nog eigen herinneringen heeft, kunt u die kwijt bij Plaats van Herinnering.
Categories: Feedblock

10 september: Het Lieverdje is vijftig jaar oud

Geschiedenis.vpro.nl - 10 hours 11 min ago
Het is vandaag exact een halve eeuw geleden dat Het Lieverdje officieel werd onthuld. Carel Kneulman is de maker van het beeld. Als u nog eigen herinneringen heeft, kunt u die kwijt bij Plaats van Herinnering.
Categories: Feedblock

Astronaut kiekt aarde

Scientias.nl - 10 hours 19 min ago
Astronaut Douglas H. Wheelock is een tijdje druk geweest met ruimtewandelingen en reparaties, maar heeft nu weer tijd om zo nu en dan een fabelachtig kiekje te schieten. Gelukkig vergeet Wheelock zijn roots niet en stuurt hij het resultaat dagelijks via Twitter de wereld in. Wij selecteerden een paar van zijn mooiste kiekjes voor u. [...]
Categories: Feedblock

Wetenschappers analyseren 2000 jaar oude pillen

Scientias.nl - 10 hours 41 min ago
In 130 voor Christus gaat een Grieks schip vol medicijnen en Syrisch glaswerk voor de kust van Toscane ten onder. Het wrak werd twintig jaar geleden ontdekt en nu zijn wetenschappers er eindelijk in geslaagd om de pillen te analyseren. De 2000 jaar oude tabletten blijken een mix van meer dan tien verschillende, effectieve plantenextracten [...]
Categories: Feedblock

Het Sheko: van gesproken naar geschreven taal

Kennislink taal - Thu, 09/09/2010 - 21:06

Hellenthal studeerde Afrikaanse taalkunde in Leiden. Voor haar masteronderzoek vertrok ze samen met een vriendin naar Ethiopië. Daar raakte ze gefascineerd door de verschillende talen die er gesproken worden. Het Sheko trok haar bijzondere aandacht, omdat er over die taal nog maar heel weinig was geschreven. Reden voor Hellenthal om hier een promotieonderzoek aan te wijden. Anderhalf jaar lang verbleef ze in Ethopië, waarvan negen maanden bij een gastgezin in het Sheko-gebied. Een dorpje zonder electriciteit, maar toch beviel het de promovenda goed: “De mensen waren ontzettend vriendelijk en ik kon me helemaal onderdompelen in hun taal.”

Kinderen terug van school. Afbeelding: © Anne-Christie Hellenthal

Minderheidstaal

Toen Hellenthal begon met haar onderzoek, dreigde het Sheko opgeslokt te worden door de omringende meerderheidstalen. “De meeste mensen spreken meer dan één taal: vooral in de randgebieden beheerst men meerdere talen om met andere bevolkingsgroepen te communiceren. De grote talen zijn het Amhaars en het Bench; daarbij vergeleken is het Sheko een kleine taal. Het Amhaars, de nationale taal van Ethiopië, wordt door 18 miljoen mensen gesproken. Het Sheko heeft maar zo’n 37.500 sprekers.”

Bovendien was het Sheko alleen een gesproken taal. Schoolgaande kinderen leerden wel schrijven, maar dan in het Amhaars. Er bestond dan ook nog geen grammatica van de taal. Met haar promotieonderzoek bracht Hellenthal daar verandering in. “Mijn grammatica is zeker niet volledig, maar ik heb wel geprobeerd zoveel mogelijk aspecten van de taal te beschrijven.”

Tonen en ideofonen

Maar wat maakt het Sheko eigenlijk zo bijzonder? Waarin wijkt het bijvoorbeeld af van het Nederlands? Als eerste noemt Hellenthal het gebruik van tonen in de taal. "Het Sheko is een toontaal. Wat op zich niet heel bijzonder is: ruim de helft van alle talen ter wereld is een toontaal. In een toontaal kunnen woorden met dezelfde letters van elkaar verschillen in betekenis, door het verschil in toon. Neem bijvoorbeeld het woord xhaaru. Dat kun je met verschillende tonen uitspreken. Bij de ene uitspraak betekent het ‘waterval’, bij een andere ‘medicijn’ en bij weer een andere ‘tweeling’.” Een ander opvallend verschijnsel is het gebruik van ideofonen. Daar hebben wij er ook een paar van in onze taal: voorbeelden zijn brrr of boem. “In het Sheko worden dit soort woorden veel vaker gebruikt dan in het Nederlands. Wanneer ik tegen een Sheko zeg: hij zei xhiiiiiii, dan roept dat een bepaalde emotie op. Het betekent: hij was stil. Het gaat erom dat je een belevenis kunt oproepen en delen met je gesprekspartner.”

Eerste poging tot een alfabet voor het Sheko. Afbeelding: © Anne-Christie Hellenthal

Grammatica

Hellenthal ontdekte ook nog een verschijnsel dat maar in heel weinig talen voorkomt. “In een normale zin in het Sheko wordt het onderwerp – ik, hij of zij – aan het werkwoord geplakt. Maar als je nadruk wil leggen, verschuift dit stukje van het werkwoord naar dat woord in de zin dat de nadruk krijgt. Het heeft daarmee dus een extra functie gekregen, vergelijkbaar met de klemtoon in het Nederlands.”

Met deze ontdekking heeft Hellenthal de taalwetenschap weer een stukje verder geholpen. Maar veel belangrijker vindt de onderzoekster het dat de mensen in het Sheko-gebied iets aan haar proefschrift hebben. Trots zijn ze in ieder geval wel op hun grammatica, vertelt Hellenthal: “Gek genoeg hebben veel mensen het idee dat hun taal geen grammatica heeft zolang er geen boek is.” Denkt ze ook dat haar grammatica heeft bijgedragen aan de overlevingskansen van het Sheko? De onderzoekster durft niet te spreken van een direct verband, maar ze is wel hoopvol gestemd over de toekomst van het Sheko. Dat komt omdat het Sheko hard op weg is een geschreven taal te worden.

Moedertaalonderwijs

En ook daar is Hellenthal nauw bij betrokken. Onlangs startte de Ethiopische overheid een project dat als doel heeft moedertaalonderwijs in het Sheko mogelijk te maken. De onderzoekster werd gevraagd samen met de lokale bevolking een spelling te ontwerpen. “Er moest eerst gekozen worden voor Amhaarse of de Latijnse letters zoals wij ze kennen. De Sheko kozen voor het Latijnse alfabet. Maar omdat het Sheko klanken kent die niet voorkomen in de westerse talen, moesten er ook nieuwe letters ontworpen worden. Binnenkort vertrek ik weer naar Ethiopië. Dan assisteer ik in een workshop waarin de sprekers ontdekken hoe hun eigen grammatica in elkaar zit. Zo leren ze een natuurlijk verband te leggen tussen de gesproken en de geschreven taal.”

Sheko discussieren over spelling. Afbeelding: © Anne-Christie Hellenthal

De onderzoekster verwacht in ieder geval veel van dit project. “Als deze mensen de mogelijkheid krijgen in hun eigen taal onderwijs te volgen, vergroot dat de kans dat ze hun school afmaken. Dat zorgt ervoor dat ze zich verder gaan ontwikkelen. Maar ook voor zaken als aids en hygiëne is moedertaalonderwijs van belang. Als ze hierover voorgelicht worden in hun eigen taal, het Sheko, landt het veel beter.”

Zie ook:

Stimulans voor Leidse talenstudies
Dossier: Bedreigde talen

Categories: Feedblock

Fries leren tot in Kroatië

Kennislink taal - Thu, 09/09/2010 - 21:06
Fryske Akademy

In de recente berichtgeving van afgelopen week over de studie Fries in onder meer De Telegraaf, het Nederlands Dagblad, Trouw, en De Volkskrant, wordt de indruk gewekt dat het alleen in Groningen (hoofdvak) en Amsterdam (minor) mogelijk is om Fries te studeren. Dat is onjuist. Sinds 1950 onderhoudt de Leidse universiteit een bijzondere leerstoel Friese Taal en Letterkunde. Aanvankelijk werd deze leerstoel bekostigd door de provincie Friesland. Sinds jaar en dag is de Fryske Akademy in Leeuwarden er verantwoordelijk voor, samen met de Leidse Faculteit der Geesteswetenschappen. Gezien de omvang van de leerstoel (0,1 fte), is het aanbod van cursussen klein. De belangstelling is echter groot.

Oudfries

Leerstoelhouder prof.dr. Rolf Bremmer, hoogleraar Oud-Engels én Fries: “Elk jaar bied ik een cursus aan. De ene keer is dat een inleiding in de middeleeuwse Friese taal en cultuur, de andere keer een overzicht van de lotgevallen van het Fries door de eeuwen heen.” Het gaat in eerste instantie om onderwijs op bachelorniveau, maar met een verzwaarde leeslijst en een groter werkstuk kunnen masterstudenten ook meedoen. “Dit jaar was Oudfries aan de beurt. Ik had een groep van twaalf enthousiaste cursisten.”

Verscheidenheid

“Organisatorisch valt de leerstoel onder de opleiding Nederlands, maar studenten komen uit allerlei hoeken, niet alleen van Nederlands, Engels, Duits en geschiedenis, maar ook van Japans, sociologie en archeologie. Die verscheidenheid maakt de wekelijkse bijeenkomsten zeer levendig.” De cursussen worden steevast afgesloten met een eendaags bezoek aan Leeuwarden. “Het is verbazingwekkend hoeveel studenten nog nooit in Fryslân zijn geweest.”

Buitenland

Interesse voor de Leidse frisistiek komt ook uit het buitenland. Bremmer: “Dit jaar heb ik een cursus Oudfries aangeboden in het kader van de Leidse zomerschool voor talen en taalkunde. In een intensief programma van twee weken hebben – alweer – twaalf studenten uit allerlei landen, variërend van de VS tot Zweden en van Kroatië tot Engeland, de kneepjes van het vak geleerd. De gretigheid waarmee ze de stof opnamen en verwerkten was heel aanstekelijk. Ook al is de Leidse voorziening klein, in een half jaar 24 studenten afleveren die een cursus Oudfries hebben gevolgd, kan een vergelijking met Groningen en Amsterdam samen makkelijk doorstaan.”

Zie ook:
Categories: Feedblock

Een vriendelijk gebaar

Kennislink taal - Thu, 09/09/2010 - 21:06

Iedereen gesticuleert tijdens het spreken. Sommigen wat meer dan anderen, maar iedereen maakt gebaren als hij iets zegt. Als je dit niet zou doen, zou je er erg onnatuurlijk -als een robot- uitzien. Veel betekenis hebben de gebaren meestal niet, maar dat betekent niet dat ze volstrekt willekeurig zijn. Promovendus Gianluca Giorgolo onderzocht aan welke regels de gesticulaties moeten voldoen. Hij verwerkte deze do’s and don’ts in een computermodel. Met dit model zal de communicatie tussen mens en computer in de toekomst natuurlijker kunnen verlopen.

Cilinder

De eerste regel die Giorgolo ontdekte houdt in dat de gebaren die we maken altijd samenvallen met onze spraak. Een gebaar dat niet op het juiste moment wordt gemaakt -al zit het er maar 250 milliseconde naast- komt meteen onnatuurlijk over bij de toehoorder. Daarnaast stelde Giorgolo vast dat lang niet alle woorden of woordgroepen geschikt zijn om bij te gebaren. “Alleen woorden met in hun betekenis een ruimtelijke eigenschap kunnen gepaard gaan met een gebaar”, aldus de onderzoeker. “Bij woorden als ‘slaan’, ‘fles’ of ‘naast’ kan een gebaar de betekenis verbeelden of zelfs extra informatie toevoegen, zoals de manier van slaan of de vorm van de fles.” Bij abstracte woorden (zoals ‘rood’ of ‘droom’) en functiewoorden (zoals ‘de’) gesticuleren de meeste mensen niet.

Greta is de avatar die Gianluca Giorgolo ontwierp voor zijn onderzoek. Het model is ontwikkeld door Telecom Paristech, zelf voegde hij daar de automatische spraak- en gesticulatie-generatie aan toe.

Giorgolo ontdekte ook dat alleen individuele objecten of hun eigenschappen gegesticuleerd kunnen worden, en niet woorden die een hele categorie objecten omvatten, zoals ‘iedereen’ of ‘elke box’. In een experiment liet de onderzoeker een poppetje op de computer het gebaar van een cilinder maken bij de zin ‘Elke box staat op de tafel’. De proefpersonen negeerden het gebaar en kregen niet mee dat de boxen een cilindrische vorm hadden. Bij de zin ‘Drie boxen staan op de tafel’ kwam deze extra informatie wel over. “Het lijkt erop dat we bepaalde combinaties van woord en gebaar niet kunnen verwerken”, aldus Giorgolo.

Intelligente apparaten

De resultaten van zijn onderzoek heeft Giorgolo verwerkt in een poppetje op de computer, een avatar. De onderzoeker verwacht dat met name de gamesindustrie veel baat kan hebben van zijn onderzoek. “Gamers verwachten steeds meer interactiviteit in hun spellen”, legt hij uit. “Het gebruik van natuurlijke taal in computerspellen neemt toe en de mogelijkheid om automatisch gegenereerde gebaren hier aan toe te voegen, zou de ervaring nog realistischer maken.” Giorgolo’s model werkt overigens ook de andere kant op: de computer kan ook gebaren van mensen interpreteren. “Zo kunnen we ‘intelligente’ apparaten niet alleen besturen met onze stem, maar ook met onze gebaren.”

Gianluca Giorgolo verdedigt woensdag 15 september zijn proefschrift ‘Space and Time in our Hands’ aan de Universiteit Utrecht.

Zie ook:
Categories: Feedblock

Eh…eh… ah! Vreemde klinkers leren produceren

Kennislink taal - Thu, 09/09/2010 - 21:06

Kleine potjes hebben grote oren. Baby’s kunnen heel goed verschillen horen tussen spraakklanken die voor volwassenen allemaal hetzelfde klinken. Als we eenmaal onze moedertaal geleerd hebben, zijn we een stuk minder gevoelig voor kleine klankverschillen die we in onze moedertaal niet gebruiken. Dat is lastig als we er op latere leeftijd, bijvoorbeeld op de middelbare school of daarna, een taal bij willen leren. We horen dan bijvoorbeeld niet goed het verschil tussen onze eigen Nederlandse oe in voel en de twee verschillende oe-klanken in de Engelse woorden full (=totaal) en fool (=dwaas).

Afbeelding: © flickr: melodramababs

Volwassen Nederlanders horen ook niet goed het verschil tussen de klinkers in de Engelse woorden bed (=bed) en bad (=slecht), die voor ons beide klinken als het Nederlandse bed. Omdat we de verschillen tussen de klinkers in de vreemde taal niet scherp horen, kunnen we die klinkers vaak ook niet uitspreken zoals het hoort. Daardoor spreken we de vreemde taal met een Nederlands accent (bv. steenkolenengels) en zijn we niet altijd goed verstaanbaar. Dat overkomt niet alleen Nederlanders die een vreemde taal spreken, maar natuurlijk ook buitenlanders die Nederlands moeten leren.

De uitspraak van klinkers

We kunnen met onze mond en keel (samen noemen we dat de spraakorganen) heel veel verschillende geluiden maken. We kunnen fluiten, sissen, neuriën, fluisteren, en nog veel meer. Sommige van deze geluiden gebruiken we in talen, andere weer niet. Geluiden die we in talen gebruiken, verdelen we onder in klinkers en medeklinkers. Bij medeklinkers, zoals p of k, wordt de luchtstroom in de mond of keel hoorbaar belemmerd. Bij klinkers, zoals de aa, stroomt de lucht ongehinderd door keel en mond.

Klinkers verschillen van elkaar in klankkleur en in duur. Een klinker korter of langer aanhouden is niet zo moeilijk, maar hoe maken we de verschillende kleuren? De klankkleur van een klinker wordt bepaald door de vorm van onze ‘klankkast’ (net als bij een muziekinstrument). Die klankkast bestaat uit de mond- en de keelholte (en soms ook de neusholte, maar die laten we even buiten beschouwing). We veranderen onze mond- en keelholte van grootte en vorm door de mond meer of minder ver open te zetten, door de tong naar voren te duwen of naar achter te trekken, en door de lippen te tuiten of te spreiden. Kleurloos basisgeluid dat we maken in ons strottenhoofd krijgt zijn kleur door de resonantie (galm, weerkaatsing) in de keel- en mondholte.

Figuur 1. Tongcontouren voor acht klinkers. Stippen geven de vernauwingsplaats van elke klinker aan.

De resonantie hangt samen met de zogeheten vernauwingsplaats; dat is de plaats waar de tong in onze mond of keel het dichtst in de buurt komt van het gehemelte of de keelwand. In Figuur 1 staan acht tongcontouren over elkaar heen getekend, die zijn overgetrokken van röntgenfoto’s. Het zijn de klinkers ie (biet), ee (beet), e (bed), aa (baat), a (bad), o (bot), oo (boot) en oe (boek). In iedere contour is met een stip de vernauwingsplaats voor een klinker aangegeven, en die is voor elke klinker uniek. Bij de vernauwing wordt het mond-keelkanaal verdeeld in een voorste en een achterste holte, ofwel de mondholte en de keelholte. Mond- en keelholte hebben geen vaste afmetingen maar worden korter of langer afhankelijk van waar de vernauwingsplaats zit. Hoe groter – en vooral langer – een holte, des te lager zijn resonantiefrequentie.

Een landkaart: de klinkerdriehoek

Elke klinker die uit onze mond komt, heeft een unieke klankkleur die wordt bepaald door de resonantiefrequenties van de keelholte en van de mondholte, die we respectievelijk F1 en F2 noemen. Die resonantiefrequenties (of formanten, vandaar: F1 en F2) kunnen we meten. We tekenen vervolgens een landkaart waarin de F1 van boven naar beneden loopt (van 200 naar 800 Hertz) en de F2 van rechts naar links (van 600 tot 2400 Hertz). Daarin plaatsen we elke klinker op de plek die wordt bepaald door zijn gemeten F1 en F2. We krijgen dan Figuur 2. Zoals Leiden op de landkaart ligt bij 52 graden noorderbreedte en 4 graden oosterlengte, zo ligt de ie bij een F1 van 200 Hz en een F2 van 2400 Hz. Met zijn drieën vormen de ie, oe en aa de hoekpunten van een driehoek die (volgens de theorie) de uiterste begrenzing vormt voor menselijke klinkergeluiden. Dat wil zeggen dat iedere klinker, uit welke taal dan ook, een plek krijgt binnen deze driehoek.

Figuur 2. De twaalf Nederlandse zuivere klinkers ingetekend in een landkaart gedefinieerd door resonantiefrequentie van keel (F1) en van mond (F2): van links naar rechts en van boven naar beneden ie, uu, oe, ee, i, eu, u, oo, o, e, a, aa.

Klinkers kunnen we ook maken op bestelling. Dat gaat met spraaksynthese. We kunnen een willekeurige klinker maken door een plek aan te wijzen op de landkaart van Figuur 2, en dan in synthetische spraak horen wat voor klankkleur dat oplevert. Als je nu zou proberen deze klinker na te spreken, en je imitatie weer op de landkaart laat tekenen, dan kun je aan de afstand tussen de plaats van het voorbeeld en die van je imitatie zien hoe goed je het hebt gedaan. Zit je klinker dicht bij het doel, dan is het een goede imitatie (en horen we geen verschil met het voorbeeld). Zit je klinker er een eind vanaf, dan is de imitatie slecht. Van dit soort visuele feedback op de uitspraak (de afstand tussen doel en imitatie) kunnen we gebruikmaken in het onderwijs van vreemde talen, en van het Nederlands voor buitenlanders.

Eerste hulp bij de uitspraak van klinkers

Het programma KlinkerMikken, ontwikkeld door onderzoekers van de Universiteit Leiden, demonstreert hoe visuele feedback je uitspraak van klinkers kan (bij)sturen. De onderzoekers hebben de hoorbare klankkleuren vertaald in visuele kleuren. De hoekpunten van de klinkerdriehoek hebben de drie primaire kleuren gekregen: de ie is blauw, de oe is rood en voor de aa is geel gekozen. Halverwege rood en geel zit oranje. Halverwege blauw en geel zit groen en midden tussen blauw en rood zit paars. Enig idee welke klinkers we dan horen bij deze kleuren? En wat voor klinker krijgen we als we de drie basiskleuren in gelijke hoeveelheid mengen? We zitten dan precies in het midden van de driehoek. We horen dan de e van de, en dat is precies het geluid dat we voortbrengen als we niet weten hoe het verder moet (als we aarzelen of stamelen: eh of uh). Het programma is bedoeld om te helpen de kleur van de buitenlandse klinkers goed te horen en precies te imiteren. Daarmee willen we Nederlanders helpen hun uitspraak van vreemde talen te verbeteren, en ook om buitenlanders te helpen het Nederlands beter uit te spreken.

Hebben we dan in de toekomst nog wel een docent nodig voor de klas, of kunnen we toe met een spraakcomputer en een klinkerdriehoek? Zover is het voorlopig nog lang niet. KlinkerMikken is een voorbeeld van wat wel Computer-Assisted Language Learning (CALL) wordt genoemd. De naam zegt het al: de computer wordt ingezet om te helpen (Engels assist) bij het leren van talen (language learning). Door die hulp van de computer wordt het een stuk makkelijker om ook buiten het klaslokaal talen te leren, en het leerproces wordt er ook interactiever van. Maar KlinkerMikken gaat maar over een heel klein stukje van wat je moet kunnen als je een vreemde taal leert. Naast een goede uitspraak van de klinkers moeten uiteraard de medeklinkers niet vergeten worden. Die klanken worden dan bij voorkeur uitgesproken in woorden, waarvan je moet weten wat ze alleen en in combinatie betekenen. Vervolgens moeten die woorden achter elkaar gezet correcte volzinnen vormen, en zo kunnen we nog wel even doorgaan. Toch kan de docent wel zijn voordeel doen met toepassingen als KlinkerMikken: nu hoeft hij tenminste niet meer zelf te luisteren naar ál je pogingen om de Engelse woorden bad en bed verschillend uit te spreken!

Lees ook:

Leer je klinkers kennen (Kennislinkartikel)
Wat zingt de operazangeres? (Kennislinkartikel)

Categories: Feedblock

Computer neemt de telefoon op bij de politie

Kennislink taal - Thu, 09/09/2010 - 21:06

In 2009 kwamen ruim 2,4 miljoen telefoontjes binnen bij de KLPD vanaf mobiele telefoons. Al deze bellers moesten door een telefoniste doorverbonden worden met een lokaal politiebureau. Dit had niet alleen flinke wachtrijen tot gevolg, maar ook oplopende kosten voor het telefooncentrum van de KLPD. Met het nieuwe spraakherkenningssysteem zijn de wachtrijen verleden tijd en bespaart de politie 800.000 euro per jaar.

Meldkamer van de politie.

Akoestische gegevens

Toen de politie begon met het landelijke nummer 0900-8844 belden de meeste mensen nog vanaf hun vaste telefoon. Aan de hand van hun kengetal werden deze mensen automatisch doorverbonden met het dichtstbijzijnde politiebureau. Tegenwoordig is dat meestal niet meer mogelijk; het 06-nummer biedt immers geen indictie van de locatie van de beller. Om de burger beter van dienst te zijn en om kosten te besparen heeft de politie de hulp ingeroepen van Newtel Essence en Telecats. Telecats levert de spraakherkenningsoftware en Newtel Essence verzorgt het doorschakelsysteem.

De spraakherkenner van Telecats is getraind met de namen van alle plaatsen in Nederland. Niet alleen de officiële namen zijn hierin opgenomen, maar ook allerlei variaties hierop; alle namen zoals de telefonistes ze in het dagelijks leven langs horen komen. De computer vergelijkt de plaatsnaam die de beller noemt met de akoestische gegevens in het systeem. Als hij zeker is dat hij de beller goed verstaan heeft, schakelt hij hem door. Zo niet, dan krijgt de beller alsnog een menselijke telefoniste aan de lijn.

Succes

Het spraakherkenningssysteem draait nu twee maanden en de politie is erg positief over het nieuwe systeem. “Het is allemaal heel voortvarend verlopen”, aldus Roland van Veen, werkzaam bij Politie Nederland. “De eerste tekenen van succes waren er overigens al heel vroeg. Gedurende de Proof of Concept, waaraan alle politiekorpsen en een burgerpanel deelnamen, bleek dat spraakherkenning een goede keuze is. Sinds de invoering is de politie onverdeeld van mening dat spraakherkenning aan de beide wensen voldoet: verbetering van de dienstverlening aan de burger en kostenbesparing voor de Nederlandse politie.”

Lees ook:
Categories: Feedblock

Stimulans voor Leidse talenstudies

Kennislink taal - Thu, 09/09/2010 - 21:06

Taalkundig Leiden gaat zich de komende jaren meer als een geheel profileren. “We willen meer kruisbestuiving tussen de verschillende taalkundige disciplines”, aldus Maarten Mous, hoogleraar Afrikaanse taalkunde en directeur van het Leidse onderzoeksinstituut LUCL. “Op die manier kunnen alle disciplines zich vernieuwen”.

Prof. dr. Maarten Mous

En dat is wat er de komende jaren gaat gebeuren. De universiteit heeft nog niet zolang geleden twaalf onderzoekslijnen aangewezen waarmee zij zich wil onderscheiden van andere universiteiten. Een ervan is Language Diversity in the World. Een opsteker voor de Leidse talenstudies: “Eindelijk erkenning dat de diversiteit aan talen die in Leiden bestudeerd wordt, uniek is”.

Van Afrikaanse talen tot Welsh

Het onder de aandacht brengen van de profileringsgebieden was in eerste instantie een kwestie van PR, zoals extra vermelding op de universiteitswebsite. Nu komen er ook universitaire gelden beschikbaar voor onderzoek. Mous: “Dat is een flinke stimulans voor de talenstudies. Per september komt er geld vrij voor drie aio’s, volgend jaar komen daar nog eens twee aio-posities bij. Daarnaast is er materieel budget voor het organiseren van symposia en dergelijke. De bestaande activiteiten van het onderzoeksinstituut worden ermee ondersteund en eind november komt er een publiekssymposium over tweetaligheid.”

In de nieuwe aio-projecten komen verschillende onderzoeksdisciplines samen. Zoals in het project over de woordvolgordeveranderingen in het Welsh. Dat is een samenwerking tussen Indo-Europese taalkunde en Moderne taalkunde: “Moderne syntactische theorieën worden toegepast op historisch taalmateriaal om taalverandering te verklaren”, aldus Mous. Of het project waarin Slavische talen, zoals het Russisch of het Pools, centraal staan. In dit geval worden Slavische talen gekoppeld aan semantiek. “Typerend voor de Slavische talen is dat je geen tijd uitdrukt, maar aspect. Aspect geeft het begin of het eind van een gebeurtenis weer. Zoals in het Nederlands het voltooid aspect aangeeft dat een gebeurtenis afgelopen – voltooid – is.”

“Het laatste project kijkt naar woordgeslacht in Afrikaanse talen. Die wijkt af van het Nederlands: wij delen de naamwoorden in naar mannelijk, vrouwelijk en onzijdig. Bij bepaalde Afrikaanse talen bestaat er naast een mannelijke en een vrouwelijke uitgang, ook een meervoudsuitgang. Dat is een vreemd verschijnsel. Door standaardmethoden te gebruiken uit de psycholinguïstiek, willen we onderzoeken hoe deze categorie is opgeslagen in de hersenen van gebruikers van deze Afrikaanse talen.”

De Faculteit der Geesteswetenschappen in Leiden.

Serieus onderzoek

De talenstudies lijken dus weer in de lift te zitten, nadat ze nog niet zo lang geleden hard werden getroffen door een flinke bezuinigingsronde van de universiteit. “We hebben een aantal specialismen moeten opgeven, zoals de Altaïsche talen (o.a. het Turks), de Tibetaanse talen en de computationele taalkunde. Deze pijnpunten proberen we nu langzaamaan te herstellen.” Maar de huidige aandacht voor de Leidse talenstudies laat volgens Mous zien dat het universiteitsbestuur hart heeft voor de talen. “Het is een opsteker, vooral voor het gevoel binnen de afdelingen. Het laat zien dat ons onderzoek serieus wordt genomen.” Mous kan daar nog een mooi nieuwtje aan toevoegen: “In 2011 mogen we een nieuwe track toevoegen aan onze bachelor taalwetenschap. In de nieuwe opleiding Taalwetenschap zullen we aandacht besteden aan de taalkundige kant van communicatie.”

Categories: Feedblock

Quizcomputer Watson doet mee aan tv-show

Kennislink taal - Thu, 09/09/2010 - 21:06

In de categorie ‘Tweeletterwoorden’: ‘De naam van dit dier bestaat uit de knuffel en het kusje onderaan een brief’. Binnen een fractie van een seconde drukt een van de Jeopardy!-kandidaten op de knop om vervolgens het juiste antwoord te geven. “Wat is een ‘ox’?”1 De andere twee kandidaten van de populaire Amerikaanse spelshow hebben het nakijken. Bij de volgende opgave maken zij opnieuw kans om als eerste de juiste vraag bij de gegeven beschrijving te geven. Bij dit spel draait het niet om de antwoorden, maar om de vragen. De vraag is het antwoord.

Winnaars van Jeopardy! staan in hoog aanzien in Amerika. Zij hebben aangetoond te beschikken over encyclopedische kennis en kunnen deze ook nog eens onder grote tijdsdruk inzetten. De spelshow is in Amerika al sinds 1964 op de buis. Dagelijks kijken er zo’n 9 miljoen Amerikanen naar. Dit is hét programma, moet IBM gedacht hebben, om onze nieuwste technieken weer eens flink in de spotlight te zetten.

Speciale zoekmachine

In 1996 was het Deep Blue waarmee IBM alle kranten haalde. Deze schaakcomputer speelde zo goed dat hij won van Garri Kasparov, op dat moment een van de beste schakers ter wereld. Niemand had gedacht dat een computer hiertoe in staat zou zijn. Het leverde IBM veel aanzien en media-aandacht op, maar veel rijker werden ze niet van Deep Blue. De markt voor schaakcomputers -of de techniek die erachter schuilgaat- is nu eenmaal niet bepaald groot. IBM hoopt dat het komend najaar anders zal lopen. Hun computer Watson zal als kandidaat meespelen in Jeopardy! En nadat hij -hopelijk- de wereld versteld heeft doen staan, zal de IBM-kassa flink rinkelen. Er is immers veel vraag naar goede zoekmachines.

Watson is een zogeheten vraag-antwoordsysteem, een speciaal soort zoekmachine. Hij geeft je niet, zoals Google, een lijst met documenten waarin je het juiste antwoord wellicht kunt vinden. In plaats daarvan probeert hij direct het juiste antwoord op je zoekvraag te vinden. In het geval van Jeopardy! zal hij dus op basis van de aanwijzing die de presentator geeft de juiste vraag proberen af te leiden.

Net als de levende kandidaten mag Watson tijdens het spel geen gebruik maken van internet. In plaats daarvan gaat hij op zijn harde schijf op zoek naar het juiste antwoord. Op deze harde schijf staan tientallen miljoenen documenten opgeslagen. Dit zijn niet alleen woordenboeken en encyclopedieën, maar ook romans, toneelstukken, de bijbel en vele andere naslagwerken.

Associaties

Wetenschappers zijn al jaren bezig met de ontwikkeling van computers die op feitelijke vragen antwoord kunnen geven. Tot nu toe met weinig succes, met name doordat menselijke taal zo ingewikkeld is voor een computer. Daarnaast is het een onmogelijke taak gebleken om alle feiten van de wereld met al haar onderlinge verbanden in kaart te brengen. Een systeem was dus nooit compleet. De laatste jaren proberen onderzoekers een andere aanpak die betere resultaten lijkt te boeken. Met de statistische methode berekent de computer nu welke woorden waarschijnlijk met elkaar te maken hebben. De kans is groot dat woorden die vaak in elkaars buurt voorkomen aan elkaar gerelateerd zijn.

Ook Watson maakt gebruik van deze statistische methode. Hij is zo’n duizend keer sneller dan de gemiddelde computer en beschikt over een gigantisch geheugen, waardoor hij duizenden berekeningen tegelijkertijd kan uitvoeren. Deze berekeningen leveren honderden mogelijke antwoorden op die geclassificeerd worden tot een top 5. Alleen als Watson zeker genoeg is van zijn nummer 1-antwoord drukt hij op de knop en gaat hij voor de punten.

De Nijmeegse Suzan Verberne is afgelopen voorjaar gepromoveerd op haar onderzoek naar antwoordsystemen. Het systeem dat zij ontwikkelde is een combinatie van de ‘oude’ regelgebaseerde methode en de ‘nieuwe’ statistische methode. Haar promotor Lou Boves denkt dat een dergelijke combinatie het beste systeem op zal leveren. “Alleen met regels zal het nooit werken. Daarvoor is er in taal teveel mogelijk wat nooit allemaal beschreven kan worden”, aldus Boves. “Maar de statistiek kan wel geholpen worden door regels, door bijvoorbeeld de meest-belovende eenheden te gebruiken, zoals het onderwerp en het lijdend voorwerp in de zoekvraag.”

Zenuwen

Of Watson een reëele kans maakt om te winnen valt nog te bezien. Toen IBM drie jaar terug begon met de ontwikkeling van Watson, verloor hun beste systeem nog van alle eerdere winnaars van Jeopardy! In 2008 bevond Watson zich al tussen de beste winnaars aller tijden, maar tegen Ken Jennings, de beste speler ooit, maakte hij nog altijd geen schijn van kans. Wie Jeopardy! als tegenspeler voor Watson kiest is nog onbekend, maar aangezien Jennings niet met de media mag spreken, kan Watson het waarschijnlijk nog knap moeilijk gaan krijgen.

Hoe kan het dat een supercomputer van een mens kan verliezen? Ten eerste op snelheid. Kandidaten mogen pas reageren als de presentator de gehele aanwijzing heeft voorgelezen –- gemiddeld na zo’n 7 seconden. Mensen denken vliegensvlug, maar een normale computer kan uren over een dergelijke berekening doen. Watson mag dan razendsnel zijn, maar korte aanwijzingen zullen toch een probleem voor hem zijn. Daarnaast zal ook het type aanwijzing bepalen of Watson er mee uit de voeten kan. Met name cryptische hints zijn voor een computer erg moeilijk te doorgronden. Ook woordgrapjes zullen om dezelfde reden erg lastig zijn. Watson hoeft zich daarentegen geen zorgen te maken om zenuwen.

IBM heeft Watson onder leiding van David Ferrucci in drie jaar ontwikkeld. Watson zal niet achter de desk voor de Jeopardy!-kandidaten passen; hij neemt een hele kamer aan servers in beslag.

Lotto-uitslag

Of Watson nu zal winnen of verliezen, IBM maakt het niet zo heel veel uit. Zij denken dat ze sowieso goede sier zullen maken met de prestaties van hun machine. Binnen twee jaar verwachten ze een commerciële versie van Watson op de markt te kunnen brengen die overal kan worden ingezet waar onder grote tijdsdruk beslissingen genomen moeten worden op basis van grote hoeveelheden data. Dit kan bijvoorbeeld op de beurs zijn, maar ook bij een helpdesk, een advocatenkantoor of zelfs in een ziekenhuis. De commerciële Watson zal in het begin nog een paar miljoen dollar kosten, maar IBM voorspelt dat hij over 15 jaar op elke laptop zal draaien.

Niet iedereen is even enthousiast over Watson als IBM. Critici wijzen erop dat de vraag-antwoordmachine geen afspiegeling is van de menselijke geest en dat zijn beslissingen dus ook niet te vertrouwen zijn. Menselijke kennis bestaat uit meer dan woorden alleen, dus het kan volgens hen heel gevaarlijk zijn als we onze economie of gezondheid aan de handen van zo’n computer toevertrouwen. Daarnaast zal Watson alleen antwoord kunnen geven op vragen over objectieve feiten. Hij zal niet de Lotto-uitslag kunnen voorspellen of een oplossing voor de problemen in het Midden-Oosten kunnen aandragen.

Ook de Nijmeegse hoogleraar Lou Boves vraagt zich af hoeveel betekenis in tekst alleen schuilgaat. “Hoeveel kun je leren door alleen maar teksten te lezen, dus zonder fysieke ervaringen?” vraagt hij zich af. “Jeopardy! zou wel eens een toepassing kunnen zijn waar je weinig fysieke ervaring voor nodig hebt, omdat het grotendeels over triviale feitenkennis gaat.”

Ondertussen oefent Watson onvermoeibaar door tegen menselijke tegenspelers in een nagebouwde Jeopardy!-studio in een IBM-kantoor. Slechts weinigen kunnen van hem winnen. En elke keer dat de computer nieuwe documenten gevoerd wordt, speelt hij weer een beetje beter. Het zal dus spannend worden dit najaar. Zal Watson op televisie als winnaar uit de bus zal komen? De media-aandacht heeft IBM in elk geval al binnen.

1 Onderaan brieven en mails staan soms x-en en o’s, die respectievelijk staan voor kusjes en knuffels. Samen vormen ze het Engelse woord voor ‘os’.

Lees ook:
Categories: Feedblock

Pictische stenen onthullen mogelijk geschreven taal

Kennislink taal - Thu, 09/09/2010 - 21:06

Pictische stenen worden gevonden in Schotland. Ze zijn versierd met gegraveerde symbolen en zijn afkomstig uit de zesde tot en met de negende eeuw. Al jaren breken onderzoekers zich het hoofd over de vraag wat deze symbolen betekenen. En nog steeds is niet helemaal duidelijk wat er achter de tekens schuilgaat. Wel denken Britse onderzoekers nu bewijs te hebben gevonden dat de symbolen deel uitmaken van een echt schrijfsysteem, vergelijkbaar met het hiërogliefenschrift.

De stammen van de Picten leefden van ongeveer 300 tot 843 in Schotland en werden geregeerd door koningen. Het meeste over deze stammen is bekend door archeologische vondsten en door geschriften van volkeren die met de Picten in aanraking kwamen, zoals de Romeinen, de Angelsaksen en de Ieren. Zelf lieten de Picten geen geschriften na. Althans, dat is wat men lange tijd dacht. De Pictische stenen zouden immers geen echt schrift bevatten.

De Romeinen gaven de stammen die zij aantroffen in Schotland de naam Picten vanwege hun (blauwe) tagoeages. Picti betekent ‘geverfden’. De eerste vermelding van deze naam is uit 297 na Christus. De foto is afkomstig van de film Centurion, die verhaalt over de strijd tussen de Romeinen en de Picten.

Symbolen of taal

Er zijn slechts een paar honderd overgebleven Pictische stenen. Op sommige stenen zijn symbolen gekerfd als reliëf. Ook zijn er veel christelijke motieven zoals een kruis te vinden op de stenen. Onderzoekers hebben zich lang afgevraagd wat die symbolen precies betekenen. Van recenter datum is de vraag of het gaat om louter symbolen of dat we te maken hebben met echte teksten die een heel eigen taalsysteem onthullen. Deze discussie is niet uniek. Ook het schrift op de kleitabletten uit de Indusbeschaving dat 4000 jaar geleden gebruikt werd in Zuid-Azië, is een niet-ontcijferd schrift waarvan onbekend is of het gaat om louter symbolen of taal. Het probleem met dit soort schrift is dat er slechts fragmenten van zijn overgeleverd. Dat maakt het lastig voor onderzoekers een systematiek te ontdekken.

Wiskundige formule

Een team van Britse taalkundigen, onder leiding van professor Rob Lee van de universiteit in Exeter (Zuid-Engeland), berekende met een wiskundige formule hoe willekeurig of onwillekeurig de Pictische symbolen zijn geordend. Daarbij werd de dataset van Pictische symbolen vergeleken met datasets van andere geschreven talen, zoals Egyptische hiërogliefen, Chinese en Latijnse teksten. De Pictische symbolen lieten overeenkomsten zien met teksten die gebaseerd zijn op gesproken taal.

Bron: Wikipedia

De uitkomsten staan gepubliceerd in een recent gepubliceerd artikel in de Proceedings of the Royal Society. “Het is buitengewoon onwaarschijnlijk dat de volgorde van de symbolen op de Pictische stenen willekeurig is”, schrijven de onderzoekers daar. Dat maakt het onwaarschijnlijk dat het louter symbolen zijn. De redenering is als volgt. Als de symbolen willekeurig waren opgeschreven, zou het onwaarschijnlijk zijn dat ze deel uitmaken van een echt taalsysteem. Elk taalsysteem is gebaseerd op regels. Als er een duidelijke orde bestaat in de opeenvolging van de symbolen, wijst dit op geschreven taal.

Toch is er ook kritiek op het onderzoek. De Franse taalkundige Arnoud Fournet sprak zijn twijfels uit bij de BBC: “Het grensgebied tussen schrijven en tekenen is een stuk grijzer dan dit onderzoek doet voorkomen”, zegt hij. De Britse onderzoekers houden voet bij stuk. Bovendien menen zij bewijs te hebben gevonden dat de symbolen overeenkomen met woorden. Omdat er ook stenen zijn gevonden met slechts één symbool, is het onaannemelijk dat de symbolen overeenkomen met lettergrepen.

Steen van Rosetta

“De ontdekking dat het Pictisch een schrift is waarin de symbolen hoogst waarschijnlijk corresponderen met woorden, biedt compleet nieuwe mogelijkheden voor historici en taalkundigen om de wereld van de Picten te onderzoeken”, aldus de onderzoekers. Voorlopig is de code van het Pictisch nog niet gekraakt. Paul Bouissac van de universiteit van Toronto (Canada), die ook achter de onderzoekers staat, zegt er het volgende over in Discovery News: “We moeten nu nog wachten op de ontdekking van een Schotse versie van de Steen van Rosetta, welke de sleutel vormde tot de ontcijfering van de Egyptische hiërogliefen. Dit gebeurt misschien ooit maar misschien ook nooit.”

Bron:

Rob Lee, Philip Jonathan & Pauline Ziman: Pictish symbols revealed as a written language through application of Shannen entropy. Proceedings of the Royal Society 466.

Lees ook:
Categories: Feedblock

Spreek jij al ROILA met je robot?

Kennislink taal - Thu, 09/09/2010 - 21:06

Voor de meeste mensen is het nog toekomstmuziek: een robot die de kamer voor je stofzuigt of een biertje voor je uit de koelkast pakt, terwijl jij lekker onderuitgezakt op de bank hangt. Aangestuurd door niets meer dan je stem. Op verschillende universiteiten werken technici hard aan de ontwikkeling van zulke robots. Het herkennen van menselijke spraak blijft echter lastig voor de elektronische kunstmensjes. Eindhovense wetenschappers hebben daarom een taal ontwikkeld die makkelijk is te verstaan voor computers: het ROILA.

Geen onregelmatigheden

“Spraakherkenning voor natuurlijke talen is simpelweg nog niet zo goed dat iedereen het zonder problemen kan gebruiken”, aldus Omar Mubin, een van de betrokken wetenschappers. “In plaats van het verbeteren van de spraakherkenning hebben we voor een andere weg gekozen. We hebben een kunsttaal ontwikkeld die voor computers makkelijk te herkennen is en voor mensen eenvoudig om te leren.”

Op het eerste oog lijkt het ROILA misschien niet op een taal die je al kent. Toch hebben de wetenschappers geprobeerd de taal zo eenvoudig mogelijk te maken. “In de ontwerpfase van dit project hebben we goed gekeken naar 13 grote talen van de wereld. Op basis hiervan hebben we een set van klanken samengesteld die in al deze talen voorkomen”, legt Mubin uit. “De woorden in het ROILA zijn samengesteld uit deze klanken, dus we verwachten dat iedereen het ROILA goed zal kunnen uitspreken. Daarnaast hebben we de grammatica van het ROILA zo eenvoudig mogelijk gehouden, met simpele regels zonder onregelmatigheden.”

Met een speciaal computerprogramma zijn de woorden in het ROILA zo samengesteld dat de opeenvolgende klanken zo min mogelijk op elkaar lijken. Dit maakt het voor de computer makkelijker om te herkennen wat zijn baasje zegt.

Beluister enkele ROILA-fragmenten, uitgesproken door een computer:

Audio: I love fruitvar flashvars = {file:'http://www.kennislink.nl/system/files/000/067/571/original/pito_loki_wikute.mp3'}; var params = {allowfullscreen:'true',allowscriptaccess:'always'};swfobject.embedSWF("/player.swf", "f67571", "350", "20", "9", "/expressInstall.swf", flashvars, params);


Pito loki wikute – ‘Ik hou van fruit’

Audio: Walk quickvar flashvars = {file:'http://www.kennislink.nl/system/files/000/067/581/original/fosit_jimeja.mp3'}; var params = {allowfullscreen:'true',allowscriptaccess:'always'};swfobject.embedSWF("/player.swf", "f67581", "350", "20", "9", "/expressInstall.swf", flashvars, params);

Fosit jimeja – ‘Loop snel’

ROILA-taalcursussen

Mubin verwacht dat in eerste instantie vooral tieners ROILA zullen gebruiken. “Zij vinden het leren van een nieuwe taal leuk en betrekkelijk eenvoudig”, zo denkt hij. “Maar de mogelijkheden van ROILA zijn onbeperkt en we hopen dat het uiteindelijk dé standaardtaal wordt om tegen robots te spreken, met name tegen LEGO NXT robots.” LEGO is, als mede-financierder van het project, het eerste platform waarvoor de kunsttaal ontwikkeld is.

De ROILA-ontwikkelaars vergelijken het ROILA met Grafitti, het alfabet dat Palm Inc ontwikkelde om mee te schrijven op hun PDA’s. Handschriftherkenning is nog niet ver genoeg ontwikkeld om elk handschrift te kunnen lezen, dus bedacht Palm een eenvoudigere versie van het alfabet. Miljoenen mensen gebruiken Grafitti nog altijd dagelijks. Het enige verschil met ROILA is dat de robot ook in ROILA terug spreekt.

Kun je niet wachten om ROILA te leren? Binnenkort bieden de ontwikkelaars speciale ROILA-cursussen aan op hun website. Voorlopig zul je het moeten doen met de woordenlijsten en de grammatica-uitleg op ROILA.org.

Lees ook:
Categories: Feedblock

Je stem verraadt je afkomst

Kennislink taal - Thu, 09/09/2010 - 21:06

De dialectherkenner is ontwikkeld door Dirk Van Compernolle en zijn collega’s van de Katholieke Universiteit Leuven, in een project gefinancierd door het STEVIN-programma. Zij houden zich veel bezig met spraakherkenning en wilden met dit project aantonen wat er allemaal al mogelijk is in de spraaktechnologie. De dialectherkenner nodigt de Technopolis-bezoeker uit om een tekstje voor te lezen. Op basis van de uitspraak van deze tekst berekent een computer uit welke regio de bezoeker waarschijnlijk afkomstig is. Hij heeft het zo’n 60 tot 70% van de keren bij het juiste eind. Dat is een betere score dan die van de mens, die meestal maar zo’n 45% haalt.

Als uitkomst geeft de dialectherkenner in verschillende percentages aan in hoeverre jouw spraak overeenkomt met het dialect in de verschillende Vlaamse provincies. De dialectherkenner maakt deze berekening niet voor de verschillende Nederlandse provincies, maar kan wel aangeven of je Nederlands of Vlaams bent.

Referentie

Hoe maakt de dialectherkenner zijn berekening? Als eerste stelt een spraakherkenner vast welk deel van de geluidsopname overeenkomt met welke klank uit de tekst. Daarna berekent hij van elke klank de gemiddelde uitspraak. Deze is voor elke spreker verschillend, afhankelijk van niet alleen het dialect, maar ook van bijvoorbeeld het geslacht, de leeftijd en de gemoedstoestand. Uit het sprekermodel dat deze berekening oplevert, selecteert de computer de klanken die het belangrijkst zijn voor het onderscheid in dialecten. Klinkers zijn bijvoorbeeld belangrijk, denk maar aan de platte ‘a’ van de Antwerpenaar. Maar ook de ‘g’ is belangrijk; die wordt in West-Vlaanderen meer als een ‘h’ uitgesproken.

Ten slotte vergelijkt de computer de klanken van de spreker met de referentieklanken uit de verschillende dialecten. Deze referentieklanken zijn bepaald aan de hand van zo’n tweehonderd dialectsprekers uit de verschillende regio’s. Met deze spraak als referentie berekent de computer in hoeverre de spraak overeenkomt met de verschillende Vlaamse dialecten.

In deze grafiek zie je de klankkenmerken van drie verschillende klinkers in vijf verschillende Vlaamse dialecten. Zoals je ziet overlappen deze klanken niet precies; in elk dialect klinken ze dus net even anders. Klik op de afbeelding voor een vergroting. Afbeelding: © KU Leuven

Provinciegrenzen

Dat de dialectherkenner de maximale score van 100% correct niet haalt is niet zo vreemd. Veel mensen verhuizen in de loop der tijd of hebben ouders die afkomstig zijn uit een andere regio dan waar ze nu wonen. Het ‘oude’ dialect heeft dan nog altijd invloed op de manier waarop je spreekt. Daarnaast lopen de grenzen van een dialect lang niet altijd gelijk aan de provinciegrenzen. Dat maakt het voor de computer moeilijker om aan te geven waar iemand precies vandaan komt.

Met de dialectherkenner willen de Leuvense onderzoekers laten zien hoeveel kanten je op kunt met spraakherkenners. Je kunt er dus niet alleen teksten mee dicteren aan je computer of mee bellen naar een automatische informatiedienst, het levert ook nog eens een leuk dagje weg op.

Lees ook:
Categories: Feedblock

De Steen van Rosetta gaat digitaal

Kennislink taal - Thu, 09/09/2010 - 21:06

Het ontcijferen van een onbekend schrift is te vergelijken met het leren van een spelletje waarvan je de regels niet kent. Zonder enige houvast moet je uitvinden wat mag en wat niet mag. En daarnaast moet het geheel ook nog een doel, een betekenis hebben. Eeuwenlang waren de Egyptische hiërogliefen onmogelijk te ontcijferen. Dat veranderde plotseling in 1799 met de vondst van de Steen van Rosetta in Egypte. Op de steen stond drie keer dezelfde tekst, één keer in het Grieks, één keer in Egyptische hiërogliefen en één keer in het Demotisch, een ander Oud-Egyptisch schrift. Met deze kennis konden onderzoekers ook andere teksten in hiërogliefen ontcijferen.

De Steen van Rosetta bleek de sleutel tot de ontcijfering van de Egyptische hiërogliefen. Op de steen staat drie keer dezelfde tekst: één keer in het Grieks, één keer in hiërogliefen en één keer in het Demotisch. De Steen van Rosetta ligt nu in het British Museum in Londen. In het Rijksmuseum voor Oudheden in Leiden is een kopie te bezichtigen.

Puzzelwerk

Ontcijferaars van schriften hebben altijd gesteld dat logica en intuïtie onontbeerlijk zijn bij het ontcijferen van onbekende schriften. Elk beetje nieuwe informatie is een aanwijzing die kan leiden tot het vinden van het volgende puzzelstukje. Computers beschikken niet over de logica en intuïtie die hiervoor nodig is en zijn daarmee onbruikbaar bij het ontcijferen. Amerikaanse onderzoekers dachten hier anders over en ontwikkelden een computerprogramma dat automatisch het Ugaritisch, een in 1200 v. Chr. uitgestorven taal verwant aan het Hebreeuws, kan vertalen. Zij presenteerden hun resultaten vorige week tijdens de jaarlijkse bijeenkomst van de Association for Computational Linguistics in Zweden.

Tabletten met het Ugaritische schrift zijn voor het eerst in 1929 gevonden in Syrië. Het kostte verschillende onderzoekers drie jaar om de tekst te ontcijferen. De onderzoekers van het Massachusetts Institute of Technology lieten hun computerprogramma het nog eens over doen aan de hand van Hebreeuwse teksten. Het Hebreeuws lijkt zowel qua locatie als qua tijdsperiode op het Ugaritisch, dus de kans is groot dat de onbekende taal daar op zal lijken. Ook menselijke ontcijferaars gebruiken dergelijke aanwijzingen bij hun puzzelwerk.

Het computerprogramma deed enkele uren over het ontcijferen van het Ugaritisch. Menselijke ontcijferaars hadden een paar jaar nodig voor de klus. Als eerste herkende de Duitse onderzoeker Hans Bauer twee Ugaritische letters die in het Hebreeuws in dezelfde patronen voorkomen. Op basis hiervan vond hij enkele woorden die leken op Hebreeuwse woorden en de nieuwe letters die dit opleverde leidden tot weer nieuwe ontdekkingen. Zo werd beetje bij beetje de puzzel opgelost.

Vergelijken

De software vergeleek de patronen en frequenties van de symbolen in het Ugaritisch met die van het Hebreeuws. De kans is namelijk groot dat symbolen en reeksen symbolen die in het Ugaritisch vaak voorkomen, in het Hebreeuws ongeveer net zo vaak voorkomen. Zo kon het programma 29 van de 30 verschillende Ugaritische symbolen koppelen aan de 22 verschillende letters uit het Hebreeuwse alfabet. 8 van de Hebreeuwse letters bleken overeen te komen met 2 of 3 van de Ugaritische symbolen.

Daarnaast kon het programma 60 procent van de Ugaritische woorden met dezelfde woordstam als in het Hebreeuws aanwijzen. Dit zijn bijvoorbeeld het Franse ‘homme’ en het Spaanse ‘hombre’, die beide afstammen van het Latijnse woord voor ‘man’. Het onderzoeksteam onder leiding van Regina Barzilay denkt dat hun computerprogramma met enige aanpassingen ook andere geschriften zal kunnen ontcijferen.

Niet alle computerlinguïsten zijn hier echter van overtuigd. “Het Ugaritisch is een eenvoudig en klein schrift dat nauw verwant is aan enkele bekende talen”, aldus Richard Sproat, computerlinguïst aan de Oregon Health en Science University tegen National Geographic. “Het zal niet altijd het geval zijn dat er dergelijke nauw verwante talen beschikbaar zijn.” Barzilay denkt dat dit probleem op te lossen is door het programma het onbekende schrift te laten vergelijken met verschillende talen. Zo wordt de software een soort digitale Steen van Rosetta waarmee de puzzelstukjes van nog niet ontcijferde geschriften ineens op hun plek vallen.

Bron

Benjamin Snyder, Regina Barzilay en Kevin Knight presenteerden hun artikel A statistical model for lost language decipherment tijdens de 48e jaarlijkse bijeenkomst van de Association for Computational Linguistics.

Lees ook:
Categories: Feedblock

Woordenboek der Friese taal online

Kennislink taal - Thu, 09/09/2010 - 21:06

Het Wurdboek fan de Fryske taal (WFT) is op 6 juli online gezet door koninging Beatrix. Zij nam in 1984 ook het eerste deel van de gedrukte versie in ontvangst. Het WFT bestaat inmiddels uit 25 delen, met in totaal 118.000 trefwoorden. Het beschrijft het Fries van de periode van het jaar 1800 tot omstreeks 1975.

De inhoudelijke breedte van het WFT staat in scherp contrast met dat van het Woordenboek der Nederlandsche taal (WNT). Het WNT kent ongeveer 400.000 trefwoorden en beschrijft het Nederlands vanaf het jaar 1500. Pieter Duijff en Anne Dykstra, medewerkers van de Fryske Akademy in Leeuwarden, wijzen verschillende oorzaken aan voor dat contrast.

Oneindige aanwas

Volgens Pieter Duijff, redacteur van het WFT, “heeft het Nederlands een veel rijkere schrijftraditie dan het Fries”. Met als logisch gevolg dat er veel meer bronnen zijn om het woordenboek op te baseren. Ter vergelijking: voor het WFT gebruikte de Fryske Akademy zo’n 1200 bronnen; het WNT is gebaseerd op een duizelingwekkende 1,7 miljoen.

Om een beetje te compenseren voor dat verschil gebruikten de redacteuren van het WFT ook andere bronnen voor de samenstelling. Duijff: “Om toch enigszins tot een grote dekking van het Fries te komen, zijn in het WFT vele mondelinge opgaven opgenomen.” Volgens Duijff gaat het dan vooral om vaktermen.

De reden dat het WFT bronnen vanaf het jaar 1800 gebruikt, heeft volgens lexicoloog Anne Dykstra te maken met de verschillende stadia die het Fries de afgelopen vijfhonderd jaar doorliep. “Het Fries wordt ingedeeld in de perioden voor 1550 (Oudfries), 1550-1800 (Middelfries of Vroeg Modern Fries) en 1800-nu (Modern Fries). Het WFT beschrijft het Moderne Fries, vandaar het beginjaar.”

Een Oudfriese tekst van voor 1500. Dit soort teksten zijn niet in het WFT opgenomen.

Om een oneindige aanwas van nieuwe woorden in het woordenboek te voorkomen, kozen de redacteuren volgens Dykstra er destijds (we spreken 1984) voor om te stoppen bij 1975. Voor de liefhebbers van het Fries van de laatste decennia is onlangs het Frysk Hânwurdboek verschenen. Duijff hoopt dat de nieuwere Friese woorden in dit handboek ook ooit in het online woordenboek komen.

Dialecten

Het Fries is de tweede Nederlandse taal waarvan een online woordenboek is verschenen. Volgens Tanneke Schoonheim, hoofd van de afdeling Descriptie en Productie bij het Instituut voor Nederlandse Lexicologie (INL), is dit voorlopig de laatste Nederlandse taal die online verschijnt.

Wel is het INL bezig om het WNT te koppelen aan woordenboeken van streektalen zoals het Limburgs, Noord-Brabants en het Vlaams. In het online WNT kan de gebruiker al woorden vertalen naar deze drie dialecten.

In de omschrijving van een Nederlands woord, bijvoorbeeld vlinder, kan de gebruiker bij het schermpje Koppelingen klikken op verschillende dialecten: WVD voor Vlaams, WLD voor Limburgs en WBD voor Brabants. Grappig feitje: dit woord is door het INL ook gekoppeld aan de Vlinderkaart.

Een andere innovatie van de online woordenboeken waar Schoonheim erg blij mee is, is het schrappen van de verplichte logins. Eerst moest een gebruiker zich nog registreren (gratis, dat wel) om te kunnen zoeken. Nu kan iedereen met een druk op de knop bij de woordenboeken van het INL. “Hopelijk kunnen we nu een groter publiek bereiken en zijn we beter vindbaar voor zoekmachines.”

Lees meer:
Categories: Feedblock

Leer je klinkers kennen

Kennislink taal - Thu, 09/09/2010 - 21:06

In de film My Fair Lady leert professor Higgins, expert op het gebied van streektaal en dialect, zijn pupil Eliza beschaafd spreken. Want pas wanneer ze haar Cockney accent heeft afgeleerd en zinnen als ‘the rain in Spain falls mainly in the plain’ foutloos kan uitspreken, zal niemand meer kunnen horen dat ze eigenlijk van lagere komaf is. Als Eliza in onze tijd had geleefd, had ze lekker kunnen gaan KlinkerMikken: een spel waarbij je je uitspraak kunt verbeteren, ontworpen door de Leidse taalkundigen Vincent van Heuven, Rob Goedemans, Willemijn Heeren en Jos Pacilly.

Klinkerdriehoek

Klinkermikken is een soort darten met je stem. Alleen is het dartbord vervangen door een klinkerdriehoek. De klinkerdriehoek geeft de stand van de tong aan bij het uitspreken van de klinkers. De a bijvoorbeeld maak je door de tong naar achteren en naar beneden te doen. Bij de i houd je het voorste gedeelte van je tong naar voren en naar boven. Zo heeft elke klinker een plekje in de klinkerdriehoek. Door op een klinker te drukken hoor je de juiste uitspraak. Vervolgens kun je die zelf uitspreken in een klein microfoontje. Jouw uitspraak wordt dan op de klinkerdriehoek getoond. Waarschijnlijk wijkt deze uitspraak niet zoveel af van het voorbeeld.

De ie, oe en aa vormen de hoekpunten van de klinkerdriehoek. Fonetisch worden ze geschreven als i, u en a. Deze klanken vormen de uiterste begrenzing voor menselijke klinkergeluiden.

Moeilijker wordt het wanneer je buitenlandse klinkers moet imiteren. Bijvoorbeeld de klinker in het Engelse woord voor slecht (bad); deze klinkt weer heel anders dan de klinker in bed. En het Turks heeft naast de gewone oe met getuite lippen nog een bijzondere oe met gespreide lippen. Het KlinkerMikken is dan ook vooral bedoeld om tweede taalsprekers te helpen hun uitspraak te verbeteren. Buitenlanders die het Nederlands willen leren, of Nederlanders die een andere taal willen leren. Voor tweede taalleerders zijn de klinkers vaak het grootste struikelblok. Het maken van klinkers luistert namelijk heel nauw. Medeklinkers zijn korter, en daar kan dus nog wel wat mee gesjoemeld worden. Maar aan de uitspraak van een klinker kun je meestal wel horen of iemand een moedertaalspreker is of niet.

Schilderspalet

“Als je voorbij de pubertijd bent dan ben je eigenlijk verpest door je moedertaal”, legt professor Vincent van Heuven uit: “Je interpreteert dan alle klanken die je hoort als voorbeelden van de paar klanken die je eigen taal heeft.” Om die kleine klankverschillen toch te kunnen horen, is het KlinkerMikken ontwikkeld. Voor de gevorderden is er nog KlankKleuren. Daarbij zijn de klinkers ‘vertaald’ in visuele kleuren. De ie is blauw, de oe is rood en de aa is geel. Dit zijn ook de primaire kleuren op het schilderspalet. De mengkleuren oranje, groen en paars verbeelden de tussenliggende klinkers. Door nu de juiste klankkleuren te selecteren, kun je een schilderij maken met je stem. Maar dat vergt nog flink wat oefening!

De software voor KlinkerMikken en KlankKleuren is gratis te downloaden. Naast de computerspellen KlinkerMikken en KlankKleuren presenteerden de Leidse taalkundigen ook een Talenkaart met wetenswaardigheden over talen die worden onderzocht binnen het Leiden University Centre for Linguistics.

Lees ook op Kennislink:

Wat zingt de operazangeres?
Klanksysteem vroeg aangeleerd
Vervlakt de intonatie?

Categories: Feedblock

Dialectverschillen in het Zweeds nemen af

Kennislink taal - Thu, 09/09/2010 - 21:06

Het Zweeds kent veel verschillende klinkers. Therese Leinonen onderzocht er negentien in totaal. De klinkers staan bekend om hun grote variatie. Omdat de verschillen soms maar klein zijn, onderwierp Leinonen de uitspraak van een grote groep Zweden aan akoestische analyses. Dit was nog niet eerder gebeurd in het onderzoek naar Zweedse dialecten. Op die manier kon ze nauwkeurig meten hoe de klinkers van elkaar verschillen. Of de klinkers bijvoorbeeld meer voor of achterin de mond worden uitgesproken.

Groot dialectcorpus

De promovenda maakte voor haar onderzoek gebruik van een groot corpus met dialectmateriaal, verzameld tussen 1998 en 2001. Dat corpus bevat informatie over 98 plaatsen in het Zweedse dialectgebied. Per plaats zijn opnames gemaakt van gemiddeld twaalf sprekers, verdeeld over twee leeftijdsgroepen. De jonge sprekers zijn tussen de 20 en 35 jaar oud, de oude sprekers tussen de 55 en 75. Uit het onderzoek bleek dat de uitspraak van de ouderen sterk verschilt van de jongeren. “Het traditionele dialect vind je alleen nog bij de ouderen”, aldus Leinonen.

Het Zweedse eiland Gotland ligt in de Oostzee. Afbeelding: © Per Ola Wiberg

Dialectcontinuüm

De geografische patronen worden in Leinonens proefschrift op kaarten weergegeven. Bij het maken van die kaarten viel het haar op dat er geen scherpe dialectgrenzen te trekken waren: “Er is eerder sprake van een continuüm. Dit geldt niet alleen voor de uitspraak van de klinkers, maar ook voor andere onderdelen van het Zweedse taalsysteem. En je kunt het nog wijder trekken, want eigenlijk geldt het voor het hele Scandinavische taalgebied.” Wel waren er een paar gebieden aan te wijzen die afweken in hun uitspraak: “Zoals bijvoorbeeld het eiland Gotland, dat duidelijk geïsoleerd is door het water”, legt Leinonen uit, “maar ook het gebied langs de Finse kust, waar Finland-Zweeds wordt gesproken.” Dat is tevens het gebied waar de promovenda zelf opgroeide. Toch spreekt zij, net als de meeste jonge mensen, een regionale variëteit: “Mijn moedertaal is Zweeds met een meer Finse intonatie.”

Open uitspraak

Onder de jonge Zweden vond de promovenda minder lokale en meer regionale verschillen in de uitspraak. Betekent dat dat jongeren steeds minder dialect gaan spreken? “Ja, maar het hangt er natuurlijk vanaf hoe je ‘dialect’ definieert. Jongeren die ‘traditionele’ dialecten spreken vind je alleen nog in bepaalde – vaak geïsoleerde – gebieden. En op het platteland meer dan in de stad. Wel zijn er nog veel regionale verschillen.” Bovendien is er iets bijzonders met de uitspraak van deze jongeren: “Zij gaan hun voorklinkers steeds meer open uitspreken. Dit is een ontwikkeling die in de jaren ’70 al in gang is gezet, maar dan vooral in de steden. Je ziet nu dat deze klankontwikkeling ook doordringt tot het platteland. Daarbij vond ik grote concentraties rond de steden. Het gaat dan bijvoorbeeld om de uitspraak van de <ö> in söt dat ‘zoet’ betekent, of de uitspraak van de <ä> in nät voor ‘net’. In tegenstelling tot de ouderen gebruiken de jongeren een meer open uitspraak.”

De klinkers die Leinonen maakt, zijn moeilijk op te schrijven, maar we zullen een poging wagen. We beginnen met de <ö>. Bij de ouderen klinkt deze ongeveer als de eu in neus en bij de jongeren als de eu in knackebröd. En dan de uitspraak van de <ä>: ouderen spreken deze uit met een lange i (als in beer) of lange e (als in scène) en jongeren met de aa van laat.

De kaart toont de gemiddelde afstand tussen de oude sprekers en de jonge sprekers. Een kleine afstand duidt op weinig dialectverlies, een grote afstand op veel dialectverlies. De kaart is afkomstig Leinonens proefschrift. Afbeelding: © Therese Leinonen

Natuurlijk proces

Net als overal waar het dialect van de jongeren verandert, staan de ouderen negatief tegenover deze klankontwikkeling. Onterecht, volgens Leinonen: “Vaak is taalverandering een heel natuurlijk proces. Dat geldt ook voor deze verandering in het Zweeds. Doordat de jongeren de klinkers anders uitspreken, komt het klinkersysteem meer in evenwicht. Waar eerder gaten zaten in het syteem, worden die nu opgevuld met nieuwe klanken.”

Meer recente publicaties over dialect:

Een echte Amelander spreekt dialect
De dialecten van Zuid-Italië: verguisd en bejubeld
Jongeren spreken geen dialecten maar gebruiken vette dialectwoorden

Categories: Feedblock
Syndicate content