Observatorio de Tecnologías de la Lengua, de Voz y Multimedia

http://andonisagarna.blogspot.com/2011/06/sentimenduen-analisia-zertan-den.html
02/06/2011 - 20:40
Sentimenduen analisia edo iritzi-meatzaritza deitzen zaio testu-bilduma batean adierazita agertzen den informazio subjektiboaren identifikazioa eta erauzketa egiten duen hizkuntzaren prozesamenduan oinarrituriko sistemari.

Gai jakin batez testu horiek idatzi dituztenek dituzten iritziak eta jarrerak ezagutzea da sistema horren xedea.
Gaur egun erabiltzaileok eduki-kopuru erraldoiak sareratzen ditugu. Eduki horietan jaulkitzen ditugun iritziak interes handikoak dira enpresa eta erakundeentzat. Funtsean lau helburu hauekin ustiatzen dira iritzi horiek:



  1. kontsumitzaileek produktu eta zerbitzuez webguneetan eta sare sozialetan esaten dutena jakiteko.
  2. bezeroekiko harremanen kudeaketarako sistemetan (CRMetan) eta merkataritza elektronikoko guneetan erabiltzeko.
  3. aurreikuspen estrategikorako eta ospearen kudeaketarako.
  4. diskurtso politikoa aztertzeko.
Bezeroek zer dioten jakitea garrantzitsua da, horren arabera, banakako harremanei edo marketin-kanpainei begira, neurri egokiak hartzeko. Horixe da, beraz, sentimenduen analisiaren zeregina.


Zailtasun handiak dituen esparrua da sentimenduen analisia, emaitza zehatzak lortu nahi badira, eta, zer esanik ez, eduki eleaniztunak aztertu behar direnean, are korapilatsuagoak dira gauzak.




Horretarako merkatuan dauden aplikazioek ez dituzte emaitza ehuneko ehun zehatzak eskaintzen, baina gizakiari asko laguntzen diote helburua lortzen. 
Gaur egun, bada sentimenduen analisian oso baliagarria gertatzen den metodologia bat: testumetria. Hori hizkuntzazko datuen azterketa estatistikoaren adar bat da, honako teknika hauetan oinarritzen dena:



  • estatistika eta probabilitateen kalkulua aplikatzea, corpus batean testu batzuk beste batzuen antzekoak izatea eragiten duten elementuei; adibidez, antzeko iritziak agertzen dituzten kontsumitzaileak taldekatzeko.
  • datuak prozesatzeko metodo sendoak eskaintzea kanpoko baliabideak (hiztegiak eta ontologiak, adibidez) erabili gabe.
  • corpusaren barruan objektuen banaketa aztertzea.
  • datuei aplika dakiekeen corpusetan oinarrituriko hizkuntza-baliabideen sorkuntza erraztea eta hobetzea, esate baterako, entitate-erauzleena (izen propioak, markak, etab. erauzteko sistemak).
Hainbat dira horrelako aplikazioak merkatuan; ikus: AlchemyAPI, Attensity, Clarabridge, Lexalytics, MeshLabs, MineTech, Lymbix, SAS, Survey Analytics, WiseWindow



http://andonisagarna.blogspot.com/2011/06/hizkuntzaren-industrien-hungariako.html
02/06/2011 - 13:15
 Zoltan Varju hizkuntza-ingeniari hungariarrak Aftal webgunera igorritako informazioa.

Hizkuntza-teknologiaren industria txikia baina bizkorra da Hungarian. Berrikitan, enpresa nagusiek eta ikerketa-institutuek Hizketa- eta Hizkuntza-teknologiaren clusterra sortu dute. Ederra litzateke kide guztiez sakon idaztea, baina artikulu hau luzeegia litzateke. Zentra nadin hiru enpresa desberdin baina oso arrakastatsutan.

Morphologic –  Gábor Prószéky irakasle aitzindariak sortua. Jaun hori hizkuntza-teknologiari buruzko lehen ikasliburuaren egilea eta
Péter Pázmány Unibertsitate Katolikoko Informatika Fakultateko dekanorde da. Enpresa hori, bere izenak iradokitzen duen bezala, analisi lingustikoaren ezagutza sakonean oinarrituriko soluzioak garatzen ari da. Morphologic-ek egin zituen MS Office-rako ortografia- eta gramatika-zuzentzaileak, eta tresna linguistikoz hornitzen ditu beste enpresa batzuk ere. Bere Ingeles/Hungariera, Hungariera/Ingelesa online itzultzaile automatikoak Google Translatek baino hobeto funtzionatzen du! (Morphologic-en webgunearen goiko eskuineko txokoan aurki dezakezu)

Weblib – bilaketa (semantikoaren) arloan diharduen enpresa txiki bat da. bere bezeroentzat neurrira egindako bilaketak garatzen ari da (adibidez, Hungariako enplegu-webgunerik handienetako baterako, Bethesda, Maryland-eko National Library of Medicine-rako), Johu mantentzen du (Hungarieraren gramatikan espezializaturiko bilatzailea).
Healthmash, osasun-arloko bilatzaile semantiko iraultzailea den enpresaren produktu berriak oso harrera ona izan du.

• Nuance Recognita – Recognitak OCR-rik aurreratuenetako bat garatu zuen, gero Nuance-ek erosi zuena. (Zoritxarrez, enpresak bere webgune propioa galdu egin zuen erosketaren ondorioz)


  • Sektore akademikoa


Komunismo-garaian hizkuntzei buruzko planteamendu formalak sasizientzia burgestzat hartzen zituzten. Hori pixkanaka aldatuz joan zen, 1970eko hamarkadaren erditik aurrera, eta erakunde akademiko nagusiak gaur egungo ikergaietara bideratu ziren. Hungariako Zientzien Akademia da gaur egun hizkuntzalaritza konputazionalaren ikerketan erreferentzia nagusia. Oso etorkizun oparoko egitasmoak ditu Hizkuntzalaritza-Institutuak. Informatikaren eta automatizazioaren ikerketa laborategiko Hizkuntza-teknologiako taldearen buru András Kornai da, Mathematical Linguistics-en egilea (Springer-ek argitaratua).


Szeged-eko Unibertsitateko Hizkuntza-prozesamenduko taldeak funtsezko lana egiten du hungarierarako tresna estandarren garapenean; esate baterako, Penn estiloko treebank bat eta hungarierazko WordNet garatu ditu. Budapesteko Teknologia eta Ekonomia Unibertsitateko medioen ikerketarako eta hezkuntzarako MOKK ikertegia kode irekiko analizatzaile morfologikoak eta hungarieran web corpusak garatzen ari da, eta Hungariera/Ingelesa - Ingelesa/Hungariera corpus paraleloaren egitasmoa, gaur egun, spin-off enpresa gisa ari da funtzionatzen (bere webgunea hungarieraz soilik dago).


Linguistika konputazionala herrialdeko unibertsitate nagusi guztietan ikas dezakete ikasleek. Arloa hain askotarikoa baita, hizkuntzalaritzako nahiz informatikako departamentuek eskaintzen dituzte ikasketa horiek. Letretako fakultateetan, hizkuntzalaritzako diplomatura mailako hizkuntza-teknologia irakasgai osagarri gisa ikas dezakete eta masterretik gorako ikasketetan, espezializazio mailako programak eskaintzen dira. Budapesteko Unibertsitate Teknikoak  zientzia kognitiboari buruzko gradua eskaintzen du, linguistika konputazionala proportzio dezentean duena. Hungariako garapen berezi gisa, humanitate digitaletako graduak linguistika konputazionalekoak dira, tradizionalak ez bezala. Péter Pázmány Unibertsitate Katolikoko Informatika Fakultatea da, hizkuntza-teknologiako espezialitatea informatikako ikasleei eskaintzen diena.


  • Bizitza profesionala


Lehen ia ez zegoen bizitza profesionalik eta horregatik abiarazi genuen Számítógépes nyelvészet bloga (linguistika konputazionala adierazten duen hungarierazko terminoa). Ideiak eta jakintza komunitatearekin partekatzen ahalegintzen ditugun lau linguista konputazional gaztek osatzen dugu taldea. Batez ere hungarieraz blogatzen dugu, baina izaten dugu, gutxienez hilean behin, nazioarteko gonbidatu bat, gure irakurleei arloko azken garapenen berri ematen diena. Ingelesezko artikuluak http://formalthoughts.posterous.com/ helbidean argitaratzen ditugu, hungariarrak ez diren irakurleentzat.

Sinesten dugu zientziaren dibulgazioan, beraz,  nyest.hu
dibulgazio zientifikoko aldizkari digitalaren eskaintza onartu genuen eta publiko zabalarentzako linguistika konputazionalari buruzko artikuluak argitaratzen ditugu.


Open Knowledge Foundation-en (OKFN) webgunea bisitatzea gomendatu nahi nizueke, haren helburuak ezagut ditzazuen. Uste dut fundazioa ekintza bikaina dela hizkuntzalariek arlo horretan indarrak batu ditzaten. The Comprehensive Knowledge Archive Network (CKAN) datuak bilatzeko eta partekatzeko gune bat da – zergatik ez dugu hizkuntzalaritzako datuz hornitzen? 

Datuen analisia gure lanaren parte bihurtu da. Get the Data webgunea (Stackoverflow-ren antzekoa) aukerako solasgunea da, datuen analisiei buruzko galderak egiteko eta publikoarekin jakintza partekatzeko. Zure burua email batez aurkeztuz OKFN working group on open data in linguistics lantaldearen partaide bihur zaitezke eta han azter dezakezu zer egin dezakezun guztion onerako.

http://semanticweb.com/bilbao-web-summit-to-present-first-dama-award-to-berners-lee_b19931
17/05/2011 - 21:50

The Bilbao Web Summit, which starts today in Bilbao, Spain, will include a new award known as the DAMA Award. This year the award will be given to Sir Tim Berners-Lee as “recognition for his invention of the Web.” According to the release, “The ceremony will be held during the Cocktail Gala at the Guggenheim Museum in Bilbao as part of the conclusion of the Web Summit. At that time, the awards committee will also announce the organization of the 2013 award.” continued…

New Career Opportunities Daily: The best jobs in media.

http://www.unibertsitatea.net/blogak/ixa/ixa-taldea-ikasleekin-lankidetzan-2011-12-ikasturtean
16/05/2011 - 19:10

Ixa taldean informatikako ikasleen bila ari gara, gurekin lankidetzan aritzeko.


Momentu honetan 8 ikasle daude gurekin lanpoltsa batekin.

Zer eskaintzen dugu:

  • Karrera-bukaerako proiektuak (II, SIIT eta gradua)
  • Lan-poltsak (3. ikasmailatik aurrera), udako lanak (2. mailatik).

    KBPei edo doktorego-lanei begira bideratu izaten dira gehienetan
  • Lengoaia Naturalaren Prozesamendua hautazko irakasgaia
  • Master Ofiziala 2011-12 (https://ixa.si.ehu.es/master)
  • Doktorego-tesia egiteko bekak (22 tesi egin dira taldean)(http://www.hezkuntza.ejgv.euskadi.net/r43-5553/eu/)
  • Honelako ikasleak bilatzen ditugu:

  • Iniziatiba eta ikertzeko interesa dutenak
  • Programazio-teknika eta metodo matematiko aurreratuetan interesa dutenak
  • Aurkezpen bat egingo dugu aste honetan:
              2.2 mintegian (fakultateko 2. 2 solairuan)
             
    Maiatzaren 19an 11:30ean (osteguna)
    Aurkezpenera etortzerik ez baduzu, eta interesatuta bazaude, jarri kontaktuan Xabier Artolarekin

    Informazioa: https://ixa.si.ehu.es/Ixa/Ikasleentzat

    http://permalink.gmane.org/gmane.science.linguistics.corpora/13135
    10/05/2011 - 11:30
    Dear colleagues,
    
    we are pleased to inform you that as of today, the
    Vienna-Oxford-International-Corpus-of-English (VOICE) XML is available
    for download via the VOICE website!
    
    VOICE XML is licensed under a Creative Commons
    Attribution-NonCommercial-ShareAlike 3.0 Unported License
    (http://creativecommons.org/licenses/by-nc-sa/3.0/) and includes all
    corpus texts in XML format as well as derived HTML and TXT versions of
    the corpus with reduced mark-up. For more information on VOICE XML see
    https://www.univie.ac.at/voice/page/corpus_availability_xml and consult
    the README file included in the download package.
    
    In addition, the release of VOICE XML also marks the release of VOICE
    1.1, an updated version of the corpus that includes minor
    revisions in some of the corpus texts. As of today, the web interface of
    VOICE Online is therefore updated to VOICE 1.1 Online
    (https://www.univie.ac.at/voice/page/corpus_availability_online).
    
    We hope you will find these additional resources helpful, and we are
    looking forward 
    http://andonisagarna.blogspot.com/2011/05/hizkuntzen-industrian-diharduen-edonork.html
    09/05/2011 - 16:55

    Kalitatea, produktibitatea eta horien ondorioz lehiakortasuna lortu nahi duenak estandarretan oinarritu behar du bere lana. Hori ekonomiaren arlo guztietan gertatzen da. Aspaldi ulertu zuten hori ingeniaritza mekanikoan, esate baterako: 1926an sortu zuten International Federation of the National Standardizing Associations (ISA) erakundea.
    Hizkuntzen industriako jarduerak askoz berriagoak direnez, ez dago hain aspaldiko tradiziorik estandarren arloan, baina gaurko munduan ezinbestean gai horri heldu beharra dago.

    Hizkuntzen industriako adituek wiki bat sortu dute, hizkuntzen erabilerarekin zerikusia duten estandarrei buruzko eztabaidak bideratzeko. Gai honi buruzko artikulu bat hemen aurki daiteke.

    Hizkuntzen industrian erabiltzen diren estandarren informazio zabala aurki daiteke beste helbide honetan:
    https://flrc.mitre.org/References/Standards/index.pl#contentcreation

    http://www.unibertsitatea.net/blogak/ixa/hitzaldia-lluis-marquez-ebaluazio-automatikoa-itzulpen-automatikoan-hizkuntz-oinarriko-neurrien-konbinaziorantz2011-05-10
    06/05/2011 - 09:50
    Gaia:"Ebaluazioa itzulpen automatikoan: 
    Hizkuntz oinarriko neurrien konbinaziorantz
    / "Automatic evaluation in Machine Translation: Towards combined linguistically-motivated measures"
    Hizlaria:Lluís Màrquez NLPRG, TALP Technical University of Catalonia, UPC
                      

    Udara arte gurekin izango dugu Lluis Marquez,
      OPENMT-2 proiektu barruan UPC-ko burua dena.
    Bera nazioarteko aditua da hizkuntza-teknologian,
     ikasketa automatikoko teknikak erabiltzen batez ere.
    Tokia: Informatika Fakultateko Batzar Aretoa

    Eguna: Maiatzaren 10.an  
    Ordua: 15:30

    Laburpena:

    Automatic evaluation plays a very important role in the development and
    comparison of machine translation systems. In this talk we will overview the current trend of using linguistically-guided evaluation measures based on several linguistic layers and their combination. Also, we will talk about confidence estimation measures, a particular subset of measures to assess output quality without the need of reference translations. Finally, we will overview the role of evaluation measures within the FAUST European project (Feedback Analysis for User Adaptive Statistical Translation; http://www.faust-fp7.eu/), focusing on the usage of user feedback to guide the combination of measures.
    http://semanticweb.com/lessons-from-watson_b19723
    06/05/2011 - 01:20

    A recent article discusses the lessons that can be learned from Watson, IBM’s champion computer: “Big Blue has set its sights on many commercial applications for the technology in healthcare, financial services and customer service operations.  But the question remains, is it practical? Does Watson embody an approach that enterprises can exploit, or learn from?  How readily can a “Watson” be applied to the knowledge and content access problems of the typical enterprise?” continued…

    New Career Opportunities Daily: The best jobs in media.

    http://semanticweb.com/the-w3c-publishes-working-drafts-on-rdfa_b19358
    04/05/2011 - 13:15

    We recently reported on the W3C’s progress with regards to RDF2. Since then the W3C has also announced that “The RDF Web Applications Working Group has published a new Working Draft of the RDFa API. This document specifies an API to access the RDF data embedded in an HTML or XHTML page using RDFa. The Working Group also published a First Public Working Draft of the RDFa 1.1 Primer; this is an updated version of the RDFa Primer that has been adapted to the features of RDFa Core 1.1 specification.” continued…

    New Career Opportunities Daily: The best jobs in media.

    http://semanticweb.com/extra-extra-rnews-seeks-to-be-semantic-standard-for-online-news-publishers_b19190
    15/04/2011 - 19:40

    News publishing outlets stand to benefit from adopting Semantic Web technologies, and now there’s a lightweight way for them to begin moving in that direction, too.

    The International Press Telecommunications Council (IPTC) recently introduced rNews 0.1, a set of specifications and best practices for using RDFa to embed news-specific metadata (headlines, bylines, publication dates and so on) into HTML documents. It hopes rNews will become a standard in the industry for conveying through to browsers and into HTML documents the deep structure and explicitly modeled content that exists in publishers’ back-end data layers. The wider its adoption across news channels, the greater the chance of innovative apps cropping up that can help publishers increase engagement with their audiences, according to rNews’ developers.

    continued…

    New Career Opportunities Daily: The best jobs in media.

    Distribuir contenido