http://andonisagarna.blogspot.com/2011/06/sentimenduen-analisia-zertan-den.html
02/06/2011 - 20:40
Sentimenduen analisia edo iritzi-meatzaritza deitzen zaio testu-bilduma batean adierazita agertzen den informazio subjektiboaren identifikazioa eta erauzketa egiten duen hizkuntzaren prozesamenduan oinarrituriko sistemari.
Gai jakin batez testu horiek idatzi dituztenek dituzten iritziak eta jarrerak ezagutzea da sistema horren xedea.
Gaur egun erabiltzaileok eduki-kopuru erraldoiak sareratzen ditugu. Eduki horietan jaulkitzen ditugun iritziak interes handikoak dira enpresa eta erakundeentzat. Funtsean lau helburu hauekin ustiatzen dira iritzi horiek:
- kontsumitzaileek produktu eta zerbitzuez webguneetan eta sare sozialetan esaten dutena jakiteko.
- bezeroekiko harremanen kudeaketarako sistemetan (CRMetan) eta merkataritza elektronikoko guneetan erabiltzeko.
- aurreikuspen estrategikorako eta ospearen kudeaketarako.
- diskurtso politikoa aztertzeko.
Bezeroek zer dioten jakitea garrantzitsua da, horren arabera, banakako harremanei edo marketin-kanpainei begira, neurri egokiak hartzeko. Horixe da, beraz, sentimenduen analisiaren zeregina.
Zailtasun handiak dituen esparrua da sentimenduen analisia, emaitza zehatzak lortu nahi badira, eta, zer esanik ez, eduki eleaniztunak aztertu behar direnean, are korapilatsuagoak dira gauzak.
Horretarako merkatuan dauden aplikazioek ez dituzte emaitza ehuneko ehun zehatzak eskaintzen, baina gizakiari asko laguntzen diote helburua lortzen.
Gaur egun, bada sentimenduen analisian oso baliagarria gertatzen den metodologia bat: testumetria. Hori hizkuntzazko datuen azterketa estatistikoaren adar bat da, honako teknika hauetan oinarritzen dena:
- estatistika eta probabilitateen kalkulua aplikatzea, corpus batean testu batzuk beste batzuen antzekoak izatea eragiten duten elementuei; adibidez, antzeko iritziak agertzen dituzten kontsumitzaileak taldekatzeko.
- datuak prozesatzeko metodo sendoak eskaintzea kanpoko baliabideak (hiztegiak eta ontologiak, adibidez) erabili gabe.
- corpusaren barruan objektuen banaketa aztertzea.
- datuei aplika dakiekeen corpusetan oinarrituriko hizkuntza-baliabideen sorkuntza erraztea eta hobetzea, esate baterako, entitate-erauzleena (izen propioak, markak, etab. erauzteko sistemak).
http://andonisagarna.blogspot.com/2011/06/hizkuntzaren-industrien-hungariako.html
02/06/2011 - 13:15
Zoltan Varju hizkuntza-ingeniari hungariarrak Aftal webgunera igorritako informazioa.
Hizkuntza-teknologiaren industria txikia baina bizkorra da Hungarian. Berrikitan, enpresa nagusiek eta ikerketa-institutuek Hizketa- eta Hizkuntza-teknologiaren clusterra sortu dute. Ederra litzateke kide guztiez sakon idaztea, baina artikulu hau luzeegia litzateke. Zentra nadin hiru enpresa desberdin baina oso arrakastatsutan.
• Morphologic – Gábor Prószéky irakasle aitzindariak sortua. Jaun hori hizkuntza-teknologiari buruzko lehen ikasliburuaren egilea eta Péter Pázmány Unibertsitate Katolikoko Informatika Fakultateko dekanorde da. Enpresa hori, bere izenak iradokitzen duen bezala, analisi lingustikoaren ezagutza sakonean oinarrituriko soluzioak garatzen ari da. Morphologic-ek egin zituen MS Office-rako ortografia- eta gramatika-zuzentzaileak, eta tresna linguistikoz hornitzen ditu beste enpresa batzuk ere. Bere Ingeles/Hungariera, Hungariera/Ingelesa online itzultzaile automatikoak Google Translatek baino hobeto funtzionatzen du! (Morphologic-en webgunearen goiko eskuineko txokoan aurki dezakezu)
• Weblib – bilaketa (semantikoaren) arloan diharduen enpresa txiki bat da. bere bezeroentzat neurrira egindako bilaketak garatzen ari da (adibidez, Hungariako enplegu-webgunerik handienetako baterako, Bethesda, Maryland-eko National Library of Medicine-rako), Johu mantentzen du (Hungarieraren gramatikan espezializaturiko bilatzailea). Healthmash, osasun-arloko bilatzaile semantiko iraultzailea den enpresaren produktu berriak oso harrera ona izan du.
• Nuance Recognita – Recognitak OCR-rik aurreratuenetako bat garatu zuen, gero Nuance-ek erosi zuena. (Zoritxarrez, enpresak bere webgune propioa galdu egin zuen erosketaren ondorioz)
Szeged-eko Unibertsitateko Hizkuntza-prozesamenduko taldeak funtsezko lana egiten du hungarierarako tresna estandarren garapenean; esate baterako, Penn estiloko treebank bat eta hungarierazko WordNet garatu ditu. Budapesteko Teknologia eta Ekonomia Unibertsitateko medioen ikerketarako eta hezkuntzarako MOKK ikertegia kode irekiko analizatzaile morfologikoak eta hungarieran web corpusak garatzen ari da, eta Hungariera/Ingelesa - Ingelesa/Hungariera corpus paraleloaren egitasmoa, gaur egun, spin-off enpresa gisa ari da funtzionatzen (bere webgunea hungarieraz soilik dago).
Linguistika konputazionala herrialdeko unibertsitate nagusi guztietan ikas dezakete ikasleek. Arloa hain askotarikoa baita, hizkuntzalaritzako nahiz informatikako departamentuek eskaintzen dituzte ikasketa horiek. Letretako fakultateetan, hizkuntzalaritzako diplomatura mailako hizkuntza-teknologia irakasgai osagarri gisa ikas dezakete eta masterretik gorako ikasketetan, espezializazio mailako programak eskaintzen dira. Budapesteko Unibertsitate Teknikoak zientzia kognitiboari buruzko gradua eskaintzen du, linguistika konputazionala proportzio dezentean duena. Hungariako garapen berezi gisa, humanitate digitaletako graduak linguistika konputazionalekoak dira, tradizionalak ez bezala. Péter Pázmány Unibertsitate Katolikoko Informatika Fakultatea da, hizkuntza-teknologiako espezialitatea informatikako ikasleei eskaintzen diena.
Lehen ia ez zegoen bizitza profesionalik eta horregatik abiarazi genuen Számítógépes nyelvészet bloga (linguistika konputazionala adierazten duen hungarierazko terminoa). Ideiak eta jakintza komunitatearekin partekatzen ahalegintzen ditugun lau linguista konputazional gaztek osatzen dugu taldea. Batez ere hungarieraz blogatzen dugu, baina izaten dugu, gutxienez hilean behin, nazioarteko gonbidatu bat, gure irakurleei arloko azken garapenen berri ematen diena. Ingelesezko artikuluak http://formalthoughts.posterous.com/ helbidean argitaratzen ditugu, hungariarrak ez diren irakurleentzat.
Sinesten dugu zientziaren dibulgazioan, beraz, nyest.hu dibulgazio zientifikoko aldizkari digitalaren eskaintza onartu genuen eta publiko zabalarentzako linguistika konputazionalari buruzko artikuluak argitaratzen ditugu.
Open Knowledge Foundation-en (OKFN) webgunea bisitatzea gomendatu nahi nizueke, haren helburuak ezagut ditzazuen. Uste dut fundazioa ekintza bikaina dela hizkuntzalariek arlo horretan indarrak batu ditzaten. The Comprehensive Knowledge Archive Network (CKAN) datuak bilatzeko eta partekatzeko gune bat da – zergatik ez dugu hizkuntzalaritzako datuz hornitzen?
Datuen analisia gure lanaren parte bihurtu da. Get the Data webgunea (Stackoverflow-ren antzekoa) aukerako solasgunea da, datuen analisiei buruzko galderak egiteko eta publikoarekin jakintza partekatzeko. Zure burua email batez aurkeztuz OKFN working group on open data in linguistics lantaldearen partaide bihur zaitezke eta han azter dezakezu zer egin dezakezun guztion onerako.
http://semanticweb.com/bilbao-web-summit-to-present-first-dama-award-to-berners-lee_b19931
17/05/2011 - 21:50
The Bilbao Web Summit, which starts today in Bilbao, Spain, will include a new award known as the DAMA Award. This year the award will be given to Sir Tim Berners-Lee as “recognition for his invention of the Web.” According to the release, “The ceremony will be held during the Cocktail Gala at the Guggenheim Museum in Bilbao as part of the conclusion of the Web Summit. At that time, the awards committee will also announce the organization of the 2013 award.” continued…
New Career Opportunities Daily: The best jobs in media.
http://permalink.gmane.org/gmane.science.linguistics.corpora/13135
10/05/2011 - 11:30
Dear colleagues,
we are pleased to inform you that as of today, the
Vienna-Oxford-International-Corpus-of-English (VOICE) XML is available
for download via the VOICE website!
VOICE XML is licensed under a Creative Commons
Attribution-NonCommercial-ShareAlike 3.0 Unported License
(http://creativecommons.org/licenses/by-nc-sa/3.0/) and includes all
corpus texts in XML format as well as derived HTML and TXT versions of
the corpus with reduced mark-up. For more information on VOICE XML see
https://www.univie.ac.at/voice/page/corpus_availability_xml and consult
the README file included in the download package.
In addition, the release of VOICE XML also marks the release of VOICE
1.1, an updated version of the corpus that includes minor
revisions in some of the corpus texts. As of today, the web interface of
VOICE Online is therefore updated to VOICE 1.1 Online
(https://www.univie.ac.at/voice/page/corpus_availability_online).
We hope you will find these additional resources helpful, and we are
looking forward
http://andonisagarna.blogspot.com/2011/05/hizkuntzen-industrian-diharduen-edonork.html
09/05/2011 - 16:55
Kalitatea, produktibitatea eta horien ondorioz lehiakortasuna lortu nahi duenak estandarretan oinarritu behar du bere lana. Hori ekonomiaren arlo guztietan gertatzen da. Aspaldi ulertu zuten hori ingeniaritza mekanikoan, esate baterako: 1926an sortu zuten International Federation of the National Standardizing Associations (ISA) erakundea. Hizkuntzen industriako jarduerak askoz berriagoak direnez, ez dago hain aspaldiko tradiziorik estandarren arloan, baina gaurko munduan ezinbestean gai horri heldu beharra dago.
Hizkuntzen industriako adituek wiki bat sortu dute, hizkuntzen erabilerarekin zerikusia duten estandarrei buruzko eztabaidak bideratzeko. Gai honi buruzko artikulu bat hemen aurki daiteke.
Hizkuntzen industrian erabiltzen diren estandarren informazio zabala aurki daiteke beste helbide honetan: https://flrc.mitre.org/References/Standards/index.pl#contentcreation
http://www.unibertsitatea.net/blogak/ixa/hitzaldia-lluis-marquez-ebaluazio-automatikoa-itzulpen-automatikoan-hizkuntz-oinarriko-neurrien-konbinaziorantz2011-05-10
06/05/2011 - 09:50
Gaia:"Ebaluazioa itzulpen automatikoan: Hizkuntz oinarriko neurrien konbinaziorantz / "Automatic evaluation in Machine Translation:
Towards combined linguistically-motivated measures" Hizlaria:Lluís Màrquez
NLPRG, TALP
Technical University of Catalonia, UPC
 Udara arte gurekin izango dugu Lluis Marquez, OPENMT-2 proiektu barruan UPC-ko burua dena. Bera nazioarteko aditua da hizkuntza-teknologian, ikasketa automatikoko teknikak erabiltzen batez ere.
Tokia: Informatika Fakultateko Batzar Aretoa
Eguna: Maiatzaren 10.an
Ordua: 15:30
Laburpena:
Automatic evaluation plays a very important role in the development and comparison of machine translation systems. In this talk we will
overview the current trend of using linguistically-guided evaluation
measures based on several linguistic layers and their combination.
Also, we will talk about confidence estimation measures, a particular
subset of measures to assess output quality without the need of
reference translations. Finally, we will overview the role of
evaluation measures within the FAUST European project (Feedback Analysis
for User Adaptive Statistical Translation; http://www.faust-fp7.eu/),
focusing on the usage of user feedback to guide the combination of
measures.
http://semanticweb.com/lessons-from-watson_b19723
06/05/2011 - 01:20
A recent article discusses the lessons that can be learned from Watson, IBM’s champion computer: “Big Blue has set its sights on many commercial applications for the technology in healthcare, financial services and customer service operations. But the question remains, is it practical? Does Watson embody an approach that enterprises can exploit, or learn from? How readily can a “Watson” be applied to the knowledge and content access problems of the typical enterprise?” continued…
New Career Opportunities Daily: The best jobs in media.
http://semanticweb.com/the-w3c-publishes-working-drafts-on-rdfa_b19358
04/05/2011 - 13:15
We recently reported on the W3C’s progress with regards to RDF2. Since then the W3C has also announced that “The RDF Web Applications Working Group has published a new Working Draft of the RDFa API. This document specifies an API to access the RDF data embedded in an HTML or XHTML page using RDFa. The Working Group also published a First Public Working Draft of the RDFa 1.1 Primer; this is an updated version of the RDFa Primer that has been adapted to the features of RDFa Core 1.1 specification.” continued…
New Career Opportunities Daily: The best jobs in media.
http://semanticweb.com/extra-extra-rnews-seeks-to-be-semantic-standard-for-online-news-publishers_b19190
15/04/2011 - 19:40
News publishing outlets stand to benefit from adopting Semantic Web technologies, and now there’s a lightweight way for them to begin moving in that direction, too.

The International Press Telecommunications Council (IPTC) recently introduced rNews 0.1, a set of specifications and best practices for using RDFa to embed news-specific metadata (headlines, bylines, publication dates and so on) into HTML documents. It hopes rNews will become a standard in the industry for conveying through to browsers and into HTML documents the deep structure and explicitly modeled content that exists in publishers’ back-end data layers. The wider its adoption across news channels, the greater the chance of innovative apps cropping up that can help publishers increase engagement with their audiences, according to rNews’ developers.
continued…
New Career Opportunities Daily: The best jobs in media.
|