En esta línea de investigación se pretenden compilar y desarrollar los recursos básicos necesarios para la realización del resto de las tareas del proyecto. Estas pueden ser, por ejemplo:

  • Herramientas de obtención de corpus a partir de Internet, tanto monolingües como multilingües, generales o de dominio, comparables o paralelos
  • Corpus de todo tipo obtenidos a partir de Internet
  • Herramientas de construcción automática de diccionarios por pivotaje
  • Herramientas de extracción terminológica tanto de corpus monolingües como multilingües, de paralelos como comparables, mejoradas y con nuevos idiomas
  • Diccionarios monolingües o bilingües, generales o terminológicos
  • Herramientas para la inclusión de conocimiento semántico en diccionarios
  • Herramientas de construcción de ontologías, tanto generales como de dominio, manual o automáticamente
  • Ontologías generales y de dominio
  • Analizadores de dependencias sintácticas
  • Sistemas de identificación de límites de oraciones y sintagmas
  • Analizadores semánticos
  • Motor de reconocimiento de habla continua
  • Reconocedores de habla para euskera e inglés
  • Técnicas de evaluación objetiva de sistemas de conversión texto a voz
  • Técnicas de transformación de voces
  • Técnicas de detección de segmentos de voz
  • Técnicas de detección de cambio de turno en conversaciones
  • Técnicas de clasificación de locutores
  • Sistemas de diálogo

Se desarrollarán también recursos y herramientas no existentes que se consideren fundamentales para el desarrollo de las tecnologías del lenguaje, aunque no sean estrictamente necesarias para el desarrollo del resto de las tareas del proyecto.