|
Redada nº 18 |
|||
|
|||
| As
industrias da lingua en Galicia: Eppure si muove (I) (16
de xaneiro de 2002) O futuro da lingua galega como sinal de identidade depende, como no caso de calquera outro idioma, da súa capacidade de desenvolvemento como sistema de comunicación. Na actualidade calquera de nós considera vital para un idioma coma o noso que os seus falantes poidan dispoñer dunha escrita; non sempre foi así, cando a vida dos galegos era eminentemente de carácter oral. O adiantos sociais e tecnolóxicos que foron xurdindo co devir dos anos, especialmente a xeneralización do ensino e dos medios de comunicación, fixéronnos ver como necesaria a adopción da lecto-escritura, dunha norma común, a elaboración de diccionarios e gramáticas para facilitar a adaptación da lingua ao novo contexto... A aparición e vertixinoso desenvolvemento das tecnoloxías da comunicación e da información están a condicionar outra volta a adaptación e supervivencia dos idiomas, especialmente dos que carecen dun número de falantes que constitúan un mercado apetecible, nestes tempos neoliberais. Témonos referido en numerosas ocasións, e esta constitúe unha das teses centrais do noso estudio Da periferia á rede, á necesidade de de contar con contidos de seu e na lingua propia. Sen embargo, paralelamente, deben fornecerse as ferramentas que faciliten a incorporación do idioma ao novo contexto. Antes foron os abecedarios, as normas, as gramáticas e diccionarios; a versión actualizada destas ferramentas son as denominadas industrias da lingua, "os valores engadidos lingüísticos que impregnan productos e servicios dixitais", en palabras de José Antonio Millán (1). No mundo dixital, e nomeadamente en Internet, dadas as características do medio, elas son as que poden facilitar a comunicación e as transaccións de diverso tipo que son o verdadeiro cerne da Rede. Vai para dous anos, cando redactabamos Da periferia á rede, salientabamos o cativo desenvolvemento destas ferramentas para o galego. Arestora o panorama é algo máis alentador, sen ser especialmente brillante. Productos básicos da investigación lingüística O primeiro que cómpre para desenvolver industrias da lingua é contar con investigacións previas de carácter eminentemente lingüístico, de análise e estudio do corpus do galego. Por si mesmos, non teñen uso común, pero son imprescindibles. Evidentemente, non imos aquí facer un percorrido polos traballos de investigación que se levan feito ou se están a desenvolver sobre o galego, pero si nos imos referir á súa existencia pública e de xeito dixital, pasando revista ás institucións que teñen responsabilidades sobre o tema. O Instituto da Lingua Galega da Universidade de Santiago é, sen dúbida, o primeiro e fundamental esteo da investigación lingüística do noso país, mais os productos deste carácter en formato dixital que leva ofrecido limítanse á edición do Diccionario de diccionarios, unha recompilación dos diccionarios de galego editados dende o século XIX en forma de base de datos consultable en cd-rom, de excepcional calidade, e que supera, sen dúbida ningunha, o tan cacarexado da Real Academia Española (2). Esta cativa oferta hai que encadrala, supoñemos, nas limitacións económicas que de sempre levan pexado a actividade do Instituto. Sen embargo, os resultados dos seus traballos de investigacion poden ser a chave para o desenvolvemento de productos posteriores, como logo veremos.A Real Academia Galega nin sequera dispón de web. Sen embargo, dende decembro de 2001 un dos escasos froitos que leva producido neste terreo, o seu Diccionario, do ano 1997 e dunhas 25.000 entradas da lingua común, está dispoñible para consultar a través do web da Dirección Xeral de Política Lingüística. O Centro Ramón Piñeiro para a Investigacion en Humanidades acubilla varios proxectos de grande importancia dentro do eido da investigación básica para o desenvolvemento de industrias da lingua, segundo a información vertida no propio web. O proxecto BILEGA desenvolveu unha base de datos sobre bibliografía da lingüística galega consultable a través da Web. Aínda que se trata dunha experiencia pioneira en Galicia, o seu valor depréciase coa falta de actualización que sofre dende o ano 2000. Existe tamén un proxecto dun etiquetador e lematizador do galego actual, que permite que unha máquina relacione raíces e formas flexionadas, como por exemplo, can e cans, prouguen e pracer, ou esluído e esluidamente, e que posteriormente servirá para desambiguar automaticamente palabras e frases. Sen embargo, no ano 2000 a que se refire a información que fornece no web, estaba nunha primeira fase de elaboración das regras. O proxecto CORGA (corpus de referencia do galego actual) leva almacenado unha colección de textos de diversa procedencia, representativos do galego actual (dende 1995 ata 2004), en formato electrónico, o que permitirá o estudio e a análise exhaustiva e rápida do devandito corpus. Parte deste traballo xa é posible consultalo a través do web. Finalmente o proxecto TERMIGAL, nado da colaboración do Centro Ramón Piñeiro, a Academia Galega e a Xunta de Galicia, está constituído dende 1995 como un servicio de terminoloxía, para o estudio, revisión e difusión da terminoloxía galega nos diferentes eidos da ciencia e da tecnoloxía. O certo é que os únicos froitos do TERMIGAL que viron a luz nestes seis anos de andaina foron dous libros de regulamentos municipais e formularios notariais, non dispoñibles no web. Ningún dos repertorios terminolóxicos en que o TERMIGAL declara estar a traballar na súa memoria de actividades (vocabularios de telecomunicacións, hostalería e restauración, automóbil, téxtil, construcción, ou relacións laborais), está dispoñible no web (3), por non falarmos da imposibilidade de realizar consultas vía electrónica. O mesmo ocorre con outros proxectos englobados dentro da área de humanidades, como o do Diccionario de fraseoloxía galega, dirixido polo académico Ferro Ruibal, que segundo o web xa dispoñía en 1999 de máis de 150.000 entradas. Pola súa banda, e seguindo cos proxectos do CIRP, ERIAL (Extracción e Recuperación de Información mediante Análise Lingüística) é un proxecto nado en 1999, a tres anos, que persegue a realización dun sistema de extracción intelixente de información nun contorno multilingüe. O proxecto GalWordNet consiste na elaboración dunha base de datos semántica, que almacene os significados a través de relacións do tipo hiponimia, meronimia, relacións causais, etc. A Wordnet do galego intégrase no proxecto EuroWordNet que ten como obxectivo a elaboración dunha base semántica multilingüe. Ambos os proxectos son esteo fundamental para desenvolver a denominada web intelixente, isto é, unha internet máis facilmente manexable polas persoas. As universidades galegas, a través do traballo dos seus departamentos de filoloxía e de traducción, e dos seus servicios de normalización lingüística, así como iniciativas de empresas, asociacións e particulares, son os axentes que máis teñen contribuído á existencia dixital de repertorios terminolóxicos multilingües de áreas diversas, dende internet e a informática ata as matemáticas, ou o fútbol. Sen embargo, moitos dos léxicos e vocabularios editados nos últimos quince anos por estes ou outros axentes seguen sen ver a luz na Rede (4). En Galicia non hai posibilidade ningunha de acceder a bancos de datos terminolóxicos, nin o do xa amentado proxecto TERMIGAL, sobre o cal recaen as responsabilidades nesta materia (5), nin doutros organismos que, é de supoñer, deberían contar con algún: os servicios lingüísticos da Xunta de Galicia (en particular, o Servicio de Traducción do Diario Oficial de Galicia), do Parlamento, de universidades e concellos, da CRTVG, etc. A maioría deles nin sequera teñen presencia na arañeira (6). Daquela, hoxe por hoxe, e seguindo a relación de elementos base que fai José Antonio Millán (7), si contamos con diversos repertorios terminolóxicos multilingües (na maioría dos casos, bilingües español-galego), cunha base de datos aínda incompleta sobre a toponimia galega e dispoñemos de diccionarios e diccionarios enciclopédicos en soporte dixital, aínda que non estean dispoñibles na Rede (8). Por outra banda, estamos á espera de que se rematen versións dixitais de diccionarios morfolóxicos que lematicen e flexionen; tesauros ou redes semánticas; diccionarios sintácticos para a análise e síntese do idioma e desambiguadores que analicen o contexto no que aparecen palabras e expresións con máis dun sentido, para desentrañalas; traballos todos eles que está a executar o CIRP. Tales investigacións son básicas para o desenvolvemento de ferramentas posteriores máis elaboradas: son o piar do I+D das industrias da lingua que poden contribuír a asegurar o futuro do noso idioma. O seu coñecemento e o acceso a eles son chave para que poidan desenvolverse e consolidarse iniciativas neste sector que creen emprego e productos de alto valor engadido a prol da nosa lingua (9). Como defendiamos en Da periferia á rede, "A falta dunha industria da lingua en liña repercute moi negativamente no uso do galego na Rede e no acceso de falantes doutras linguas ás páxinas en galego. Non contarmos con traductores automáticos obriga a utilizar outras linguas para promocionar os webs fóra do ámbito galego co conseguinte encarecemento de custos; demora a actualización da información xerada en galego e que se pretenda proporcionar noutros idiomas; dificulta o acceso ás páxinas en galego daqueles internautas que non dominen a nosa lingua." Claro que tamén podemos preguntarnos se estas institucións, organismos e servicios a que nos acabamos de referir, teñen a dotación de recursos abonda, aínda que se trate do Centro Ramón Piñeiro, o máis beneficiado de todos eles (10). E imos referirnos, sobre todo, ao factor humano. ¿Pode un servicio de terminoloxía funcionar exclusivamente a base de bolseiros? ¿Pódese levar adiante moitas destas investigacións, que requiren unha enorme especialización, a base de bolsas cunha duración máxima de dous anos, dirixidas a persoas que acaban de licenciarse? ¿Pode un mesmo investigador dirixir unha morea de proxectos tan especializados coma estes e en semellantes condicións? (11). ¿Pódese pretender nas actuais circunstancias laborais dos enxeñeiros e informáticos, que estes se rebaixen a colaborar por pouco máis de 600 euros (100 mil pesetas) nestes proxectos? Por outra banda, tamén podemos cuestionarnos se se están a crear as condicións de sinerxía necesarias para que todas estas institucións e organismos cooperen e se complementen no seu traballo, ou pola contra, se prima a competencia mal entendida, o caos e a dispersión nos esforzos. Igualmente, resulta cuestionable a cativa –practicamente inexistente- participación en proxectos europeos con financiamento. En definitiva, podemos cuestionarnos a política lingüística a respecto da base das industrias da lingua neste crucial momento para o futuro do galego. Mais, prometiamos na redada anterior que iamos dar notas positivas; na segunda parte desta, sobre módulos orientados a tarefas e productos finais, veremos que... EPPURE SI MUOVE.
(1) Millán, J. A. (2001): Internet y el español, Madrid, Fundación Retevisión. (2) A aparición do noso Diccionario de diccionarios a penas mereceu algunha nova nos medios de comunicación galegos, mentres que o da Academia Española foi saudado con fogos de artificio (vid., por exemplo, esta nova de El Mundo). (3) Nin tampouco non coñecemos a súa existencia en calquera outro soporte. (4) Dende a páxina de recursos de Ciberlingua, elaborada por Ana Hermida, ou dende a de ligazóns do Servicio de Normalización Lingüistica da Universidade de Santiago, pódese ter acceso a practicamente todos eles. No web deste Servicio tamén se pode consultar unha lista exhaustiva ata o ano 2000 de bibliografía de apoio que inclúe un apartado de vocabularios específicos. (5) Na súa memoria de actividades figura a ampliación e depuración do banco de datos. (6) As excepcións son os servicios das universidades (USC, UVigo) e dalgúns concellos, como o de Santiago ou o da Mancomunidade de Vigo. (7) Op. cit., páxina 128. (8) Por exemplo, o Diccionario do Cumio ou a Enciclopedia Galega Universal de Ir Indo. (9) Sen embargo, só na memoria do proxecto do etiquetador-lematizador se afirma a súa vocación pública ("esta ferramenta de traballo, unha vez rematada, estará a disposición de tódolos investigadores interesados en estudiar algún aspecto do galego"). (10) Entrados xa neste terreo, e por suposto, con ánimo de polemizar, tamén podemos preguntarnos polo bo destino dos recursos. Por exemplo, o Centro Ramón Piñeiro edita un bo feixe de títulos ao ano, moitos deles de dubidoso interese e utilidade xeral, na nosa opinión -como as edicións facsímiles-, que poderían ofrecerse noutro tipo de soportes menos custosos, por non falarmos da dubidosa necesidade de que un centro destas características acubille certos proxectos, sempre, claro está, dende a nosa perspectiva. (11) Por exemplo, o catedrático e académico Manuel González dirixe proxectos no ILG, traballos de lexicografía para a Academia, e no CIRP o desenvolvemento dun sintetizador texto-fala e mais o TERMIGAL. Sen dubidarmos das súas capacidades, será que o tempo o dá deus de balde...
|
|
|
|
Subscríbase ás redadas |