LISTSERV - INTERLNG Archives - LISTSERV.ICORS.ORG

In basso es mi respons a un message in Facebook,
https://www.facebook.com/groups/interlingua.IALA/permalink/3128901893798867/
=======

Le 2 de juni 2020, Todd Mockler scribeva:

 > Corpore de interlingua de IALA - un collaboration
 >
 >  Salute! Io vole organisar un projecto collaborative compilar un
 >  corpore comprensive de textos de interlingua, in forma
electronic.
 >  Le objecto de iste corpore de textos de interlingua va esser
adjutar
 >  con analyses de computator del lingua, esser un resource pro le
 >  communitate, e facilitar le disveloppamento de utensiles in linea
 >  pro interlingua.
 >  Le scopo de iste projecto include, mais non limate a, 1)
faciente un
 >  dictionario frequentia pro interlingua,

Un idea interessante.

In un maniera simile a lo que io describe in
https://rudhar.com/index/cron/script.htm, io poterea facer un tal
lista del frequentia del parolas, basate sur mi proprie articulos
in interlingua, typificate per "lang=ia". Vide per exemplo mi
lista RSS in http:/rudhar.com/rss e
https://rudhar.com/rss/rssinga.xml .

Lo que io expectarea de un tal lista es:
a) Naturalmente il habera un superrepresentation de parolas que
pertine al themas super le qual io sovente scribe, e un
subrepresentation de parolas de altere materias.
b) Como in tote le linguas, ergo anque in interlingua, le curte e
simplice parolas como 'le', 'de', 'in', 'a', que, 'io', 'on' e
'es', que es le particulas o parolas de function, es le parolas
plus usate. Le altere vocabulos seque, con le parolas
specialisate al fin.

Lo que non es clar pro me, es como un lista de frequentia pote
esser utile pro le communitate de interlingua. Saper que parolas
primo apprender? Il ja ha le lista de 2500 parolas frequente:
https://www.interlingua.com/e-libros/2500-lista/. Anque, si on
apprende de textos e conversationes existente, automaticamente le
parolas le plus frequente es ben repetite, que adjuta le memorisar.

Todd Mockler anque scribeva:

 > 2) faciente intelligentia artificial pro traducer
 > interlingua (como Google Translate).
 >   Assi, io cerca pro collaboratores qui me adjutara
 > assembler un collection grande de textos de interlingua.
 > Io necessita vostre adjuta con trovar e collectionar
 > documentos electronic e sitos web in interlingua includiente
 > PDFs e pares del mesme phrases in interlingua e anglese.
 >   Per exemplo, Tatoeba.org es un fonte excellente de phrases,
 > mais illo solmente contine circa 25,000 phrases de interlingua
 > e circa 15,000 pares de phrases in interlingua e anglese. Iste
 > es troppos pauc pares de phrases pro facer un modelo de
 > alte-qualitate traduction machina.

Io vide hic alicun problemas:

2.1) Io ha legite que Google Translate usque recentemente
utilisava methodos statistic pro traducer textos de un lingua
human a un altere. Vide (in anglese)
https://en.wikipedia.org/wiki/Statistical_machine_translation .
Le resultatos non esseva multo bon. Le plus moderne DeepL, e ora
anque Google Translate, probabilemente usa Retes Neural pro
https://en.wikipedia.org/wiki/Neural_machine_translation . Le
resultatos es multo melior.

Qui pote mesmo applicar tal methodos? Io non. Le detalios pote
esser ben complicate (https://en.wikipedia.org/wiki/Deep_learning
https://en.wikipedia.org/wiki/Feature_learning, etc.), e require
ressources de computation multo forte: io ha legite que DeepL ha
un centro de computation special presso Reykjavik, que usa le
energia del terra profunde pro le multe processores e lor
refrigeration.

2.2) Actualmente il non ha bastante textos in interlingua, e
ancora minus textos que corresponde phrase a phrase a textos in
altere linguas. Ergo forsan ante que effortios es dedicate a
facer un corpore, il es melior focusar a traducer litteratura in
le dominio public, e a extender le Wikipedia in interlingua. In
Wikipedia, un fonte acceptabile es anque articulos Wikipedia in
altere linguas. Ergo qui traduce in articulo del Wikipedia
anglese, francese, espaniol etc. a in interlingua, con illo crea
textos bilingue, que plus tarde pote esser usate pro reimpler un
corpore multilingue de textos. Ma il non ha garantias que le
correspondentia phrase a phrase remane quando le articulos es
editate.

--
Ruud Harmsen, http://rudhar.com


--
Pro leger le archivos e pro modificar o cancellar le subscription:
http://listserv.icors.org/archives/interlng.html