Vom Thema belegte Seiten: [1 2] > |
有没有想一起做翻译服务和翻译软件公司的啊? Initiator des Themas: eng2chi
|
eng2chi Vereinigtes Königreich Local time: 17:13 Englisch > Chinesisch + ...
有没有想一起做翻译服务和翻译软件公司的啊?
自由自在一个人翻译惯了,有没有想培养个团队呢?
数字化信息如潮水般产生,有没有觉得单靠一己之力翻译没办法吞下翻译蓝/红海的?
拿个海外的高学历高职位高薪水,有没有觉得挤点时间精力资源资质到国内,找个比如翻译+科技产业,才能跟上国内发展速度/行情的?
翻译数年数百万字时,有没有觉得有些流程是还没有软件化的?
虽然对机器翻译一如既往地嘲笑,但又没有意识到机器这种傻东西,可能也能分市场蛋糕的。
……………………
各种创意,各种诉求,各种付出,各种才能,各种形式,大家都聊聊,并诚邀合作。qq群:1069723 | | |
Jinhang Wang China Local time: 17:13 Englisch > Chinesisch + ...
组建个翻译团队比较容易,做翻译软件公司就是另一回事了,虽然我对后一种颇有兴趣。 | | |
Foco Yang China Local time: 17:13 Englisch > Chinesisch |
jyuan_us Vereinigte Staaten Local time: 05:13 Mitglied (2005) Englisch > Chinesisch + ...
eng2chi wrote:
有没有想一起做翻译服务和翻译软件公司的啊?
自由自在一个人翻译惯了,有没有想培养个团队呢?
数字化信息如潮水般产生,有没有觉得单靠一己之力翻译没办法吞下翻译蓝/红海的?
拿个海外的高学历高职位高薪水,有没有觉得挤点时间精力资源资质到国内,找个比如翻译+科技产业,才能跟上国内发展速度/行情的?
翻译数年数百万字时,有没有觉得有些流程是还没有软件化的?
虽然对机器翻译一如既往地嘲笑,但又没有意识到机器这种傻东西,可能也能分市场蛋糕的。
……………………
各种创意,各种诉求,各种付出,各种才能,各种形式,大家都聊聊,并诚邀合作。qq群:1069723
不是早就飽合了嗎?目前CAT太過剩了,有的公司可能根本無法收回開發成本。
而且,即使沒有競爭,讓我們這種人參與開發軟件也是不現實的。前期投入也許得要100万美元,做出來了還可能沒人買。
以自由職業者起家的人,要是有100万,他就不冒這個險了吧? | |
|
|
Jinhang Wang China Local time: 17:13 Englisch > Chinesisch + ...
要做翻译软件,首先要有技术。这个比较难,资金相对容易些。 | | |
henryhu Local time: 17:13 Englisch > Chinesisch
自己本身喜欢翻译,工作是IT,已经开发了一套基于开源软件的机器翻译系统,还在建设与翻译相关的网站。正想找有这方面志向的人合作发展事业。其实,开源软件是一个很好的平台,以其为基础,开发出实用的系统或软件并不困难。这比自己从头开发和维护一套系统要优越得多。系统不是问题,资金也不是,开始规模不大,并不需要大量投入。因此,最重要的还是人和想法。
目前我在做的是基于Web的翻译工具,术语工具,然后打算是结合机器翻译和社会化翻译,目的是使翻译更有效率和有趣。正在建的一个网站是:http://openglossary.org | | |
Jinhang Wang China Local time: 17:13 Englisch > Chinesisch + ...
henryhu wrote:
自己本身喜欢翻译,工作是IT,已经开发了一套基于开源软件的机器翻译系统,还在建设与翻译相关的网站。正想找有这方面志向的人合作发展事业。其实,开源软件是一个很好的平台,以其为基础,开发出实用的系统或软件并不困难。这比自己从头开发和维护一套系统要优越得多。系统不是问题,资金也不是,开始规模不大,并不需要大量投入。因此,最重要的还是人和想法。
目前我在做的是基于Web的翻译工具,术语工具,然后打算是结合机器翻译和社会化翻译,目的是使翻译更有效率和有趣。正在建的一个网站是:http://openglossary.org
看来你已经有了开头。不过,机器翻译的复杂度我是做过估计,以至于望而却步。希望有机会了解你们的系统。 | | |
henryhu Local time: 17:13 Englisch > Chinesisch 核心是开源软件 Moses | Dec 1, 2012 |
J.H. Wang wrote:
henryhu wrote:
自己本身喜欢翻译,工作是IT,已经开发了一套基于开源软件的机器翻译系统,还在建设与翻译相关的网站。正想找有这方面志向的人合作发展事业。其实,开源软件是一个很好的平台,以其为基础,开发出实用的系统或软件并不困难。这比自己从头开发和维护一套系统要优越得多。系统不是问题,资金也不是,开始规模不大,并不需要大量投入。因此,最重要的还是人和想法。
目前我在做的是基于Web的翻译工具,术语工具,然后打算是结合机器翻译和社会化翻译,目的是使翻译更有效率和有趣。正在建的一个网站是:http://openglossary.org
看来你已经有了开头。不过,机器翻译的复杂度我是做过估计,以至于望而却步。希望有机会了解你们的系统。
我们使用开源软件Moses,http://www.statmt.org/moses
所以关于创建语言模型,以及training, tuning, scoring, decoding等都使用Moses中已经做好的功能,我们主要做的是语料的处理,以及用户界面 ,这样将复杂的Moses包装成方便使用的产品。如果是纯粹算法方面,那留给博士、博士后们去研究。除了统计模型,还有很多事可做,比如我就认为语料处理方面很关键,我们如何去利用一些现成或需要整理的语料,加上合适的术语,可以有效提高机器翻译质量。我的体会是,在开源软件的基础上,很多东西已经不是那么让人望而生畏了。 | |
|
|
Jinhang Wang China Local time: 17:13 Englisch > Chinesisch + ...
henryhu wrote:
我们使用开源软件Moses,http://www.statmt.org/moses
所以关于创建语言模型,以及training, tuning, scoring, decoding等都使用Moses中已经做好的功能,我们主要做的是语料的处理,以及用户界面 ,这样将复杂的Moses包装成方便使用的产品。如果是纯粹算法方面,那留给博士、博士后们去研究。除了统计模型,还有很多事可做,比如我就认为语料处理方面很关键,我们如何去利用一些现成或需要整理的语料,加上合适的术语,可以有效提高机器翻译质量。我的体会是,在开源软件的基础上,很多东西已经不是那么让人望而生畏了。
说实话,我对采用统计方法来实现中英语之间的机器翻译颇为怀疑。采用统计的方法,首先是要有庞大的中英文语料库,而且这些语料的质量要很高才行。否则,语料库本身质量较差,那算法再好恐怕也不行。我觉得建立语料库本身就是一个工作量很大的问题。不管语料来源何处,要用于软件开发,总得先对这些语料的质量进行审查和校订。比如,一个很大的语料库,假设有1亿字,如果要校订的话,需要有高水平的译者来审核校对,比如一个高水平的译者一年加工一百万字,那么就需要100年才能完成。如果用10个人来做,需要10年完成。事实上,真正要找到10名高水平的校对者也不是一件很容易的事。因此,这个工作就相当难做。
不过,我觉得解决语料问题的一个途径是实行各个开发单位、企业之间的大规模协作。大家在算法上可以保密,在语料上实现共享,这样我想对大家都有利。 | | |
nigerose China Local time: 17:13 Chinesisch > Englisch + ...
J.H. Wang wrote:
henryhu wrote:
我们使用开源软件Moses,http://www.statmt.org/moses
所以关于创建语言模型,以及training, tuning, scoring, decoding等都使用Moses中已经做好的功能,我们主要做的是语料的处理,以及用户界面 ,这样将复杂的Moses包装成方便使用的产品。如果是纯粹算法方面,那留给博士、博士后们去研究。除了统计模型,还有很多事可做,比如我就认为语料处理方面很关键,我们如何去利用一些现成或需要整理的语料,加上合适的术语,可以有效提高机器翻译质量。我的体会是,在开源软件的基础上,很多东西已经不是那么让人望而生畏了。
说实话,我对采用统计方法来实现中英语之间的机器翻译颇为怀疑。采用统计的方法,首先是要有庞大的中英文语料库,而且这些语料的质量要很高才行。否则,语料库本身质量较差,那算法再好恐怕也不行。我觉得建立语料库本身就是一个工作量很大的问题。不管语料来源何处,要用于软件开发,总得先对这些语料的质量进行审查和校订。比如,一个很大的语料库,假设有1亿字,如果要校订的话,需要有高水平的译者来审核校对,比如一个高水平的译者一年加工一百万字,那么就需要100年才能完成。如果用10个人来做,需要10年完成。事实上,真正要找到10名高水平的校对者也不是一件很容易的事。因此,这个工作就相当难做。
不过,我觉得解决语料问题的一个途径是实行各个开发单位、企业之间的大规模协作。大家在算法上可以保密,在语料上实现共享,这样我想对大家都有利。
嗯,说的对。国内专利行业这么多年来积累了内容无比丰富但质量参差不齐的专利语料库。至于质量审查和校订工作嘛,我估计是不可能完成的,哈哈。感谢行业低价,哈哈!没有机器翻译能抢饭碗,各位继续开拓啊。
[修改时间: 2012-12-19 15:14 GMT] | | |
Jinhang Wang China Local time: 17:13 Englisch > Chinesisch + ...
nigerose wrote:
嗯,说的对。国内专利行业这么多年来积累了内容无比丰富但质量参差不齐的专利语料库。至于质量审查和校订工作嘛,我估计是不可能完成的,哈哈。感谢行业低价,哈哈!没有机器翻译能抢饭碗,各位继续开拓啊。
[修改时间: 2012-12-19 15:14 GMT]
从技术发展趋势来看,将来机器翻译代替大部分的人工翻译似乎是不过避免的。所以,现在自然是没事的,以后就难说了,呵呵。
看下面的消息:
“美国发明家、未来学家雷·科兹威尔(Ray Kurzweil)最近在接受《赫芬顿邮报》采访时预言,到2029年机译的质量将达到人工翻译的水准。”
参见以下链接:
http://www.tac-online.org.cn/ch/tran/2011-09/28/content_4531176.htm
不过,机器要完全代替人工翻译恐怕也不太容易,呵呵。
[Edited at 2012-12-19 18:43 GMT] | | |
wherestip Vereinigte Staaten Local time: 04:13 Chinesisch > Englisch + ... Artificial intelligence | Dec 19, 2012 |
J.H. Wang wrote:
不过,机器要完全代替人工翻译恐怕也不太容易,呵呵。
http://en.wikipedia.org/wiki/Watson_(computer)
You basically need something equivalent to IBM's Watson Supercomputer - the machine that beat out several human champions on the TV game show "Jeopardy!". Anything short of that IMO is doomed to fail, simply because the first step to translation is correctly understanding the original.
Future uses
According to IBM, "The goal is to have computers start to interact in natural human terms across a range of applications and processes, understanding the questions that humans ask and providing answers that humans can understand and justify."
...
While Watson is a high-performance analytics system, it is not cognitive as human beings are. It cannot think like the human brain but can only learn, synthesize and provide an output. Another research project at IBM that focuses on cognitive computing, which is funded by NASA, aims at simulating the fundamental behaviour of the human brain, which is to process information and respond on an event-driven basis rather than a clock-driven basis. In December 2011, the researchers of this project explained that they might be able to combine their accomplishments in making a cognitive computer with Watson's analytical ability, similar to the combination of the brain's left and right hemispheres,[citation needed]) to produce a more sophisticated cognitive computer. However, they agree that simulating a human brain precisely is not yet possible, since the mechanisms of the brain are still unknown.
Despite the overall achievement, the success rate of IBM's Watson in correctly understanding the clues in the form of statements** was still less than 50%, in my estimation.
Keep in mind, these researchers are the brightest minds (involved in artificial intelligence) of the Research Division of the prestigious American high-tech company, IBM. And it is a machine developed by English-speaking researchers with one of the basic goals of correctly interpreting basic English statements that humans themselves have no problem understanding. To put it simply, once the statement is correctly understood by the machine, the secondary and subsequent tasks fall into the category of data mining, analytics, etc., on par with the secondary task of rendering a piece of text into a different language when it comes to translation( - again, once the original is deciphered).
As far as machines understanding human language is concerned, that, I'm afraid, is the present state of the art.
** The way "Jeopardy!" is played, is the clues are actually in the form of statements, the answers given by the contestants have to be in the form of a question, otherwise they are considered wrong. But that's a minor technical detail that's irrelevant to this discussion.
[Edited at 2012-12-20 01:54 GMT] | |
|
|
Loise Frankreich Local time: 11:13 Französisch > Chinesisch + ...
J.H. Wang wrote:
说实话,我对采用统计方法来实现中英语之间的机器翻译颇为怀疑。采用统计的方法,首先是要有庞大的中英文语料库,而且这些语料的质量要很高才行。否则,语料库本身质量较差,那算法再好恐怕也不行。我觉得建立语料库本身就是一个工作量很大的问题。不管语料来源何处,要用于软件开发,总得先对这些语料的质量进行审查和校订。比如,一个很大的语料库,假设有1亿字,如果要校订的话,需要有高水平的译者来审核校对,比如一个高水平的译者一年加工一百万字,那么就需要100年才能完成。如果用10个人来做,需要10年完成。事实上,真正要找到10名高水平的校对者也不是一件很容易的事。因此,这个工作就相当难做。
不过,我觉得解决语料问题的一个途径是实行各个开发单位、企业之间的大规模协作。大家在算法上可以保密,在语料上实现共享,这样我想对大家都有利。
Google Translate 就是采用统计方法对语料结构进行分析,继而建构语法,进行语言上下文判断,并在同义词中选择最贴近的单词。
基本上,这种以统计为基础的建构方法并不需要任何人工校阅。因为统计是建立在机率与“差不多”的近似值概念上,并不需要一个绝对精确,绝对高水平的语料库,只需要一个“差不多精确”,“差不多完美”,“差不多高水平”的语料库即可。而建立一个差不多高水平的语料库并不需要对收录的每笔语料做精确仔细的校阅,只需要设定搜索领域,挑选高水平的文章,仅收录这些高水平文章到语料库,然后再进行语法和上下文分析即可。因为我们可以假设质量高的文章,如知名作家,学术性文章,政府官方文件等的语言结构和语义表达是“差不多臻至完美”,“差不多精确的”。
我在学校修过认知科学和认知语言学的课程,对这个领域也相当感兴趣。
[Edited at 2012-12-22 07:26 GMT] | | |
wherestip Vereinigte Staaten Local time: 04:13 Chinesisch > Englisch + ... In theory, it's all fine and dandy, but the actual results are piss-poor | Dec 22, 2012 |
Loise Hsu wrote:
不需要人工校阅
随便拣两句简单的英文句子试试 Google Translate 转换为中文的能力 ...
He failed to yield at the intersection
他没有屈服的交叉点
In theory, it's all fine and dandy; but the actual results are piss-poor
从理论上讲,这是所有罚款和花花公子,但实际结果是小便差
[Edited at 2012-12-22 14:21 GMT] | | |
wherestip Vereinigte Staaten Local time: 04:13 Chinesisch > Englisch + ... For those who are not familiar with the terms | Dec 22, 2012 |
[Edited at 2012-12-22 13:42 GMT] | | |
Vom Thema belegte Seiten: [1 2] > |