<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Googlemon &#187; GOOG</title>
	<atom:link href="http://googlemon.ru/category/goog/feed/" rel="self" type="application/rss+xml" />
	<link>http://googlemon.ru</link>
	<description>Интернет-журнал о  корпорации Google</description>
	<lastBuildDate>Sat, 12 Sep 2015 20:40:42 +0000</lastBuildDate>
	<language>ru-RU</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=4.0.13</generator>
	<item>
		<title>Google отказывается от Microsoft</title>
		<link>http://googlemon.ru/goog/google_vs_microsoft/</link>
		<comments>http://googlemon.ru/goog/google_vs_microsoft/#comments</comments>
		<pubDate>Tue, 01 Jun 2010 08:03:05 +0000</pubDate>
		<dc:creator><![CDATA[admin]]></dc:creator>
				<category><![CDATA[GOOG]]></category>
		<category><![CDATA[Google Chrome OS]]></category>
		<category><![CDATA[Слухи]]></category>
		<category><![CDATA[Apple]]></category>
		<category><![CDATA[Mac OS]]></category>

		<guid isPermaLink="false">http://googlemon.ru/?p=1952</guid>
		<description><![CDATA[Мы больше не будем использовать Windows Цитируем Financial Times: Google is phasing out the internal use of Microsoft’s ubiquitous Windows operating system because of security concerns, according to several Google employees. The directive to move to other operating systems began in earnest in January, after Google’s Chinese operations were hacked, and could effectively end the&#8230;]]></description>
				<content:encoded><![CDATA[<p><img class="alignnone size-thumbnail wp-image-1953" title="google-vs-microsoft" src="http://googlemon.ru/wp-content/uploads/2010/06/google-vs-microsoft-150x150.jpg" alt="google-vs-microsoft" width="150" height="150" /></p>
<p><strong>Мы больше не будем использовать Windows</strong></p>
<p>Цитируем <a target="_blank" href="http://www.ft.com/cms/s/2/d2f3f04e-6ccf-11df-91c8-00144feab49a.html">Financial Times</a>:</p>
<blockquote><p>Google is phasing out the internal use of Microsoft’s ubiquitous Windows operating system because of security concerns, according to several Google employees.</p>
<p>The directive to move to other operating systems began in earnest in January, after Google’s Chinese operations were hacked, and could effectively end the use of Windows at Google, which employs more than 10,000 workers internationally.</p>
<p>“We’re not doing any more Windows. It is a security effort,” said one Google employee.</p></blockquote>
<p>Все логично, Microsoft конкурент Google, будут платить меньше лицензий. После случая в Китае, они поставили под сомнение безопасность Windows. Хотя, как говорится &#171;палка двух концов&#187;, пользователи могут уйти и на Mac OS, и вообще Google Chrome OS не может быть предназначен для развития самих компьютеров, т.к. продукты Гугл  &#8212; это веб-приложения.</p>
]]></content:encoded>
			<wfw:commentRss>http://googlemon.ru/goog/google_vs_microsoft/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Pac-Man навсегда</title>
		<link>http://googlemon.ru/%d1%81%d1%81%d1%8b%d0%bb%d0%ba%d0%b8/pac-man/</link>
		<comments>http://googlemon.ru/%d1%81%d1%81%d1%8b%d0%bb%d0%ba%d0%b8/pac-man/#comments</comments>
		<pubDate>Mon, 24 May 2010 06:25:51 +0000</pubDate>
		<dc:creator><![CDATA[admin]]></dc:creator>
				<category><![CDATA[GOOG]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Ссылки]]></category>
		<category><![CDATA[Namco Banda]]></category>
		<category><![CDATA[Pac-Man]]></category>

		<guid isPermaLink="false">http://googlemon.ru/?p=1936</guid>
		<description><![CDATA[Корпорация Google отметила тридцатилетие видеоигры Pac-Man, заменив на нее собственный логотип. Таким образом, все посетители сайта Google.com могли сыграть в Pac-Man на выходных 22 и 23 мая. В Google были так ошеломлены успехом Pac-Man’а на своей главной странице, что решили сделать доступной игру всегда — по адресу google.com/pacman. Игра Pac-Man была выпущена японской компанией Namco&#8230;]]></description>
				<content:encoded><![CDATA[<p><img class="alignnone size-full wp-image-1937" title="Pac-Man" src="http://googlemon.ru/wp-content/uploads/2010/05/Pac-Man.png" alt="Pac-Man" width="265" height="265" /></p>
<p>Корпорация Google отметила тридцатилетие видеоигры Pac-Man, заменив на нее собственный логотип. Таким образом, все посетители сайта Google.com могли сыграть в Pac-Man на выходных 22 и 23 мая.</p>
<p>В Google были так ошеломлены успехом Pac-Man’а на своей главной странице, что решили сделать доступной игру всегда — по адресу <a target="_blank" href="google.com/pacman" target="_blank">google.com/pacman</a>.</p>
<blockquote><p>Игра Pac-Man была выпущена японской компанией Namco Bandai 22 мая 1980 года. Смысл игры заключается в поедании главным героем по имени Pac-Man точек, разбросанных по лабиринту. Этому мешают четыре монстра по имени Blinky, Pinky, Inky и Clyde.</p></blockquote>
]]></content:encoded>
			<wfw:commentRss>http://googlemon.ru/%d1%81%d1%81%d1%8b%d0%bb%d0%ba%d0%b8/pac-man/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Гугловский лого в аж 884-х фотках размера 4?6</title>
		<link>http://googlemon.ru/goog/google_by_clay/</link>
		<comments>http://googlemon.ru/goog/google_by_clay/#comments</comments>
		<pubDate>Thu, 13 May 2010 08:40:04 +0000</pubDate>
		<dc:creator><![CDATA[admin]]></dc:creator>
				<category><![CDATA[GOOG]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[Product Ideas]]></category>
		<category><![CDATA[интересное]]></category>

		<guid isPermaLink="false">http://googlemon.ru/?p=1925</guid>
		<description><![CDATA[Пееревод от 9 мая 2010 – Ищите складированное в проектах. Несколько лет назад я прикинул, что было бы клёво создать… фотомозаику. Такую реальную. Т. е. вместо одного большого-пребольшого постера, где малые фотки, размером с почтовую марку играют роль «плиток», вместе создающих одно большое полотно постера, сделать большую картину из реальных фоток высокого разрешения, размером 4?6. В&#8230;]]></description>
				<content:encoded><![CDATA[<p>Пееревод от 9 мая 2010 – Ищите складированное в <a target="_blank" title="View all posts in projects" rel="category" href="http://www.claybavor.com/?cat=6"> проектах</a>.</p>
<p>Несколько лет назад я прикинул, что было бы клёво создать… фотомозаику. Такую реальную. Т. е. вместо одного большого-пребольшого постера, где малые фотки, размером с почтовую марку играют роль «плиток», вместе создающих одно большое полотно постера, сделать большую картину из реальных фоток высокого разрешения, размером 4?6.</p>
<p>В задаче этой было несколько моментов, которые меня озадачивали и тем привлекали (ну,  задача-то была сложная, как ни крути!). Во-первых, для того, чтобы иметь достаточно «плиток», чтобы общий рисунок, сделанный из них, был чёток, сама мозаика должна быть не просто большой, а преогромной. Посему потребовалась стена, а не просто поверхность. Во-вторых, для того, чтобы зритель смог оценить как общую мозаику, так и каждую «плитку» отдельно, на всё это надо смотреть с приличного расстояния (чтобы «плитки» давали общий цветовой фон, сливались т. с.), чтобы затем можно было подойти ближе и убедиться, что каждое фото есть отдельное фото. Посему гигант должен был занимать всю стену внутри помещения или целый блок где-нибудь снаружи. И в-третьих, при осмотре малых фотографий следовало бы убедиться в том, что и сами по себе они представляют чёткие, красивые, сюжетные и самостоятельные произведения. Поэтому я знал, что взять и скачать из сети самых разных фоток не получится. Мне надо было получить оригиналы файлов, с высоким разрешением, которые можно распечатать, в общем напрямую от фотографов.<br />
Вечером в четверг, после многих месяцев подготовки и планирования, с помощью десятка друзей и последователей гугла, всё «сложилось» наконец. Мы использовали 884 отдельных фотографий размера 4?6 с изображением людей, мест и всякой всячины со всей Британии (причём все фотки были сделаны гугломанами!), и вот результат – в лондонском офисе гугла мы создали логотип гугла на стене размером примерно 10?20 футов.</p>
<p>И, скажу я вам, этот опыт был нечто. Если смотреть на мозаику с расстояния 100 футов, глаз точно выцепляет гугловское лого, а, если затем идти по направлению к мозаике, то постепенно проступают детали уже отдельных фотографий. И это очень круто! Для тех, кто не живёт в Лондоне, вот вам попытка воссоздать то, что мы испытали, с помощью всё тех же фоток, приближений и увеличений (нижняя правая “G” и нижняя левая красной “o”), ну и отдельные снимки отдельных фото.</p>
<p><img class="alignnone size-full wp-image-1926" title="Google_mozaic_1" src="http://googlemon.ru/wp-content/uploads/2010/05/Google_mozaic_1.jpg" alt="Google_mozaic_1" width="615" height="346" /></p>
<p><img class="alignnone size-full wp-image-1927" title="Google_mozaic_2" src="http://googlemon.ru/wp-content/uploads/2010/05/Google_mozaic_2.jpg" alt="Google_mozaic_2" width="615" height="410" /><br />
(Это нижняя правая большого G и нижняя левая красная o.)</p>
<p><img class="alignnone size-full wp-image-1928" title="Google_mozaic_3" src="http://googlemon.ru/wp-content/uploads/2010/05/Google_mozaic_3.jpg" alt="Google_mozaic_3" width="615" height="410" /><br />
(Это Грег Блок сфоткал, не я.)</p>
<p>Весь процесс  сделан ещё и на видео, чтобы было ясно, как это всё реально делалось. (Камера щёлкала и делала снимок каждые 7 секунд, поэтому 5 с половиной часов сжаты в фильм на час двадцать.). Смотреть это видео лучше в высоком разрешении HD (на самом видео можно переключиться на другой код), на большом экране вы увидите даже мелкие фотографии.</p>
<p>Хочу поблагодарить всех, кто присылал мне фотографии, тратил своё время и мозговые клетки (я, кстати, вовсе не ожидал, что из всего этого унылого бетонного единообразия да с помощью даже десятка постеров что-то выйдет похожее!), чтобы данный проект получился. Отдельное спасибо Аде Ошини, Ане Хэррис, Бет Фостер, Кристоферу Аллену, Дэну Кроу, Дону Дрессеру, Гэбриэль Хьюг, Грегу Блоку, Джонатану Баркеру, Кайли Мэдисон, Людвику Гродски, Маартену Вильке, Ною Сэмуэльсу, Ною Вульфу, Райану Либенбергу, Ронни Боади, Саре Хантре и Симону Биркенхэду за предоставление в общей сложности порядка 4000 фотографий, а также Ане Хэррис, Аннабель Такер, Бет Фостер, Кэтлин Пантос, Гэвину Барнарду, Грегу Блоку, Джонатану Баркеру, Кайяль Патель, Марко Дуартэ, Майку Смиту, Робу Гейтсу, Симону Биркенхэду и Тому Эйлсу, всем, кто момогал мне в расклейке стены. И, разумеется, спасибо тебе Келли за терпение и поддержку в течение тех 40 или 50 часов, что всё это заняло!</p>
<p><object classid="clsid:d27cdb6e-ae6d-11cf-96b8-444553540000" width="640" height="385" codebase="http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,40,0"><param name="allowFullScreen" value="true" /><param name="allowScriptAccess" value="always" /><param name="src" value="http://www.youtube.com/v/rV6wRZRDci0&amp;color1=0xb1b1b1&amp;color2=0xd0d0d0&amp;hl=en_US&amp;feature=player_embedded&amp;fs=1" /><param name="allowfullscreen" value="true" /><embed type="application/x-shockwave-flash" width="640" height="385" src="http://www.youtube.com/v/rV6wRZRDci0&amp;color1=0xb1b1b1&amp;color2=0xd0d0d0&amp;hl=en_US&amp;feature=player_embedded&amp;fs=1" allowscriptaccess="always" allowfullscreen="true"></embed></object></p>
]]></content:encoded>
			<wfw:commentRss>http://googlemon.ru/goog/google_by_clay/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Опыт построения GOOG-411</title>
		<link>http://googlemon.ru/goog/opyt-postroeniya-goog-411/</link>
		<comments>http://googlemon.ru/goog/opyt-postroeniya-goog-411/#comments</comments>
		<pubDate>Thu, 23 Jul 2009 04:53:00 +0000</pubDate>
		<dc:creator><![CDATA[admin]]></dc:creator>
				<category><![CDATA[GOOG]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[goog-411]]></category>
		<category><![CDATA[language model]]></category>
		<category><![CDATA[voice recognition]]></category>
		<category><![CDATA[voice search]]></category>

		<guid isPermaLink="false">http://www.googlemon.ru/?p=1273</guid>
		<description><![CDATA[АННОТАЦИЯ Мы описываем наш первый опыт разработки и оптимизации GOOG-411, полностью автоматизированного бизнес-поиска при помощи голоса. Мы показываем, каким образом принятие итеративного подхода к разработке системы позволяет оптимизировать различные компоненты системы, таким образом постепенно улучшая показатели, с которыми взаимодействуют пользователи. Мы показываем, вклад различных источников данных в точность распознавания. Для языковой модели, построенной на списке&#8230;]]></description>
				<content:encoded><![CDATA[<p>АННОТАЦИЯ<br />
Мы описываем наш первый опыт разработки и оптимизации GOOG-411, полностью автоматизированного бизнес-поиска при помощи голоса. Мы показываем, каким образом принятие итеративного подхода к разработке системы позволяет оптимизировать различные компоненты системы, таким образом постепенно улучшая показатели, с которыми взаимодействуют пользователи. Мы показываем, вклад различных источников данных в точность распознавания. Для языковой модели, построенной на списке бизнес-объектов, мы видим почти линейное увеличение производительности с суммарным логарифмом тренировочных данных. На сегодняшний день, мы повысили показатель правильного распознавания на 25% и увеличили показатель успешных соединений на 35%.<span id="more-1273"></span></p>
<p>1. ВВЕДЕНИЕ<br />
GOOG-411 [1] является сервисом по поиску бизнес-объектов при помощи голоса. Пользователям предлагается назвать город и штат, а затем название конкретного бизнес-объекта или бизнес-категории (например, «компьютерные магазины»). Система распознавания речи преобразует голосовой пользовательский запрос в запрос, который подается в интернет-систему по поиску бизнес-объектов, Google Maps [2]. Google Maps возвращает отсортированный список предприятий. В зависимости от того, насколько точно это соответствует запросу пользователя, выдается от одного до восьми результатов запроса с помощью синтез речи (TTS). Пользователи могут выбрать определенный результат, соединиться по телефону с бизнесом-объектом или запросить SMS с информацией и картой. GOOG-411 в настоящее время работает только с английским языком и охватывает десятки тысяч городов по всей территории Соединенных Штатов.</p>
<p>Концепция голосового справочного сервиса 411 исследовалась в течение довольно многих лет (см. например, [3, 4, 5]), и было реализована в различных сервисах, включая 555 Tell [6], Live Search 411 [7] и Free 411 [8] в США. Как нам кажется, GOOG-411 был одной из первых реализованных служб 411, которая включала полный поиск по бизнес-объектам и категориям, и при обработке трудных запросов не происходило переключения на операторов. Наше основное допущение при таком выборе было в том, что, реализуя итерационный подход в обработке данных и соответствующих показателей, система будет автоматически улучшаться с течением времени. Наличие возможности переключения на оператора изменяет способ взаимодействия пользователя с системой. Чтобы избежать этого и сосредоточиться на конечном решении, мы решили не использовать операторов с самого начала. После краткого обзора системной архитектуры мы опишем процесс подготовки данных и измерения, которые мы проводим для улучшения GOOG-411. Затем мы более внимательно сосредоточимся на двух ключевых компонентах, акустических и языковых моделях, и завершим наше рассмотрение обзором высокоуровневых характеристик (UI) и их совершенствованием с течением времени.</p>
<p>2. СИСТЕМНАЯ АРХИТЕКТУРА<br />
На рисунке 1 показаны основные компоненты системы GOOG-411. Они включают в себя телефонную сеть, сервер приложений, который запускает голосовые приложения, TTS-сервер, сервер распознавания с акустическими, языковыми и фонетическим моделями (AM, LM, PM), сервис Google Maps для выполнения бизнес-запросов, и SMS-канал для передачи информации мобильным пользователям. Каждый из этих компонентов содержит свою собственную резервную копию и возможность балансировки нагрузки, потому что эта диалоговая система, многие из процессов которой асинхронны, в целом является достаточно сложным структурным образованием. Мы используем инфраструктуру Google (machine grid, GFS [9], Bigtable [10]) для резервирования, автоматического распределения; а также реализацию процессов несколькими сетями (multi-homed implementation) в целях обеспечения надежности и масштабируемости сервиса. Текущие показатели используются для контроля за системой, и в реальном масштабе времени вновь поступающие данные позволяют нам контролировать их качество.</p>
<p><img class="alignnone" src="http://lh6.ggpht.com/_kcIbFT-q5gw/SmRmBUYoy2I/AAAAAAAAAC0/NzgAuUZ9B9A/s512/schemaGOOG411.png" alt="" width="512" height="384" /></p>
<p>Рис. 1. Блок-схема GOOG-411</p>
<p>3. ПРОЦЕСС ПОДГОТОВКИ ДАННЫХ И ИЗМЕРЕНИЯ<br />
Важным аспектом нашей системы является оптимизация данных. С этой целью мы создали обширную систему подготовки данных. Все входящие звонки анализируются для определения жизнеспособности системы (проверка на сбои компонентов и т.д.) и отслеживается их качество (например, того, какая часть звонков достигла конечной точки в диалоге). Эти данные затем сохраняются, расшифровываются и используются для дальнейшего анализа, а также для перегруппировки основных компонентов системы. Затем эти данные обновляются в функционирующей системе. В течении всего времени новые данные используются для тестирования, остальные данные сгруппированы для тренировочных сетов. Данный тестовый подход позволяет нам контролировать пользовательский интерфейс и изменения инфраструктуры, отслеживать меняющиеся модели использования, и избегать использования устаревших тестовых установок.</p>
<p>Для оценки точности распознавания нашим основным показателем являются кривые оперативного приема (receiving-operating curves, ROC), которые показывают соотношение правильно распознанных (correct-accept, CA) и ложно распознанных (false-accept, FA) сигналов. Они оцениваются на уровне предложения в семантической интерпретации результатов распознавания; например, распознавание «гм, итальянский ресторан» вместо «Итальянский ресторан» считается корректным распознаванием (при условии, что коэффициент уверенности превосходит некоторый предопределенный порог, иначе гипотеза была бы исключена).</p>
<p>На системном уровне мы измеряем показатель успешных соединений (transfer rate), т.е. долю звонков, при которых пользователи соединяются с предприятиями или получают SMS с деталями результата запроса. Несколько упрощая, можно сказать, что этот показатель является в первом приближении верным показателем удовлетворения пользователей. Как показано в главе 6, он отражает изменения пользовательского интерфейса, улучшение инфраструктуры и возрастающей точности.</p>
<p>Наконец, на уровне продукта мы отслеживаем изменение трафика, что является еще одним свидетельством успешности работы этого сервиса. В следующих двух разделах мы рассмотрим более подробно наши эксперименты в области акустики и языкового моделирования. При представлении результатов здесь и в главе 6 мы сознательно избегаем показателей абсолютных значений, указывая вместо них лишь относительные. Отчасти из-за конкурентных причин, отчасти потому, что абсолютные цифры легко становятся ошибочными вне контекста. Например, абсолютные числа зависят от того, сохраняем мы или устраняем из тестовых сетов предложения, которые содержат непонятную речь или молчание, и насколько они часты. Они также зависят от того, включен ли в подсчет итоговый (back-end) поиск. Показатель успешных соединений (transfer rate) зависит от того, включаем ли мы в статистику звонки, когда пользователь повесил трубку прежде, чем что-либо сказать. Мы надеемся, что относительные показатели тем не менее окажутся информативными для научного сообщества.<br />
Эксперименты, описанные ниже, отражают показатели нашего существующего сервиса, которым интересующиеся читатели могут воспользоваться по телефону 1-800-GOOG-411 (1-800-466-4411). В общем, служба получила позитивные отзывы пользователей, демонстрируя высокую точность распознавания речи (уровень точности распознавания в диапазоне 50-80%), что делает ее полезной для пользователей и сопоставимой с коммерческими системами.</p>
<p>4. АКУСТИЧЕСКИЕ МОДЕЛИ<br />
Система распознавания речи – это стандартный recognizer, работающий на большом словаре, с PLP и LDA свойствами, на основе GMM triphone HMMs, моделями деревьев, STC [11] и на основе FST-поиска [12]. Чтобы натренировать систему необходимо совершит максимально возможную оптимизацию, осуществляемую во фреймворке mapreduce [13], что позволяет нам получать готовые модели в течение нескольких часов, даже при наличии больших объемов данных, в настоящее время на нескольких сотнях машин. Акустические модели, сравниваемые в данном разделе, не зависят от пола, одноцикличны и тренированы исключительно на образцах речи сервиса GOOG-411.<br />
<img class="alignnone" src="http://lh3.ggpht.com/_kcIbFT-q5gw/SmRmBaMlDHI/AAAAAAAAAC4/JzLegfLwmXg/s576/Fig.2.PNG" alt="" width="576" height="380" /></p>
<p>Рис. 2. Показатель эффективности в зависимости от количества тренировочных акустических данных.</p>
<p>Рисунок 2 показывает относительную эффективность ряда моделей, тренируемых на увеличивающемся объеме данных. Тест состоит приблизительно из 20,000 недавно собранных высказываний, в ответ на вопрос «Скажите называние компании или категорию?» (&#171;What business name or category?&#187;), охватывающих более, чем 3,000 городов. Структура акустических и языковых моделей постоянно проходят через ряд экспериментов. Тренировочные сеты сгруппированы так, чтобы мы могли представить результаты всех тренировочных материалов, которые собрали в первом полугодии, в первом квартале, в первом месяце и т.д. Наиболее обширные тренировочные сеты содержат выборку из тысяч часов речи.</p>
<p>Интересно отметить, что качество распознавания не увеличивается резко с количеством тренировочных данных (8% корректных распознаваний [CA] на 10% ложных распознаваний [FA] при коэффициенте роста тренировочных данных 64). Одной из причин может быть то, что тренировочные данные качественно подготовлены для тренировочных сетов как фонетически, так и акустически (одни и те же пользователи своими запросами могут участвовать как в тренировке системы, так и в ее тестировании, конечно разными звонками, но, вероятно, на одном и том же устройстве, а иногда и совершая один и тот же запрос). Другая причина может просто состоять в том, что мы еще недостаточно изучили этот факт.</p>
<p>5. ЯЗЫКОВЫЕ МОДЕЛИ<br />
Языковые модели – это комбинация n-грамных статистических лингвистических моделей (SLM) и внеконтекстных (context-free) грамматик. Они обучаются на трех источниках данных, что облегчает оптимизацию ROC&#8217;ов при обработке наборов данных.</p>
<p>Итак, во-первых, мы имеем данные по бизнес-объектам и местоположению: они обеспечивают необходимое покрытие покрытие, но официальные наименования компаний не всегда совпадают с теми, какими их именуют люди, например, «Google» вм. «Google Inc.» или «Starbucks» вм. «Starbucks coffee».</p>
<p>Во-вторых, мы имеет логи web-запросов к сервису Google Maps: это обширный корпус печатных запросов, которые лучше всего подходят для сервиса GOOG-411 (пользователи уже научились тому, что можно вводить «Google» или «Starbucks» для получения нужных ответов). Данные о запросах используются для определения вероятности LM, однако их приоритетность на Google Maps и GOOG-411 не всегда совпадают: например, «real estate» [«недвижимость»] является частым web-запросом, но редким голосовым запросом.</p>
<p>В-третьих, мы имеем речевую базу: транскрибированная речь, собранная благодаря обращениям в службу GOOG-411, оказывается наиболее подходящим видом данных. Во всех приведенных ниже экспериментах языковые модели сокращены, дабы приблизиться к распознаванию в реальном времени и ограничить время ожидания всей системы.</p>
<p><img class="alignnone" src="http://lh5.ggpht.com/_kcIbFT-q5gw/SmRmBguyagI/AAAAAAAAAC8/kkmNI2Gp9Ow/s576/Fig.3.PNG" alt="" width="576" height="392" /></p>
<p>Рис. 3. Показатели эффективности в зависимости от типа данных LM.</p>
<p>Рисунок 3 показывает эффективность работы системы в зависимости от типа данных LM. В настоящее время данные web-журнала демонстрируют, что наилучшими языковыми моделями являются те, которые построены на речевой базе, в процентном соотношении 6% корректных распознаваний на 10% неверных распознаваний между 2-мя LM. Показатели по данным бизнес-объектов гораздо хуже. Объединение 3-х источников данных (combo) дает дополнительно 5% корректных распознаваний (поверх web LM).<br />
<img class="alignnone" src="http://lh4.ggpht.com/_kcIbFT-q5gw/SmRmBrQtmuI/AAAAAAAAADA/KszjFe8g7fk/s576/Fig.4.PNG" alt="" width="576" height="391" /></p>
<p>Рис. 4. Показатели эффективности LM, построенные на речевых данных, как функция суммы LM тренировочных данных.</p>
<p>Рисунок 4 показывает эффективность LM по бизнес-объектам, полученную только на речевых данных, как функцию от объема речевых данных. Здесь снова показатели тренировочных данных отличаются на 2 пункта. Так как соответствующие ROC&#8217;и расположены примерно одинаково, по логу тренировочных данных мы можем заключить, что точность LM растет линейно. По этому показателю вклад речевых данных будет соответствовать вкладу (текущих) web-запросов, только когда мы соберем в 4 раза больше речевых данных (даже при том, что это все еще будет на порядок меньше, чем объем web-данных).</p>
<p><img class="alignnone" src="http://lh4.ggpht.com/_kcIbFT-q5gw/SmRmBlLVrxI/AAAAAAAAADE/wTQylrcALWM/s512/Fig.5.PNG" alt="" width="512" height="363" /></p>
<p>Рис. 5. Показатели эффективности, как функция от типа и количества LM тренировочных данных.</p>
<p>Рисунок 5 показывает эффективность работы диалога «askCityState», в зависимости от типа (web, речь, комбинированный) и размера речевой LM тренировочных данных. Будучи простой задачей, askCityState возрастает менее линейно. Здесь речевые данные выступают так же, как web-данные, которые были значительно обработаны, чтобы отделить города и штаты от запросов, со множеством показателей (полные уличные адреса и т.д.). Без такой обработки web-данные показали очень большое отклонение показателей. Сочетание речевых и (обработанных) web-данных обеспечивает наилучшее качество распознавания. Базы данных по объектам и местоположению не представили каких-либо дополнительных преимуществ.</p>
<p>6. ОБЩИЕ НАПРАВЛЕНИЯ УСОВЕРШЕНСТВОВАНИЯ<br />
Данный раздел дает общий взгляд на эволюцию GOOG-411 во времени. Многие факторы влияют на структуру использования данной услуги, это и изменение статистических моделей, изменения пользовательского интерфейса, изменения внутренней структуры сервиса, исправление ошибок, а также внешние события, такие как праздники, например.</p>
<p><img class="alignnone" src="http://lh3.ggpht.com/_kcIbFT-q5gw/SmRmHUvBZJI/AAAAAAAAADI/gJBQh9YzpkM/s576/Fig.6.PNG" alt="" width="576" height="399" /></p>
<p>Рис. 6. Показатели эффективности за все время.</p>
<p>Рисунок 6 показывает функцию распознавания во времени. Каждый ROC собирался на различных тестовых сетах (см. концепцию тестирования, описанную в разделе 3). Эти числа показывают, что при норме в 10% корректных распознаваний за прошлые 7 месяцев мы улучшили ее примерно на 25%.<br />
<img class="alignnone" src="http://lh6.ggpht.com/_kcIbFT-q5gw/SmRmHXPEZ-I/AAAAAAAAADM/gBjcs4PKpOU/s512/Fig.7.PNG" alt="" width="512" height="365" /></p>
<p>Рис. 7. Дневной трафик как временная функция<br />
<img class="alignnone" src="http://lh4.ggpht.com/_kcIbFT-q5gw/SmRmHWIKhmI/AAAAAAAAADQ/5YWrbJogsWQ/s512/Fig.8.PNG" alt="" width="512" height="371" /></p>
<p>Рис. 8. Показатель успешных соединений в зависимости от времени.</p>
<p>Рисунки 7 и 8 показывают число входящих вызовов в день, а также ежедневный показатель успешных соединений в течение одного года. Здесь отражены несколько интересных моментов. Точки A и B на графике показывают рост трафика в момент увеличения нашей рекламной кампании. Точка C – временный перерыв в работе системы. Точка Е на обоих графиках отмечает официальный старт сервиса GOOG-411 большим увеличением объема трафика, а также большое падение показателя успешных соединений: пользователи экспериментируют с системой и не стремятся дозвониться до компаний. Точке D соответствует спокойный период до официального запуска: мы остановили рекламу сервиса (снижение показателей звонков), поэтому абонентами были в основном пользователи, которые по назначению обращались в данную службу (пик показателя успешных соединений).</p>
<p>Точка F на графике успешных соединений отмечает начало эксперимента с пользовательским интерфейсом, где мы сократили результаты выдачи пользователям. Это провоцирует людей дозваниваться до компаний чаще. Точка G отмечает распространение сервиса на все штаты Америки. Точка H показывает интересную ошибку, когда части звонивших были предоставлены неверные результаты значительного числа запросов. Это отразилось падением показателя успешных соединений. Точки J и K показывают сбои инфраструктуры телефонии, с чем также связано падение показателя успешных соединений. Точка I это 4 июля [День независимости], день, когда пользователи, вероятно, были более заинтересованы в соединении с бизнес-объектами для совершения покупок.<br />
Мы могли бы проанализировать кривые более подробно. Но очевидно, что ни трафик, ни показатели соединений не расскажут нам все о пользователях, несмотря на то, что они отражают удивительно широкий аспект событий и оказываются весьма полезными для контроля за работой и развитием системы. Существует немало помех в кривых, которые являются результатом целого ряда трудно определяемых факторов. Это осложняет on-line эксперименты. Конечно возможно небольшое изменение пользовательского интерфейса, однако не ясно его воздействие на показатель успешных соединений, хотя, бесспорно, оно появится в конечном итоге. Для этого мы должны рассчитывать на нахождение более дробных показателей, и в конечном итоге поверить, что мы все делаем к лучшему, так же, как мы верим, когда оптимизируем модели распознавания.</p>
<p>7. ЗАКЛЮЧЕНИЕ<br />
Итак, мы применили итерационный подход для создания, применения и развития довольно сложной системы, основанной на голосовых запросах. Мы показали как, фокусируясь на данных, измерениях, а также постоянном совершенствовании системы, мы можем быстро улучшить низкоуровневые показатели, такие как точность распознавания речи так же, как высокоуровневые характеристики, связанные с пользователями. Вообще, мы нашли, что наличие доступа ко всему стеку продукта с возможностью гибко изменять его по желанию, а также наличие устойчивого потока увеличивающихся данных являются ключевыми факторами в нашей способности последовательно улучшать обслуживание в течение долгого времени.</p>
<p>8. ССЫЛКИ</p>
<p>[1] &#171;GOOG-411&#8243; http://www.google.com/goog411.</p>
<p>[2] &#171;Google Maps&#187; http://maps.google.com.</p>
<p>[3] L. Boves et al., &#171;ASR for automatic directory assistance: The SMADA project&#187; in Proc. ASR, 2000, pp. 249–254.</p>
<p>[4] N. Gupta et al., &#171;The AT&amp;T spoken language understanding system&#187; in IEEE Trans. ASLP, 2006, pp. 213–222.</p>
<p>[5] D. Yu et al., &#171;Automated directory assistance — from theory to practice&#187; Proc. Interspeech, 2007.</p>
<p>[6] &#171;555 Tell&#187; http://www.tellme.com/products/TellmeByVoice.</p>
<p>[7] &#171;Live search 411&#8243; http://www.livesearch411.com.</p>
<p>[8] &#171;Free 411&#8243; http://www.free411.com.</p>
<p>[9] S. Ghemawat et al., &#171;The google file system&#187; in Proc. SIGOPS, 2003, pp. 20–43.</p>
<p>[10] F. Chang et al., &#171;Bigtable: A distributed storage system for structured data&#187; in Proc. OSDI, 2006, pp. 205–218.</p>
<p>[11] M.J.F. Gales &#171;Semi-tied covariance matrices for hidden markov models&#187; Proc. IEEE Trans. SAP, May 2000.</p>
<p>[12] &#171;OpenFst Library&#187; http://www.openfst.org.</p>
<p>[13] J. Dean et al., &#171;Mapreduce: Simplified data processing on large clusters,&#187; in Proc. OSDI, 2004, pp. 137–150.</p>
<p><a target="_blank" href="http://habrahabr.ru/blogs/htranslations/64940/">via habrahabr.ru</a></p>
]]></content:encoded>
			<wfw:commentRss>http://googlemon.ru/goog/opyt-postroeniya-goog-411/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Cписок дочерних компаний</title>
		<link>http://googlemon.ru/goog/google-list-of-subsidiaries/</link>
		<comments>http://googlemon.ru/goog/google-list-of-subsidiaries/#comments</comments>
		<pubDate>Mon, 05 Mar 2007 06:22:17 +0000</pubDate>
		<dc:creator><![CDATA[admin]]></dc:creator>
				<category><![CDATA[GOOG]]></category>
		<category><![CDATA[Google]]></category>

		<guid isPermaLink="false">http://www.googlemon.ru/google/google-list-of-subsidiaries/</guid>
		<description><![CDATA[Google обнародовал список своих дочерних компаний: @Last Software, Inc. Android, Inc. Applied Semantics, Inc. Marc Broadcasting, Inc. Ganji Inc. Google International LLC Google LLC Google Payment Corp. Ignite Logic, Inc. JASS Inc. JG Productions Inc. JotSpot Inc. Kaltix Corporation Liquid Acquisition Corp. 2 Neotonic Software Corporation Nevengineering, Inc. Orkut.com, LLC Picasa LLC PiFidelity Holding Corporation&#8230;]]></description>
				<content:encoded><![CDATA[<p>Google обнародовал список своих дочерних компаний:</p>
<ul>
<li>@Last Software, Inc.</li>
<li>Android, Inc.</li>
<li>Applied Semantics, Inc.</li>
<li>Marc Broadcasting, Inc.</li>
<li>Ganji Inc.</li>
<li>Google International LLC</li>
<li>Google LLC</li>
<li>Google Payment Corp.</li>
<li>Ignite Logic, Inc.</li>
<li>JASS Inc.</li>
<li>JG Productions Inc.</li>
<li>JotSpot Inc.</li>
<li>Kaltix Corporation</li>
<li>Liquid Acquisition Corp. 2</li>
<li>Neotonic Software Corporation</li>
<li>Nevengineering, Inc.</li>
<li>Orkut.com, LLC</li>
<li>Picasa LLC</li>
<li>PiFidelity Holding Corporation</li>
<li>PiFidelity LLC</li>
<li>Scott Concepts, LLC</li>
<li>Scott Studios, LLC</li>
<li>SkillSet LLC</li>
<li>The Salinger Group LLC</li>
<li>Transformic, Inc.</li>
<li>Upstartle, LLC</li>
<li>Urchin Software Corporation</li>
<li>Where2 LLC</li>
<li>YouTube, LLC</li>
<li>ZipDash, Inc.</li>
<li>Aegino Limited</li>
<li>@Last Software, Ltd.</li>
<li>At Last Software GmbH</li>
<li>allPAY GmbH</li>
<li>bruNET GmbH</li>
<li>bruNET Holding AG</li>
<li>bruNET Schweiz GmbH</li>
<li>Endoxon Ltd.</li>
<li>Endoxon (India) Private Ltd.</li>
<li>Endoxon Prepress AG</li>
<li>Endoxon (Deutchland) GmbH</li>
<li>Google (Hong Kong) Limited</li>
<li>Google Advertising and Marketing Limited</li>
<li>Google Akwan Internet Ltda.</li>
<li>Google Argentina S.R.L.</li>
<li>Google Australia Pty Ltd.</li>
<li>Google Belgium NV</li>
<li>Google Bermuda Limited</li>
<li>Google Bermuda Unlimited</li>
<li>Google Brasil Internet Ltda.</li>
<li>Google Canada Corporation</li>
<li>Google Chile Limitada</li>
<li>Google Czech Republic s.r.o.</li>
<li>Google Denmark ApS</li>
<li>Google Finland OY</li>
<li>Google France SarL</li>
<li>Google Information Technology Services Limited Liability Company</li>
<li>Google Germany GmbH</li>
<li>Google India Private Limited</li>
<li>Google International Gmb</li>
<li>Google Ireland Holdings</li>
<li>Google Ireland Limited</li>
<li>Google Israel Ltd</li>
<li>Google Italy s.r.l</li>
<li>Google Japan Inc.</li>
<li>Google Korea, LLC.</li>
<li>Google Limited Liability Company &#8212; Google OOO</li>
<li>Google Mexico S. de R.L. de C.V.</li>
<li>Google Netherlands B.V.</li>
<li>Google Netherlands Holdings B.V.</li>
<li>Google New Zealand Ltd.</li>
<li>Google Norway AS</li>
<li>Google Payment Ltd.</li>
<li>Google Payment Hong Kong Limited</li>
<li>Google Payment Singapore Pte. Ltd.</li>
<li>Google Poland Sp. z o.o.</li>
<li>Google Singapore Pte. Ltd.</li>
<li>Google South Africa (Proprietary) Limited</li>
<li>Google Spain, S.L.</li>
<li>Google Sweden AB</li>
<li>Google Switzerland GmbH</li>
<li>Google UK Limited</li>
<li>Neven Vision KK</li>
<li>Neven Vision Germany GmbH</li>
<li>Leonberger Holdings B.V.</li>
<li>Reqwireless Inc.</li>
<li>Skydocks GmbH</li>
</ul>
<p align="left"><span id="more-251"></span></p>
<p align="left">Официальный источник: <a target="_blank" href="http://www.sec.gov/Archives/edgar/data/1288776/000119312507044494/dex2101.htm" title="Google companies">http://www.sec.gov/Archives/edgar/data/1288776/000119312507044494/dex2101.htm</a></p>
<p align="left">&nbsp;</p>
<p><!--adsense--></p>
]]></content:encoded>
			<wfw:commentRss>http://googlemon.ru/goog/google-list-of-subsidiaries/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google &#8212; финансовый отчет за 4й квартал</title>
		<link>http://googlemon.ru/goog/google-2006-4q-earnings/</link>
		<comments>http://googlemon.ru/goog/google-2006-4q-earnings/#comments</comments>
		<pubDate>Thu, 01 Feb 2007 00:00:18 +0000</pubDate>
		<dc:creator><![CDATA[admin]]></dc:creator>
				<category><![CDATA[GOOG]]></category>
		<category><![CDATA[Google]]></category>

		<guid isPermaLink="false">http://www.googlemon.ru/google/google-%d1%84%d0%b8%d0%bd%d0%b0%d0%bd%d1%81%d0%be%d0%b2%d1%8b%d0%b9-%d0%be%d1%82%d1%87%d0%b5%d1%82-%d0%b7%d0%b0-4%d0%b9-%d0%ba%d0%b2%d0%b0%d1%80%d1%82%d0%b0%d0%bb/</guid>
		<description><![CDATA[Google заявила, что заработала $1.03 миллиарда за последние три месяца 2006 года. За тот же квартал в 2005 году, цифра была $372.2 миллиона. Некоторые факты: * Google стал больше платить по программе AdSense: $916миллионов в 4м квартале против $825 миллионов в 3м квартале. * Увеличились платежи data-центрам и платежным системам: $307 миллионов * Google тратит&#8230;]]></description>
				<content:encoded><![CDATA[<p><img align="left" title="google report Q4" id="image203" alt="google report Q4" src="http://www.googlemon.ru/wp-content/uploads/2007/02/google_getty_01312007%5B1%5D.thumbnail.jpg" />Google заявила, что заработала $1.03 миллиарда за последние три месяца 2006 года. За тот же квартал в 2005 году, цифра была $372.2 миллиона.</p>
<div align="left"></div>
<p>Некоторые факты:</p>
<div align="left"></div>
<p>* Google стал больше платить по программе <a target="_blank" title="AdSense" href="http://adsense.googlemon.ru">AdSense</a>: $916миллионов в 4м квартале против $825 миллионов в 3м квартале.</p>
<div align="left"></div>
<p>* Увеличились платежи data-центрам и платежным системам: $307 миллионов</p>
<div align="left"></div>
<p>* Google тратит много денег на <span id="more-204"></span>IT: $367 миллионов, потраченных на IT инфраструктуру, сервера и сетевое оборудование.</p>
<div align="left"></div>
<p>* Больше половины расходов идут на бухгалтерию и внутренние услуги.</p>
<div align="left"></div>
<p>* Увеличение расходов на исследования и разработку: $1.28 миллиарда в 4ом квартале, что на $777 миллионов больше в год назад.<!--adsense--></p>
]]></content:encoded>
			<wfw:commentRss>http://googlemon.ru/goog/google-2006-4q-earnings/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Основатели Google вкладывают свои деньги в БиоЭтанол</title>
		<link>http://googlemon.ru/goog/google_money_goog/</link>
		<comments>http://googlemon.ru/goog/google_money_goog/#comments</comments>
		<pubDate>Wed, 10 May 2006 05:14:44 +0000</pubDate>
		<dc:creator><![CDATA[admin]]></dc:creator>
				<category><![CDATA[GOOG]]></category>
		<category><![CDATA[Деньги]]></category>

		<guid isPermaLink="false">http://www.googlemon.ru/2006/05/10/%d0%be%d1%81%d0%bd%d0%be%d0%b2%d0%b0%d1%82%d0%b5%d0%bb%d0%b8-google-%d0%b2%d0%ba%d0%bb%d0%b0%d0%b4%d1%8b%d0%b2%d0%b0%d1%8e%d1%82-%d1%81%d0%b2%d0%be%d0%b8-%d0%b4%d0%b5%d0%bd%d1%8c%d0%b3%d0%b8-%d0%b2-%d/</guid>
		<description><![CDATA[Несколько месяцев назад, основатели Google, Ларри Пейдж и Сергей Брин, приехали в Бразилию с ознакомлением индустрии по производству Биоэтанола &#8212; топлива на основе этилового спирта. В мае 2006 года, основываясь на данные &#8216;Cidade Biz&#8217;, Пейдж и Брин открыли в Сан Пауло новый офис, нацеливаясь на инвестирование в Биоэтанол. В прошлом году, они проинвестировали в Северной&#8230;]]></description>
				<content:encoded><![CDATA[<p><img align="left" id="image31" title="gsonar.jpg" alt="gsonar.jpg" src="http://www.googlemon.ru/wp-content/uploads/2006/05/gsonar.thumbnail.jpg" />Несколько месяцев назад, основатели Google, Ларри Пейдж и Сергей Брин, приехали в Бразилию с ознакомлением индустрии по производству Биоэтанола &#8212; топлива на основе этилового спирта. В мае 2006 года, основываясь на данные <a target="_blank" href="http://cidadebiz.oi.com.br/noticias/noticia.php?artigo_id=35196">&#8216;Cidade Biz&#8217;</a>, Пейдж и Брин открыли в Сан Пауло новый офис, нацеливаясь на инвестирование в Биоэтанол. В прошлом году, они проинвестировали в Северной Америке компанию <a target="_blank" href="http://www.nanosolar.com/">Nanosolar</a>, которая разрабатывает и выпускает тонкие солнечные батареи.</p>
<p><!--adsense--></p>
]]></content:encoded>
			<wfw:commentRss>http://googlemon.ru/goog/google_money_goog/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Google Q1</title>
		<link>http://googlemon.ru/goog/google_goog_q1/</link>
		<comments>http://googlemon.ru/goog/google_goog_q1/#comments</comments>
		<pubDate>Fri, 21 Apr 2006 02:09:00 +0000</pubDate>
		<dc:creator><![CDATA[admin]]></dc:creator>
				<category><![CDATA[GOOG]]></category>
		<category><![CDATA[Деньги]]></category>

		<guid isPermaLink="false">http://www.googlemon.ru/2006/04/20/114559704776270307/</guid>
		<description><![CDATA[Гугл (NASDAQ: GOOG) аннонсировал фин. результаты за первый квартал 2006 года. Через пару часов рынок акций выглядел примерно так. Официально Eric Schmidt заявил: &#171;У Google был квартал с нормальным ростом доходов, которые получены от самих продуктов Гугла, так и от сетевого маркетинга. Мы продолжаем вкладывать деньги в наши инфраструктуры и в людей. Сильные качества нашей&#8230;]]></description>
				<content:encoded><![CDATA[<p>Гугл (NASDAQ: GOOG) аннонсировал фин. результаты за первый квартал 2006 года. Через пару часов рынок акций выглядел примерно <a target="_blank" href="http://www.google.com/search?q=GOOG&#038;start=0&#038;ie=utf-8&#038;oe=utf-8&#038;client=firefox-a&#038;rls=org.mozilla:en-US:official">так</a>.</p>
<p>Официально Eric Schmidt заявил:<br />
&#171;У Google был квартал с нормальным ростом доходов, которые получены от самих продуктов Гугла, так и от сетевого маркетинга. Мы продолжаем вкладывать деньги в наши инфраструктуры и в людей. Сильные качества нашей бизнес модели, дают нам возможность инвестировать в наш бизнес, позволяя управлять и увеличивать рынок, а так же держать лидерство на нем.</p>
<p>Финансовый отчет выглядел примерно так:<br />
Доход: $2.25 миллиарда за квартал<br />
Увеличение на 79% по сравнению с 1м кварталом 2005 года и на 17% по сравнению с 4м кварталом 2005 года.</p>
]]></content:encoded>
			<wfw:commentRss>http://googlemon.ru/goog/google_goog_q1/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
