パソコン・インターネット

2014年6月28日 (土)

GoogleChrome インストーラの直リン (2014/06,2014/08頃)

使いにくさが倍増しつつも進化はしている GoogleChrome。
Custom.css が廃止されたり、自家製拡張機能のインストールに制限がかけられたり、何かこうモヤモヤした変更が積み重ねられてゆく進化の方向性。
とはいえ、64bit版が chromium から canary と dev にようやく降りてきているのも進化。

これから beta と stable で2回は編集しそうな予感がするので以前のエントリを再編集せずに新規に再び 『GoogleChrome 単体インストーラの直リンを知る方法』。

GoogleChrome_DirectLinks.cmd

以前の時には省いていても通っていた OSのバージョン情報 と アーキ が 64bit版 の鍵になった模様、今でも省くと 32bit版 になる。
バージョンは Windows Vista の 6.0 より大きければとりあえずレスポンスが得られる、6.00001 とかでも。
プラットフォームに至っては platform="Macwinnnn" とかにしても今のところ弾かれない様子。

【2014/08/27:追記&変更】
stable 64bit のレスポンス確認、バッチファイル中の該当部分編集、タイトル変更
【2014/07/18:追記&変更】
beta 64bit のレスポンス確認、バッチファイル中の該当部分コメントアウト解除

| | コメント (0) | トラックバック (1)

2013年7月11日 (木)

Google Chrome 内蔵flash、PepperFlash をサクッと?更新

とある起動オプションが廃止され、コンテキストメニュー、ブックマークバー の表示がどうやっても間延びしてしまっている Google Chrome 28。
なんだかなー、と思いつつもこの点に関してはサイドバーと同じく頑として聞く耳を持たないご様子、ご立派、くそぅ

【2013/07/14 補足・追記】
こちらでも言及している間延びした表示に関し、廃止された --disable-new-menu-style に代わるオプション
--force-fieldtrials="NewMenuStyle/Compact2/" があったことが判明。
issue232299 から始まって このへん 辺りの 233188, 255436, 259531 などに拡散していく様が面白い。
UI変更が試行でなく本決まりであることを願いたい……

Google Chrome 28 というか v28.0.1500.71 に 内蔵flash 11.8.800.97 がタイミング的に入らなかったのは仕方ないとして、間が悪かったのか一日たってもアップデートされなかった Google Chrome 内蔵flash こと PepperFlash 。

今回も「一日待ってみた、が、音沙汰なし」なのでいつものごとく半手動アップデート。

起動オプションとしてショートカットに

--component-updater-debug=fast-update

を追加。
Google Chrome 28 を起動して待つことしばし、1分も経たないうちに 内蔵flash のアップデート完了。
常時有効にすべき起動オプションではないので、内蔵flash の更新を確認次第この起動オプションを外して作業完了。

プラグインで 内蔵flash の方だけ無効にしていても更新されるのは親切。
自動的に 無効→有効 にされるのは大きなお世話。
そりゃ、自分でアップデートしたからには使う意志あり、とみなされるのは分からないでもないけれど放置&更新でも同じ結果なのは何か納得しがたい。

今日現在(2013/07/11)の 開発版 dev 29.0.1547.15 は --component-updater-debug でなく --component-updater なのでこちらの起動オプション。

--component-updater=fast-update

canary 30.0.1562.0 ではもともと PepperFlash 11.8.800.97。
削除してアップデート、、、効かない、あれ?
こういうものだっけ? それとも便利な小技は潰される定め?

| | コメント (0)

2013年3月30日 (土)

Google日本語入力のインストーラをダウンロード

半年ほど前、GoogleChrome のインストーラの入手URLを調べた際についでに調べたGoogle日本語入力のmsiインストーラの直リンを知る方法。
2013/03/30現在、 Google日本語入力 のインストーラはバージョンさえ把握すれば直リンURLは規則的に決まっているので、直リンを知るためというより、Google日本語入力のインストーラをダウンロードする手間を簡略化するためのバッチファイル。

用意するもの

これら2つがパスの通った場所にあり使える状態なこと。

GoogleIME_ダウンロード.cmd

実行するとバッチファイル中で指定した場所にインストーラをリネームしてダウンロード。

インストールについて

インストーラはそのまま実行してインストールしようとしてもハマるので幾つかのお約束。

     
  1. インストーラを実行する際にはファイル名を元に戻す
      googlejapaneseinput32.msi もしくは googlejapaneseinput64.msi  
  2. 開発版の場合 orca で LaunchCondition の『このパッケージは開発版です~』の条件を「 Drop Row 」で削除
      編集後、保存して orca を閉じる  
  3. 必要に応じ上記2点を行った上でインストーラを実行してインストール  
  4. GoogleUpdate では自動的にアップデートされないので、毎回手動で更新

勝手にアップデートされない、というのは個人的には大きな長所。

【2013/07/02 追記 修正&変更】
  • 修正 '\' ⇒ "\"
  • 2013/07/02 14:00 頃にサーバーは開発版のバージョンは 1.11.1490.100 と返事をしていたものの、その時点では 404 not found でサーバー上に無い状態(18:00過ぎに上がった模様)でおかしな事になったため、ダウンロードエラー時にそこはかとなく対応
サーバーに上げてない(ように見える?)状態で先に応答を変えるって……

| | コメント (0) | トラックバック (0)

2012年12月 7日 (金)

PX-256M5P ファーム1.02へ

PX-256M5P  で 1.02 のファームが提供開始されたのでアップデート。
アップデート前は 1.01。
見たところiso形式でのみ(2012/12/07 22:56現在)の提供で、いまさら iso だけって個人的にはメンドクサイ状況。
恐らく今家で使える光学ドライブは、古の ThinkPadT42 のDVDのみ、DVD(CD)のブランクメディアとデスクトップ向けの光学ドライブは捨ててないのでどこかにあるはず、というレベル。

isoを解凍すると isolinux だったのでUSBメモリブートにしてやろうかと思ったけどそれも面倒、仕込んだUSBメモリもあるはずだけど、それがどれかまるで覚えていない。
というわけでPXEブート。
PXEブートで isoイメージ が使えるようになったのも結構前、まぁファームぐらい焼けるでしょう、と。

一回目、
失敗、メッセージ見た感じ detect にしくっているっぽい。
見ていると実行前はLinux系かと思っていたら、DOS系のツールだった。

二回目、
isoイメージをばらして、中身のfreeDOSディスクイメージをPXEブート、
メモリ不足でツールが起動しない、himem.exe は何をする人ぞ?

三回目、
再びisoイメージを PXEブート、ただしその前に BIOSで AHCIモード から SATAモード に変更。
アップデートが実行され今度はSSDが見つかり、ファームのアップデートは完了したメッセージ、ただし、完了後の再検出にタイムアウトで失敗、三回タイムアウトした後にプロンプトが返ってくる。
手動でもう一度ファームのアップデートを実行すると、1.02 になっていてもうファームのアップデートは走らない。

AHCIモードに戻してWindows起動後に CrystalDiskInfo でも 1.02 にアップしたことを確認。

nVidia nForce730a じゃなく今時の intel か AMD のチップセットなマザーならきっとすんなりアップデートできたのだろうと。
そもそも、PX-256M5P 本来のパフォーマンスがまるで発揮できない、多分ファーム更新の恩恵も乏しい nVidia nForce730a なマザーで使っているのが間違いだよなぁ。

| | コメント (0) | トラックバック (0)

2012年11月30日 (金)

GoogleChrome インストーラの直リン (2012/11, 2013/07頃)

キーワードが悪いのかググって1ページ目に目的の情報、『GoogleChrome 単体インストーラの直リンを知る方法』、が見あたらなかったのでメモ。

ほぼ固定であった GoogleChrome 単体インストーラの直リンが、一ヶ月ちょい前からその都度変化する文字列を含むようになってその時調べたもの、2012/10 下旬の話。

Windows向け GoogleChrome の安定版(stable)、アップデート(差分ではないフル版)、ベータ版(beta)、開発版(dev)、canaryのインストーラの直リンを知るためのバッチファイル。

GoogleChrome_DirectLinks.cmd

参考
Omaha Client-Server Protocol V3
https://code.google.com/p/omaha/wiki/ServerProtocol

任意のバージョンの直リンも得られそうな感じはするものの、試したかぎりうまく行かず
『その時点でダウンロード可能なもの』
しか直リンが分からないのが難。
また、暫くすると(バージョンが幾つか上がると?) 落とせなくなるのか beta,23.0.1271.40 や dev,24.0.1297.0 では今はもう単体インストーラが落とせない。
GoogleChrome 更新用バッチファイルでアップデート時に過去バージョンをアーカイブさせるべきか悩ましいところ。

任意のバージョンで自在に試す、のは canary や chromium の役目って分業になったのかな?

【2014/06/28 補足】
64bit版の直リンも拾えるものを『GoogleChrome インストーラの直リン (2014/06頃)』に
【2013/07/15 変更・追記】
通常は差分アップデートとして提供される場合に対応
例) Webのインストールでは 28.0.1500.71 がまずインストールされ、アップデートで 28.0.1500.72 になるなど直接最新版が入らない場合
エントリのタイトル変更、他
【2013/06/15 変更・追記】
サーバーのメンテ?で通常とは異なる時に何が起きたか判断しにくかったので、多少分かりやすくなるように変更
他、ココログの有難迷惑仕様にほんのりと対策
【2013/04/13 変更・追記】
canary も対象に含めたバッチファイルに差し替え & それに伴う変更

| | コメント (0) | トラックバック (0)

2012年11月 9日 (金)

GoogleChrome のソース表示とブックマークマネージャの表示を調整してみる

ソース表示のフォント

先日の続き。

以前の手法 span で括るというあまりに大雑把すぎたのが気にはなっていたので、少し調べて見ると先人の知恵を発見、大感謝。

Google Chrome のソースビューアを Komodo Edit(Dark Chalkboard)風にするカスタマイズ
なるほど、ソース表示の状態でもデベロッパーツールが使えたのね、目からウロコです。

変更したいのはソース表示のフォントだけなので Custom.css に以下の内容で追加。

div.webkit-line-gutter-backdrop + table .webkit-line-number,
div.webkit-line-gutter-backdrop + table .webkit-line-content,
div.webkit-line-gutter-backdrop + table .webkit-line-content * {
    font-family: "Migu 1M", "MeiryoKe_Gothic", monospace !important;
    line-height: 120% !important;
}

誤爆はしないと思うものの、一応ほんのりと絞ってみる。
   

ブックマークマネージャの行間

デベロッパーツールが意外な所?で使えたので、行間が広がって間延びしてしまっていた ブックマークマネージャ の表示も調整してみる。
使用フォントとフォントサイズに強く依存するので、環境ごとに調整が必要だと思われるものの、個人的には次の設定で落ち着く感じ、Custom.css に以下の内容も追加。

div.main > list#list > div[role="listitem"],   /* 右ペイン 行の高さ用     */
div.main > list#list > div[role="listitem"] *, /* 右ペイン フォント変更用 */
div.main > div#tree-container div.tree-item *, /* 左ツリー用              */
____dummy____  {
    font-family :  "Migu 1P", sans-serif !important;
    font-size: 10pt;
    line-height:  normal  !important;
}

/* 開閉アイコンの位置合わせ  24.0.1312.52 では不要 */
/*
div[has-children="true"] > span.expand-icon,
____dummy____  {
    margin-top: -6pt ;
}
*/

半角英数でない文字を入れているので『UTF-8 BOM 無し』で保存するのを忘れずに。

視覚的にはこんな感じ。

before
          Bookmarkmanager01

after
          Bookmarkmanager02

どちらかといえば ブックマークバー の行間の方をどうにかしたかったけど、そっちは不明。
【追記 2013/04/05, 2013/07/14, 2013/07/24】起動オプションの追加で一応回避可能、細かい調整は不明(不可?)
【追記 2013/09/19】 起動オプションの追加も根本的に不要になっていた

【2013/09/19 補足】
気が付くと chromium r222901 で変更が入って 2013/09/13 ごろからメニューの間隔と配色が変更されていた。効いている変更は Issue 267620 での
「メニューアイテムの適切な上下間隔 (compact2 相当)」
「コントラストの高い配色 (青に白文字)」
実に、、、実に長い間、我慢を強いられた……
配色はテーマが対応すればとも思うけど、あとは安定版にまで配色の変更が波及するのを待つだけ

このエントリの更新はこれで最後!

【2013/07/24 追記】
安定版 28.0.1500.72 にも NewMenuStyle/Compact2/ な設定が google からようやく配信されるようになった
残るはデフォルト値、と、取り残された chromium

【2013/07/18 補足】
chromium と安定版ばかり使っていて気が付かなかったけれど、試してみると
広い chromium    30.0.1569.0 (Developer Build 212268)
狭い canary    30.0.1567.1 (Official Build 211921) Aura
狭い dev    30.0.1566.2 (Official Build 211761)
狭い beta     29.0.1547.22 (Official Build 211613)
広い stable    28.0.1500.72 (Official Build 211400)
新規プロファイルの初回起動時には広いものの、2回目の起動以降狭くなっていた、あれ? こうだったっけ??
・・・狭くなるものではプロファイルにある 「Local State」に『variations_seed』が生成されていると狭くなるっぽい、google との通信を遮断すると生成されない、こういう設定が配信されてくるのか
該当箇所を Base64 でデコードすると確かに 『NewMenuStyle』 などの文字列が見える、、、chromium ……

【2013/07/14 補足・追記】
廃止された --disable-new-menu-style に代わるオプション
--force-fieldtrials="NewMenuStyle/Compact2/" があったことが判明
issue232299 から始まって このへん 辺りの 233188, 255436, 259531 などに拡散していく様が面白い

【2013/04/13 補足・追記】
chromium r193801 --disable-new-menu-style のオプションが廃止される。canary も既に効かなくなっているので安定版も近いうちに広がったメニューに手出しできなくなる模様……

【2013/04/05 補足・追記】
安定版でブックマークバーやコンテキストメニューが ver.24、ver.25系では元の間隔に戻っていたのが ver.26系で再び広がった。起動オプションに
--disable-new-menu-style
を追加すると元の状態に(ソース:2013/01/08 r175435以降)。
ブックマークマネージャで開閉アイコンの位置合わせは ver.24系以降不要になっていたので該当部分 css をコメント化に更新。
このエントリ、今日(2013/04/05)だけアクセス数がとんでもない数になっていた……

【2012/11/21 21:49:補足・追記】
chromium の r167957(2012/11/16) 以降では  line-height が 28px から 20px に変更されていたので、しばらくすれば元のような状態になりそう。
ただ、開発版 dev の 25.0.1323.1 や canary 25.0.1330.0 ではまだ 28px のままなので ”しばらく” がどの程度先の話になるのやら。

| | コメント (0) | トラックバック (0)

2012年10月14日 (日)

GoogleChrome のソース表示で Custom.css の影響

Custom.css を適当に弄っていると GoogleChrome のソース表示がプロポーショナルフォントで表示されてしまう件、とりあえずメモ。

 *  {
    font-family : "Migu 1VS", "Verdana", "Meiryo", sans-serif !important;
}

とか大雑把な事をすると、ソース表示がプロポーショナルフォントになってしまう。

少なくとも span が影響している模様で

 body, section, nav, article, aside, hgroup, header, footer,
 h1, h2, h3, h4, h5, h6, 
 p, blockquote, ol, ul, li, dl, dt, dd, figcaption, div, table,
 a, em, strong, small, s, cite, q,
 dfn, abbr, sub, sup, i, b, mark, ruby, rt, rp, bdo /*, span */
  {
    font-family : "Migu 1VS", "Verdana", "Meiryo", sans-serif !important;
}

はソース表示で固定ピッチフォントが維持され、

 body, section, nav, article, aside, hgroup, header, footer,
 h1, h2, h3, h4, h5, h6, 
 p, blockquote, ol, ul, li, dl, dt, dd, figcaption, div, table,
 a, em, strong, small, s, cite, q,
 dfn, abbr, sub, sup, i, b, mark, ruby, rt, rp, bdo, span
  {
    font-family : "Migu 1VS", "Verdana", "Meiryo", sans-serif !important;
}

はソース表示がプロポーショナルになってしまう。

| | コメント (0) | トラックバック (0)

2012年8月 9日 (木)

Outlook.comアカウント

ふと思いついて @outlook.com のメールアカウントを作成。
メインにする気は無いので @hotmail.com のアカウントのように windows のサービス関連に今後使っていくかもしれない程度の目的。

姓.名@gmail と同じく 姓.名@outlook で作成してみる、と作成可能。
メールの送受信を確認後、ふと思い立ち  姓_名@outlook でも作成してみる、これまた作成可能。

.姓@gmail は同姓同名の別の方が取得しているので _@outlook.姓@outlook を抑えに行かずスルー、作成できてしまうとややこしいので実際どうかは未確認。

姓_名@outlook → 姓.名@outlook → 姓.名@gmail の転送設定をしてアカウント作成完了。

さらにそういえば、と gmail で 姓_名@gmail は何で使わなかったんだっけ? と試してみたら _ は使えなかった、そういえばそうだった。

リソースの無駄を積み上げている気もするけど、この機会は逃せないのも事実。

| | コメント (0) | トラックバック (0)

2012年4月30日 (月)

Google日本語入力 手抜き入力辞書(≒省入力、≒一部短縮)

日本語入力で変換の精度以前に、ローマ字入力にしろ、カナ入力にしろ(できないけど)、キー入力は減らせるものなら減らしたい。

例えば、

アップデートする

あぷで』 → 『アップデート』 名詞,サ変
のように登録していれば
あぷでする』 → 『アップデートする
が可能、言うまでもなくとても有効な手段。
でも意味のある短縮をするとなると手作業での単語登録が面倒、かつ、その省略語を”知っている”、”覚えている”必要があるのである意味厄介。

多少入力が増えても機械的なルールに基づいて省入力できる方がつぶしが効く。
キーの配置的に入力が少し面倒な『』。
入力の手間はさほどでもないけれど省こうと思えば省ける『』。

標準読み  あっぷでーとする  →  アップデートする
追加読み あっぷでとする
あぷでーとする
あぷでとする
標準読み  ほっとかーぺっと  →  ホットカーペット
追加読み ほっとかぺっと
ほとかーぺと
ほとかぺと

というような変換を許容する『促音、長音(長音記号)の入力を省ける辞書』を作成。
作成した辞書ファイルは Google日本語入力 に限らず ATOK などでも使えるけれど、取りあえずここでは Google日本語入力 での話。

お世話になったサイトや方針など

辞書ファイルをゼロから作るのはしんどいので作成する辞書の素材にできる辞書を確保したり、辞書作成に必要なツールの使い方を確認したり。
当時とっかかりが相対的に簡単そうにみえた(?) sed で何とかなったので、本件は sed をバッチファイルから利用。

以上を踏まえ、あらためて大まかな方針を列挙すると

  • 促音、長音(長音記号)の入力を省ける辞書をそれぞれ作る
    例えば 『ホットカーペット』を
    ほとかぺと
    『ー』『っ』両方省略
    ほっとかぺっと
    『ー』のみ省略
    ほとかーぺと
    『っ』のみ省略
    の3パターン
  • 辞書はゼロから作成するのでなく、加工できるフリーな辞書(辞書素材)ファイルをゲットする
  • かな→英単語(?)
    • カナなどの日本語だけでなく、かな英単語変換(?)においても
      にゅよく』 → 『New York
      のようにする
    • かな→英単語(?) 変換においては状況から考えて、元々の品詞に関係なく全て「名詞」を割り当てて変換させる
  • 辞書ファイルの編集には sed を使う
  • 『ー』は SJIS のダメ文字のひとつなので注意する

というわけで情報収集など

感謝多謝!

準備するもの

辞書のもとファイルは Mozc のサイトから svn で拾ったり、ブラウザで辿って 「View raw file」 からダウンロードしたり、適当にゲット。

  1. 辞書のもと :その1
    辞書ファイル と 品詞の定義ファイル
    辞書の元ファイル最新の一覧を見るだけならここ (2012/04/29現在 r111)
    http://code.google.com/p/mozc/source/browse/#svn/trunk/src/data/dictionary
    • 辞書ファイル
      dictionary00.txt から dictionary09.txt の計10個 (各5MB程度)
    • 品詞の定義ファイル
      id.def
      (150KB程度)
    • 辞書ファイルのライセンスと Mozc の辞書に関する注意書き
      README.txt
    (Mozc 全体のライセンスはwebサイトの左の方にあるような、Mozc と Google日本語入力 の違いのページにあったような)
  2. 辞書のもと :その2 かな→英単語 変換用
    2012/04/29現在最新(r111)のファイルには かな→英単語 変換のもとが含まれていないので、かな→英単語 のもとを含むリビジョンの辞書ファイルを確保
    • 辞書ファイル r72 の dictionary09.txtr72_dictionary09.txt として保存
    • 品詞の定義ファイル r72 の id.def (※単語の品詞を適切に扱う場合には必要)
  3. 辞書登録時の単語の品詞一覧
    辞書ツールで品詞選択を目視するか次のファイルで確認
    trunk/src/data/rules/user_pos.def
  4. 編集の主役 sed
    UTF-8 を含む日本語マルチバイトに対応した sed である onigsed
    GNU sed with Oniguruma (Onigsed)
    http://www.kt.rim.or.jp/~kbk/sed/
    Onigsed 2009年10月31日バージョン
  5. 並べ替えに sort
    UTF-8 に対応した sort として sortl
    http://www.massangeana.com/mas/archive/archive.htm
    sortl 1.11
    Windows標準の sort は UTF-8 が適切に扱えないので不可
  6. 重複処理に uniq
    試した限りでは特に破綻無く処理できた
    GNU utilities for Win32 の GNU textutils に含まれる uniq
    http://unxutils.sourceforge.net/
  7. 他、必須ではないもの
    • ファイル分割に split
      上記 GNU utilities for Win32 の GNU textutils に含まれるので uniq とセットで
    • サンプルのバッチファイルで辞書の元ファイルをゲットするなら wget
      単一のバイナリですむ Wget 1.12 for windows (2012/03/16 現在 1.13.4 が最新) がお手軽

各ツールの exeファイルはパスの通った所に置くか、作業用フォルダに置いておく。

辞書ファイルの作成

各種ツールのexeファイルを作業フォルダに置くならこんな感じ。

作業フォルダ     
dicsource    辞書のもとファイルなど置き場 
dictionary00.txt ~ dictionary09.txt       辞書のもとファイル
r72_dictionary09.txt       辞書のもとファイル
dictmp    一時フォルダ (バッチファイル中で作成)
短縮辞書生成_長音.cmd    長音処理用バッチファイル
短縮辞書生成_促音.cmd    促音処理用バッチファイル
短縮辞書生成_長促音.cmd    長音と促音処理用バッチファイル
短縮辞書生成_r72かな英.cmd    かな→英単語(?)処理用バッチファイル
onigsed.exe    sed
sortl.exe    sort
split.exe    split ※
uniq.exe    uniq
長音.sed    長音処理用 sedスクリプト
促音.sed    促音処理用 sedスクリプト
長促音.sed    長音と促音処理用 sedスクリプト
r72かな英.sed    かな→英単語処理用 sedスクリプト
短縮辞書_まとめ.cmd    生成した辞書ファイルをひとつにまとめる ※
辞書の元ファイルget カナ英単語含む.cmd    辞書ファイルを wget でゲット ※
wget.exe    wget ※
gime_4-各種ショートカット作成.cmd    デスクトップに各種ショートカットアイコン作成 ※
               

※は必須という程でもないので必要に応じて

バッチファイル と sedスクリプト は 短縮辞書生成_長音.cmd長音.sed の組み合わせのようにペアで利用する。
処理の都合上バッチファイル名、sedスクリプトファイル名は固定。

各バッチ、スクリプトの内容

手間は大して変わらないので3パターン作成しているものの、実利用的には、『ー』『っ』両方省略、のパターンのみ生成しておけばとりあえずは十分。
なお、「短縮辞書生成_長音.cmd」「短縮辞書生成_促音.cmd」「短縮辞書生成_長促音.cmd」の三つのファイルの中身は同一、ファイル名が異なるだけ。
sedスクリプトは UTF-8 BOMなし で保存。

  1. 『ー』のみ省略用
    短縮辞書生成_長音.cmd


    長音.sed


  2. 『っ』のみ省略用
    短縮辞書生成_促音.cmd は「短縮辞書生成_長音.cmd」をリネームしたもの

    促音.sed


  3. 『ー』『っ』両方省略用
    短縮辞書生成_長促音.cmdは「短縮辞書生成_長音.cmd」をリネームしたもの

    長促音.sed


  4.  かな→英単語(?)処理用
    短縮辞書生成_r72かな英.cmd


    r72かな英.sed

    かな→英単語(?) 変換に必要部分だけを、 r72_dictionary09.txt の 103,372行目以降だけ、を処理

  5. 生成した辞書を一つにまとめる
    短縮辞書_まとめ.cmd

    まとめる対象となるファイル名は「短縮辞書_*-all.txt」のワイルドカードで決め打ち、誤爆に注意

  6. 辞書の元ファイルなどをダウンロードする
    辞書の元ファイルget カナ英単語含む.cmd

    最新の辞書ファイル群と r72 の dictionary09.txt とid.def をダウンロードする
    要 wget

  7. Google日本語入力のツール類のショートカットアイコンをデスクトップに作成
    gime_4-各種ショートカット作成.cmd

    Google日本語入力 の プロパティ、辞書ツール、単語登録、などのショートカットアイコンを作成
    アイコン作成は常に上書きで更新

辞書の作成と利用

  1. sedスクリプト を利用形態に合わせて適当に編集: Google先生に聞く「sed 置換 スクリプト」
  2. sedスクリプト 中の id と id.def および 辞書ファイル dictionaryXX.txt に齟齬がないかチェック
  3. 利用する辞書ファイルに合わせてバッチファイルを実行
    生成される辞書ファイル名はそれぞれ次の通り
    • 短縮辞書_長音-all.txt
    • 短縮辞書_促音-all.txt
    • 短縮辞書_長促音-all.txt
    • 短縮辞書_r72かな英-all.txt
  4. 生成された辞書ファイルを Google日本語入力 の 辞書ツール から適切に登録

『ー』『っ』両方省略用【短縮辞書_長促音-all.txt」】と、 かな→英単語(?)処理用【短縮辞書_r72かな英-all.txt】、の二つを生成&登録しておけば事は足りる。

留意事項

使い勝手や辞書とバッチファイルとスクリプトなど

  • 読みこそ異なるものの、ある種の重複した変換候補が増えるので、ウザくなる、というか ウザい
    辞書追加したては強烈にウザい、ユーザー辞書の登録後は結構強くて普通の語彙が下位に落ちるのでウザい
    特にサジェストが、より便利でもあるし、甚だウザい、とも
    ウザいけど便利
  • 各sedスクリプトに関して (かな→英単語? 変換用をのぞく)
    • 変換する語句全てを網羅している訳でないので必要に応じて、対象品詞を追加したり削ったり
    • サンプルでは辞書ファイルで割り当てられている左側(高位な品詞?)の「名詞,サ変接続」「名詞,一般」「名詞,固有名詞,一般」「名詞,固有名詞,地域,一般」「名詞,固有名詞,地域,国」「名詞,固有名詞,組織」「名詞,形容動詞語幹」に対応
    • かな→英単語(?) 変換用途以外の各sedスクリプトは、辞書ファイル及び品詞定義ファイルのリビジョンが変わるごとに見直す必要がある
      id.def, 長促音.sed 一部抜粋
      r111 1950 名詞,一般,*,*,*,*,*
      /^[^\t]+(?:ー|っ)[^\t]*\t1950/{
      r105 1941 名詞,一般,*,*,*,*,*
      /^[^\t]+(?:ー|っ)[^\t]*\t1941/{
      のようにリビジョンが上がって id に変更が入れば 各sedスクリプト も合わせて要編集
  • 短縮辞書生成_r72かな英.cmdr72かな英.sed に関して
    • 前述したように元々の品詞を無視してすべて名詞扱いにした上で処理
    • 『ー』のみ省略、『っ』のみ省略、『ー』『っ』両方省略、の3パターンを一括処理していて個別処理にしていないため辞書ファイルは多少大きめ、必要に応じて不要な処理をコメントアウトしたりするもよし
  • ユーザー辞書登録
    • 既に利用しているユーザー辞書に追加で登録すると、後で分離、は面倒なので、この入力短縮辞書用にユーザー辞書を新規追加してそこに登録することを強くオススメ
    • 重複単語に関しては辞書登録時に適切に処理されるので、それ程神経質になる必要はない
    • もとの辞書ファイルでハナから不適切な状態のデータとなっている幾つかの語は登録に失敗する
    • 語彙が豊富なほど使用メモリも増えるし、初回起動も遅くなる
      r111 で全部入りの辞書登録をした時にはデフォルト時に比べ軽く30MBは食う場合がある


覚え書き

  • 辞書登録語品詞で分かりにくいもの、「短縮よみ」と「抑制単語」に関して
    http://googlejapan.blogspot.jp/2011/07/google_21.html
    オフィシャルブログより一部引用
    短縮よみ
    「短縮よみ」として登録された単語は、単独で入力されたときのみに候補に表示されます。例えば、「六本木ヒルズ森タワー」を読み「じゅうしょ」で単語登録した場合、入力文字が「じゅうしょ」だけの場合に変換すると「六本木ヒルズ森タワー」が変換候補に出てきます
    抑制単語
    「抑制単語」として登録された単語は、変換候補に現れなくなります
  • ひとつのユーザー辞書における最大収録語数
    GoogleJapaneseInput-1.5.1053.100 では 1,000,000語
    • 1,000,000語 を超えた部分は切り捨て
    • なので 1.5.1053.100 で 約200,000語 程度はまだまだ余裕アリ?
    • 1,000,000語 まで登録そのものは可能だが、辞書ツールの操作や表示の更新が重たくなったり、
      Google日本語入力の使用メモリが 300MB ぐらいに増えたり(通常は20~50MB程度)
  • 登録語句の重複
    GoogleJapaneseInput-1.5.1053.100
    単一辞書内の重複語は辞書登録時に処理され一つになるので、辞書ファイルへの sort & uniq は必須ではない
    ただし、このエントリの手順で生成した辞書ファイルを一つにした場合、sort & uniq しないと重複が 1,000語 を軽く超えるので放置はキモイ
  • Mozc と Google日本語入力の違い
    http://code.google.com/p/mozc/wiki/AboutMozc
    Google日本語入力 で使っている辞書の元ファイルが欲しいね……
    個人で締結できる NDA なんて無さそうだけど NDA 結んだら提供してくれないかしら


雑感

ひとつのユーザー辞書に登録可能な語数は 1,000,000語、同期可能なユーザー辞書に登録可能な語数は、たったの 10,000語。
辞書はアクセスを厳重に管理した上で GoogleDrive にでも置けという事か?

sed じゃなく Perl とかが使えればもっとスマートに実現できるんだろうと夢想しつつ、昔も今も変わらず Perl など全く使えない。
この時言及した辞書ファイルは エクセル とテキストエディタで作っていたような微かな記憶が。

読みの文字数に下限と上限、変換後がカナと『ー』のみ、というような縛りをかけると便利になるような、がっかりするような。
いずれにせよ控えめに評価しても、ここの手法で作成した辞書を使うと語彙多すぎ。
Google日本語入力はお腹いっぱいの語彙、ATOK は以前からの人力登録辞書、のような住み分け使い分け。

多すぎない程度に充実したこの手の『ー』『っ』入力省略可能な辞書を、オフィシャルに作ってオプションの辞書にするとしたら、正しい日本語を標榜する ジャストシステム ではなくフリーダムな語彙を持つ Google な気がする。

【2012/05/01:追記】

  • sedスクリプトの文字コードに関して念の為に追記
  • 抜けていた「辞書の元ファイルget カナ英単語含む.cmd」に関する内容を追加
  • とくにおかしかった表現を修正

| | コメント (0) | トラックバック (0)

2011年8月17日 (水)

Google日本語入力 on WindowsXP x64 その3

【2011/11/29:追記】
2011年9月の、安定版では 1.2.825.0、開発版なら 1.2.831.100 から、webサイトからのインストールで蹴られることなく普通に XP x64 へインストールできるようになっていました。
コメントで情報をくれた方ありがとうございました。

Google日本語入力のインストーラの仕組みが変わってしまい、WindowsXP x64 においてアップデートでなく新規インストールができなくなって久しく。
今日(2011/08/17)公開されたっぽい 1.2.809.100 をながめていたところ「Windows 版のビルド方法を公開しました。」との一文、そこに単独インストールのヒントがあったのでメモ。
Google日本語入力 on WindowsXP x64 (2009/12/15)』と
Google日本語入力 on WindowsXP x64 その2 (2010/01/29)』の続き。

こんどの手順がいつまで有効なものか疑問を感じつつも、掲題の通り通算3度目のメモ。
『適当にやったら動いた』というレベルの話なのは変わらず。

アヤシゲなことをせずオープンソース版のビルドするのが正当な利用方法だと思いつつの話。

元ネタ、参考サイト

※ 今日(2011/08/17)現在のリンク

インストール手順

WindowsBuildInstructions に記載されていることを参考にしつつ「Google日本語入力」に合わせて適宜変更すると以下のような流れ。
「Google日本語入力」のデフォルトのインストール先は
C:\Program Files (x86)\Google\Google Japanese Input
なのでインストール先はここであるものとする。

  1. 64bit版のインストーラ今回は 1.2.809.100 なので
    http://dl.google.com/japanese-ime/1.2.809.100/googlejapaneseinput64.msi
    をダウンロード
  2. 7-Zip などで適当な場所に解凍
    1.2.809.100 の場合、ファイルは次の11個
    • credits_en.html
    • credits_ja.html
    • GIMEJa32.ime
    • GIMEJa64.ime
    • GoogleIMEJaBroker32.exe
    • GoogleIMEJaBroker64.exe
    • GoogleIMEJaCacheService.exe
    • GoogleIMEJaConverter.exe
    • GoogleIMEJaRenderer.exe
    • GoogleIMEJaTool.exe
    • handwriting_ja.model
  3. ファイルをコピー
    1. インストール先にそのままコピー
      • credits_en.html
        credits_ja.html
        GoogleIMEJaBroker32.exe
        GoogleIMEJaBroker64.exe
        GoogleIMEJaCacheService.exe
        GoogleIMEJaConverter.exe
        GoogleIMEJaRenderer.exe
        GoogleIMEJaTool.exe
    2. インストール先に名前を変更してコピー
      • handwriting_ja.model

        handwriting-ja.model
        に変更してインストール先にコピー
    3. Windowsのシステム SysWOW64、system32 へそれぞれ名前を変更してコピー
      • GIMEJa32.ime

        C:\WINDOWS\SysWOW64\GIMEJa.ime
        となるようにコピー
      • GIMEJa64.ime

        C:\WINDOWS\system32\GIMEJa.ime
        となるようにコピー
  4. 登録
    オプションを付けそれぞれ順次実行
    1. GoogleIMEJaBroker64.exe --mode=register_ime
    2. GoogleIMEJaTool.exe --mode=post_install_dialog

これで VMWare の WindowsXP x64 のなかで32bit版メモ帳、64bit版メモ帳、それぞれでGoogle日本語入力が使えるようになったことを取りあえず確認。手書き入力も。

雑感

正式ではない、アヤシイものの、ともあれバーチャルマシンの WindowsXP x64 の中でライセンスを気にせずに使える日本語入力が再び手に入ったことに。

1.2.809.100 と 1.1.773.100 で試してみたところ 1.1.773.100 では登録が上手くいかなくてインストールが失敗する、無反応な感じ。
それぞれのバージョンの GoogleIMEJaBroker64.exe で

>strings -n 8 GoogleIMEJaBroker64.exe >適当なファイル名.txt

のようにして 1.1.773.txt と 1.2.809.txt 二つの結果を検索したところ 1.2.809.100 にはある 「register_ime」と「unregister_ime」が 1.1.773.100 では見あたらない。
そりゃインストール失敗するのも当然か、といったところ。

オプションの変更がさり気なく入るのが早いか、「Google日本語入力」がオープンソース版と乖離するのが早いか。
冒頭にも書いたように、このインストール手順も短命に終わりそうな予感しかしない。

またインストーラの仕組みが変わってインストールできなくなると面倒なので 1.2.809.100 のインストーラは大切に保存しておこうと。
オープンソース版を自力でビルドするにはハードルが高いし……

どなたかオープンソース版のバイナリをコッソリ公開してくれないかなぁ、と虫のイイコトを考えてみたり。

| | コメント (2) | トラックバック (0)

より以前の記事一覧