質問

現在、ユーザーインターフェイスと対話できるはずのアプリケーションのプロトタイプに取り組んでいます。

これで、すべてのユーザーインターフェイスには、ボタン、スクロールバー、入力フィールドなどのいくつかの共通要素があります。

機械学習を使用してそのようなユーザーインターフェイスをある方法で「解釈」したいと思います。このようなユーザーインターフェイスでは、後でユーザーインターフェイスを画像として入力し、プロトタイプにインターフェイスを「試して」、つまり、ボタンをクリックすることができます。 、スクロールバーを使用して、いくつかのテキストを入力フィールドなどに入力します。

多くの異なるUIがあるため、これは画像認識を使用して行う必要があることを知っています。

私は特にウェブサイト、開いたPDF(順番にフォームなどになる可能性がある)を持つAdobe Reader、および開いたドキュメントを持つ単語(これもフォームなどを含むことができる)に特に興味があります。

ここで、私の主な質問は、この分野で使用できる調査がすでに行われているのか、それともプロセスの一部に既存のツールがあるかどうかです。

どんな助けも感謝しています:)

役に立ちましたか?

解決

再発性ニューラルネットワークを試してみてください。 http://karpathy.github.io/2015/05/21/rnn-effectivence/. 。再発性ニューラルネットワークは、変数長の入力が与えられた変数長の出力シーケンスを出力できます。あなたの場合、再発性ニューラルネットワークは、ユーザーインターフェイスが与えられた場合、次のようなシーケンスを出力する可能性があります。ボタンをクリックし、フィールドを選択し、テキストを入力し、Enterを押します。別のインターフェイスの場合、ネットワークのみが出力される場合があります。1つのボタンをクリックし、別のボタンをクリックします。インターフェイスからインターフェイスまでのアクションのシーケンスとアクションの長さが大きく変わる可能性があるため、これは役立ちます。

また、強化学習を実験し、目的を持つアルゴリズムを構築することもできます(できるだけ少ないアクションで最終ページに到達します)。アルゴリズムは、ランダムなことを実行することから始まり(同じボタンをクリックするなど)、適切なアクションを実行するために時間の経過とともに徐々に学習します。そのルートに行くと、Alphaが行ったように、Deep LearningとMonte Carlo Tree Search(MCTS)を使用できます。

どちらの場合でも、多くの反復を実行する必要がある可能性が高いため、アルゴリズムをすばやくトレーニングできるフレームワークが必要になります。 Tensorflow(https://www.tensorflow.org/)は1つのオプションです(最近使用し始めましたが、使いやすいため、とても気に入っています)。 Tensorflowは、再発性神経ネットと深い神経ネットの両方を構築することができます。

ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top